このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240717となっている論文です。

PDF登録状況(公開日: 20240717)

TitleAuthorsAbstract論文公表日・翻訳日
# マルチモーダルロスレスDNAストレージのための構造安定化表現の学習

Learning Structurally Stabilized Representations for Multi-modal Lossless DNA Storage ( http://arxiv.org/abs/2408.00779v1 )

ライセンス: Link先を確認
Ben Cao, Tiantian He, Xue Li, Bin Wang, Xiaohu Wu, Qiang Zhang, Yew-Soon Ong, (参考訳) 本稿では,多モードロスレスDNAストレージのための表現を学習するための新しいエンド・ツー・エンドモデルである,リード・ソロモン符号化単本鎖表現学習(RSRL)を提案する。 既存の学習手法とは対照的に,提案手法は誤り訂正コーデックと構造生物学の両方に着想を得ている。 具体的には、RSRLはReed-Solomonコーデックによって変換されたバイナリデータから、後続のストレージの表現を学習する。 そして、RSコードインフォームドマスクによって表現をマスクし、学習プロセスで発生したバーストエラーの修正に集中する。 誤り訂正付き復号化表現を用いて、データ表現を規則化して安定な単本鎖構造を持つように、生物学的に安定な損失を定式化する。 これらの新しい戦略を取り入れることで、提案されたRSRLは、その後の保存タスクに対する高い耐久性、密度、損失のない表現をDNA配列に学習することができる。 提案したRSRLは,マルチモーダルデータストレージの実際のタスクにおいて,いくつかの強力なベースラインと比較されている。 その結果、RSRLは、情報密度と耐久性がはるかに高いがエラー率がはるかに低い様々な種類のデータを格納できることを示した。

In this paper, we present Reed-Solomon coded single-stranded representation learning (RSRL), a novel end-to-end model for learning representations for multi-modal lossless DNA storage. In contrast to existing learning-based methods, the proposed RSRL is inspired by both error-correction codec and structural biology. Specifically, RSRL first learns the representations for the subsequent storage from the binary data transformed by the Reed-Solomon codec. Then, the representations are masked by an RS-code-informed mask to focus on correcting the burst errors occurring in the learning process. With the decoded representations with error corrections, a novel biologically stabilized loss is formulated to regularize the data representations to possess stable single-stranded structures. By incorporating these novel strategies, the proposed RSRL can learn highly durable, dense, and lossless representations for the subsequent storage tasks into DNA sequences. The proposed RSRL has been compared with a number of strong baselines in real-world tasks of multi-modal data storage. The experimental results obtained demonstrate that RSRL can store diverse types of data with much higher information density and durability but much lower error rates.
翻訳日:2024-08-19 05:28:21 公開日:2024-07-17
# 知識に基づく大規模言語モデルによる感情認識の深部分析

In-Depth Analysis of Emotion Recognition through Knowledge-Based Large Language Models ( http://arxiv.org/abs/2408.00780v1 )

ライセンス: Link先を確認
Bin Han, Cleo Yau, Su Lei, Jonathan Gratch, (参考訳) 社会的状況における感情認識は、表情と状況文脈の両方からの情報を統合する必要がある複雑なタスクである。 感情の自動認識への従来のアプローチは、非テクスチャ化された信号に焦点を合わせてきたが、近年の研究は、感情の知覚を形作る上での文脈の重要性を強調している。 本稿では,人間の感情認識の心理学的理論を活用して,文脈に基づく感情認識の新たな分野に貢献する。 本稿では,感情認識手法とベイジアンキュー統合(BCI)を組み合わせる手法を提案する。 本手法は,受刑者のジレンマである社会的課題における表情の解釈の文脈で検証する。 以上の結果から,BCIの多様な自動感情認識手法に対する明確なサポートが得られた。 最も優れた自動化手法は、人間の観察者に匹敵する結果を達成し、この手法が感情コンピューティングの分野を前進させる可能性を示唆している。

Emotion recognition in social situations is a complex task that requires integrating information from both facial expressions and the situational context. While traditional approaches to automatic emotion recognition have focused on decontextualized signals, recent research emphasizes the importance of context in shaping emotion perceptions. This paper contributes to the emerging field of context-based emotion recognition by leveraging psychological theories of human emotion perception to inform the design of automated methods. We propose an approach that combines emotion recognition methods with Bayesian Cue Integration (BCI) to integrate emotion inferences from decontextualized facial expressions and contextual knowledge inferred via Large-language Models. We test this approach in the context of interpreting facial expressions during a social task, the prisoner's dilemma. Our results provide clear support for BCI across a range of automatic emotion recognition methods. The best automated method achieved results comparable to human observers, suggesting the potential for this approach to advance the field of affective computing.
翻訳日:2024-08-19 05:18:32 公開日:2024-07-17
# デジタル技術を用いたSTEM学習体験

Hands-on STEM Learning Experiences using Digital Technologies ( http://arxiv.org/abs/2408.00781v1 )

ライセンス: Link先を確認
Gaia Fior, Carlo Fonda, Enrique Canessa, (参考訳) STEM教育の促進は、有形・視覚的な例を利用して、学習者が科学をよりよく理解する機会を提供することによって促進することができる。 本研究の目的は,イタリア学校で実施した経験と活動について,この新たなアプローチで概説することである。 議論されたプロジェクトと経験の選択 - 学生がコラボレーション、創造性、批判的思考、実験、プロトタイプ、コミュニケーション、問題解決など、様々なコア能力を開発する。 これらのハンズオン体験は、STEM学習のためのFabLab内に実装されたデジタルファブリケーション技術の利点を示す。

The facilitation of STEM education can be enhanced by the provision of opportunities for learners to gain a better understanding of science through the utilization of tangible and visual examples. The objective of this work is to present an account of our experiences and activities carried out in Italian schools with this novel approach. The selection of projects and experiences discussed --in which students develop a range of core competencies such as collaboration, creativity, critical thinking, experimentation, prototyping, communication and problem-solving; include tangible complex 3D printed structures, large micro-controller board replicas and the visualization of wind dynamics and tiny invisible elementary particles among others. These hands-on experiences demonstrate the benefits on the use of digital fabrication technologies implemented within a FabLab for STEM learning.
翻訳日:2024-08-19 05:18:32 公開日:2024-07-17
# オブジェクト認識のためのDNNのデータ駆動検証

Data-driven Verification of DNNs for Object Recognition ( http://arxiv.org/abs/2408.00783v1 )

ライセンス: Link先を確認
Clemens Otte, Yinchong Yang, Danny Benlin Oswan, (参考訳) 本稿では、勾配のない最適化を用いたディープニューラルネットワーク(DNN)の新しいテスト手法を提案する。 画像中の線路を検知する画像セグメント化タスクに適用することにより、テスト画像の特定のクラスタ上での共通の摂動(例えば、雨、霧、ぼやけ、騒音)の特定の組み合わせに関して、テストされたDNNの弱点を識別できることを実証する。

The paper proposes a new testing approach for Deep Neural Networks (DNN) using gradient-free optimization to find perturbation chains that successfully falsify the tested DNN, going beyond existing grid-based or combinatorial testing. Applying it to an image segmentation task of detecting railway tracks in images, we demonstrate that the approach can successfully identify weaknesses of the tested DNN regarding particular combinations of common perturbations (e.g., rain, fog, blur, noise) on specific clusters of test images.
翻訳日:2024-08-19 05:18:32 公開日:2024-07-17
# 信じるか:MLの信仰の飛躍

Whether to trust: the ML leap of faith ( http://arxiv.org/abs/2408.00786v1 )

ライセンス: Link先を確認
Tory Frame, Julian Padget, George Stothart, Elizabeth Coulthard, (参考訳) 人類の信頼は、信頼できるAIの採用に不可欠である。 信頼は態度として一般的に理解されているが、これを正確に測定したり、管理したりすることはできない。 システム全体、ML、およびMLのコンポーネント部分に対する信頼を尊重するので、ほとんどのユーザは、MLを信頼するときに受ける信頼の跳躍を理解していません。 信頼を構築するための現在の取り組みは、MLのプロセスを説明するものである。これは、非MLの専門家が、それが複雑であるため理解するのが困難であり、説明は、彼ら自身の(知識のない)精神モデルとは無関係である。 本稿では、ユーザがMLを信頼するときに行う信仰の隆起(LoF)を識別し、測定することで、MLの本質的な信頼を直接構築する革新的な方法を提案する。 我々のLoF行列は、MLモデルがユーザーのメンタルモデルとどのように一致しているかを特定する。 このマッチは、ユーザのデータと目的関数を、MLモデルと専門家が検証したルールベースのAIモデルの両方に入力することで、厳密には事実上識別される。 LoF行列はモデルの出力と視覚的に対比するため、残りのML推論的な信仰の跳躍を識別することができる。 提案した信頼度尺度は,ユーザが行動を通じて信頼を示すかどうかを初めて測定し,結果に信頼に値するものをリンクする。 我々の貢献は、MLトラストドライバの実証的な評価と管理を可能にし、信頼できるML導入を支援するために重要である。 当社のアプローチは、組み込みAIを用いた睡眠改善システムの3ヶ月のパイロットとして、長期にわたるハイテイクフィールドスタディで説明されています。

Human trust is critical for trustworthy AI adoption. Trust is commonly understood as an attitude, but we cannot accurately measure this, nor manage it. We conflate trust in the overall system, ML, and ML's component parts; so most users do not understand the leap of faith they take when they trust ML. Current efforts to build trust explain ML's process, which can be hard for non-ML experts to comprehend because it is complex, and explanations are unrelated to their own (unarticulated) mental models. We propose an innovative way of directly building intrinsic trust in ML, by discerning and measuring the Leap of Faith (LoF) taken when a user trusts ML. Our LoF matrix identifies where an ML model aligns to a user's own mental model. This match is rigorously yet practically identified by feeding the user's data and objective function both into an ML model and an expert-validated rules-based AI model, a verified point of reference that can be tested a priori against a user's own mental model. The LoF matrix visually contrasts the models' outputs, so the remaining ML-reasoning leap of faith can be discerned. Our proposed trust metrics measure for the first time whether users demonstrate trust through their actions, and we link deserved trust to outcomes. Our contribution is significant because it enables empirical assessment and management of ML trust drivers, to support trustworthy ML adoption. Our approach is illustrated with a long-term high-stakes field study: a 3-month pilot of a sleep-improvement system with embedded AI.
翻訳日:2024-08-19 05:18:32 公開日:2024-07-17
# ヘルマン・ファインマンの定理といくつかのハミルトン作用素のスペクトル

The Hellmann-Feynman theorem and the spectrum of some Hamiltonian operators ( http://arxiv.org/abs/2408.00787v1 )

ライセンス: Link先を確認
Paolo Amore, Francisco M. Fernández, (参考訳) ここでは、よく知られたヘルマン=ファインマンの定理を利用して、いくつかの非相対論的ハミルトン作用素が無限個の有界状態をサポートすることを証明する。

In this short note we resort to the well known Hellmann-Feynman theorem to prove that some non-relativistic Hamiltonian operators support an infinite number of bound states.
翻訳日:2024-08-19 05:18:32 公開日:2024-07-17
# SpikeVoice: 効率的なスパイクニューラルネットワークによる高品質テキスト音声合成

SpikeVoice: High-Quality Text-to-Speech Via Efficient Spiking Neural Network ( http://arxiv.org/abs/2408.00788v1 )

ライセンス: Link先を確認
Kexin Wang, Jiahong Zhang, Yong Ren, Man Yao, Di Shang, Bo Xu, Guoqi Li, (参考訳) ブレインインスパイアされたスパイキングニューラルネットワーク(SNN)は、視覚、自然言語、音声理解タスクにおいて、その効果と効率を実証し、その「見る」、「聞く」、「読む」能力を示している。 本稿では,SNNを介して高品質のテキスト音声(TTS)を伝送する「textbf{SpikeVoice}」を設計し,SNNの「話す」可能性を探る。 このような生成タスクにSNNを使用する上での大きな障害は、モデルが長期的な依存関係を把握できることにある。 しかし、スパイクニューロンのシリアルな性質は、将来のスパイク時間ステップにおける情報の可視性をもたらし、SNNモデルは、同じ時間ステップ内でのみシーケンス依存をキャプチャするために制限される。 この現象を「部分的時間依存」と呼ぶ。 この問題に対処するために,スパイクボイスにおけるスパイキング時間連続注意STSAを紹介する。 私たちの知る限りでは、SpikeVoiceはSNN分野における最初のTS作業です。 我々は、中国語と英語の両方をカバーする4つの確立されたデータセットを用いて、単一話者と複数話者構成の両方でシナリオを包含する実験を行った。 その結果、SpikeVoiceは、ANNのエネルギー消費がわずか10.5であるArtificial Neural Networks (ANN)に匹敵する結果が得られることを示した。

Brain-inspired Spiking Neural Network (SNN) has demonstrated its effectiveness and efficiency in vision, natural language, and speech understanding tasks, indicating their capacity to "see", "listen", and "read". In this paper, we design \textbf{SpikeVoice}, which performs high-quality Text-To-Speech (TTS) via SNN, to explore the potential of SNN to "speak". A major obstacle to using SNN for such generative tasks lies in the demand for models to grasp long-term dependencies. The serial nature of spiking neurons, however, leads to the invisibility of information at future spiking time steps, limiting SNN models to capture sequence dependencies solely within the same time step. We term this phenomenon "partial-time dependency". To address this issue, we introduce Spiking Temporal-Sequential Attention STSA in the SpikeVoice. To the best of our knowledge, SpikeVoice is the first TTS work in the SNN field. We perform experiments using four well-established datasets that cover both Chinese and English languages, encompassing scenarios with both single-speaker and multi-speaker configurations. The results demonstrate that SpikeVoice can achieve results comparable to Artificial Neural Networks (ANN) with only 10.5 energy consumption of ANN.
翻訳日:2024-08-19 05:18:32 公開日:2024-07-17
# スマートファームにおける動的管理領域のための機械学習

Machine Learning for Dynamic Management Zone in Smart Farming ( http://arxiv.org/abs/2408.00789v1 )

ライセンス: Link先を確認
Chamil Kulatunga, Sahraoui Dhelim, Tahar Kechadi, (参考訳) デジタル農業は、プロの間で人気が高まり、現代のデータ駆動技術の普及とともに、新たな機会をもたらす。 デジタル農業のアプローチは、伝統的な農業システムを置き換えるために非常に合理的なコストで使用できる。 資源の大規模管理を最適化するのに非常に効果的であるが、従来の手法ではこの問題に対処できない。 本稿では,作物収量データ,標高・土壌テクスチャマップおよび利用可能なNDVIデータを用いた機械学習クラスタリングアルゴリズムに基づく動的管理ゾーン行列化手法を提案する。 提案手法は, 収率帯の空間的変動の解析に有用である。 地形や土壌の物理的特性を付加した歴史的収量データに基づく収量領域のデライン化は、農家が現場で永続的な問題を特定するサイト固有の管理プラクティスを経済的かつ持続的に展開するのに役立つ。 周波数マップの使用は、成長期において動的に変化する偶発的な問題を捉えることができる。 提案したゾーン管理手法は, 衛星によるNDVIモニタリングにより, 収量ポテンシャルと安定ゾーンを解析することにより, 農家や農業従事者がより効果的にN型肥料を施すのに役立つ。

Digital agriculture is growing in popularity among professionals and brings together new opportunities along with pervasive use of modern data-driven technologies. Digital agriculture approaches can be used to replace all traditional agricultural system at very reasonable costs. It is very effective in optimising large-scale management of resources, while traditional techniques cannot even tackle the problem. In this paper, we proposed a dynamic management zone delineation approach based on Machine Learning clustering algorithms using crop yield data, elevation and soil texture maps and available NDVI data. Our proposed dynamic management zone delineation approach is useful for analysing the spatial variation of yield zones. Delineation of yield regions based on historical yield data augmented with topography and soil physical properties helps farmers to economically and sustainably deploy site-specific management practices identifying persistent issues in a field. The use of frequency maps is capable of capturing dynamically changing incidental issues within a growing season. The proposed zone management approach can help farmers/agronomists to apply variable-rate N fertilisation more effectively by analysing yield potential and stability zones with satellite-based NDVI monitoring.
翻訳日:2024-08-19 05:18:32 公開日:2024-07-17
# ニューラルネットワーク高速化遺伝的アルゴリズムによるプレディザスタ計画のための空気移動性の改善

Improving Air Mobility for Pre-Disaster Planning with Neural Network Accelerated Genetic Algorithm ( http://arxiv.org/abs/2408.00790v1 )

ライセンス: Link先を確認
Kamal Acharya, Alvaro Velasquez, Yongxin Liu, Dahai Liu, Liang Sun, Houbing Song, (参考訳) 気象災害に関連する緊急作戦は、航空機と空港の両方で、特に徐々に衝突が近づいている場合、空輸に大きな課題をもたらす。 そこで本稿では,空港の運用スケジュールを事前に調整するための最適化フレームワークを提案する。 まず、複数の空港からの運用データを集約し、次に、通常の航空交通を妨げることなく、衝突した空港の出入口容量を最大化するために、避難便の最適な数を決定する。 次に、避難計画のための新しいニューラルネットワーク(NN)高速化遺伝的アルゴリズム(GA)を提案する。 実験の結果,積分は計算オーバーヘッドが小さいのと同等の結果が得られた。 NNの利用によりGAの効率が向上し,人口規模が小さくても,より迅速な収束が図れることがわかった。 この効果は、試験対象と異なる空港のデータに基づいてモデルが訓練された場合でも持続する。

Weather disaster related emergency operations pose a great challenge to air mobility in both aircraft and airport operations, especially when the impact is gradually approaching. We propose an optimized framework for adjusting airport operational schedules for such pre-disaster scenarios. We first, aggregate operational data from multiple airports and then determine the optimal count of evacuation flights to maximize the impacted airport's outgoing capacity without impeding regular air traffic. We then propose a novel Neural Network (NN) accelerated Genetic Algorithm(GA) for evacuation planning. Our experiments show that integration yielded comparable results but with smaller computational overhead. We find that the utilization of a NN enhances the efficiency of a GA, facilitating more rapid convergence even when operating with a reduced population size. This effectiveness persists even when the model is trained on data from airports different from those under test.
翻訳日:2024-08-19 05:18:32 公開日:2024-07-17
# 監視ビデオにおける異常検出のためのスケーラブルで一般化されたディープラーニングフレームワーク

A Scalable and Generalized Deep Learning Framework for Anomaly Detection in Surveillance Videos ( http://arxiv.org/abs/2408.00792v1 )

ライセンス: Link先を確認
Sabah Abdulazeez Jebur, Khalid A. Hussein, Haider Kadhim Hoomod, Laith Alzubaidi, Ahmed Ali Saihood, YuanTong Gu, (参考訳) ビデオにおける異常検出は、暴力、万引き、破壊など、複雑さ、騒音、多様な活動の性質のために困難である。 ディープラーニング(DL)はこの分野で優れた性能を示してきたが、既存のアプローチでは、広範囲な再訓練なしに様々な異常なタスクにDLモデルを適用するのに苦労している。 この反復的な再訓練は時間がかかり、計算集約的で不公平である。 そこで本研究では,特徴一般化向上のための伝達学習,特徴表現向上のためのモデル融合,複数タスク間の分類器をスクラッチから学習することなく一般化するマルチタスク分類という,3つの重要な要素からなる新しいDLフレームワークを提案する。 フレームワークの主な利点は、新しいタスクごとにスクラッチからトレーニングを必要とせずに、一般化できることである。 実証的な評価では、RLVSデータセットで97.99%、UCFデータセットで83.59%、両方のデータセットで88.37%の精度を達成した。 さらに、目に見えないデータセットでテストすると、フレームワークは87.25%の精度を達成した。 この研究は2つの説明可能性ツールを使用して、潜在的なバイアスを特定し、堅牢性と公正性を保証する。 この研究は、異常検出における一般化問題の最初の解決であり、この分野における重要な進歩を示している。

Anomaly detection in videos is challenging due to the complexity, noise, and diverse nature of activities such as violence, shoplifting, and vandalism. While deep learning (DL) has shown excellent performance in this area, existing approaches have struggled to apply DL models across different anomaly tasks without extensive retraining. This repeated retraining is time-consuming, computationally intensive, and unfair. To address this limitation, a new DL framework is introduced in this study, consisting of three key components: transfer learning to enhance feature generalization, model fusion to improve feature representation, and multi-task classification to generalize the classifier across multiple tasks without training from scratch when new task is introduced. The framework's main advantage is its ability to generalize without requiring retraining from scratch for each new task. Empirical evaluations demonstrate the framework's effectiveness, achieving an accuracy of 97.99% on the RLVS dataset (violence detection), 83.59% on the UCF dataset (shoplifting detection), and 88.37% across both datasets using a single classifier without retraining. Additionally, when tested on an unseen dataset, the framework achieved an accuracy of 87.25%. The study also utilizes two explainability tools to identify potential biases, ensuring robustness and fairness. This research represents the first successful resolution of the generalization issue in anomaly detection, marking a significant advancement in the field.
翻訳日:2024-08-19 05:18:32 公開日:2024-07-17
# 都市高齢化の機会と課題:自動化都市から高齢化都市へ

Opportunities and Challenges of Urban Agetech: from an Automated City to an Ageing-Friendly City ( http://arxiv.org/abs/2408.02072v1 )

ライセンス: Link先を確認
Seng W. Loke, (参考訳) 高齢者の介護、高齢化、高齢者の良好な生活を維持することは、特に高齢者の割合が高い国では、人々が長生きし、介護費が上昇するにつれ、重要度が増している。 本論では, 高齢者支援を必要ならば, 自動システム(ロボット, 自動走行車など)は, 一般の公共交通サービスと同様, 通常の都市機能・サービスとなる。

Caring for the elderly, aging-in-place, and enabling the elderly to maintain a good life continue to be topics of increasing importance, especially in countries with a higher percentage of older people, as people live longer, and care-giving costs rise. This position paper proposes the concept of urban agetech, where agetech services beyond the home can be an integral part of a modern ageing-friendly city, and where support for the elderly, where needed, in the form of automated systems (e.g., robots and automated vehicles) would be a normal city function/service, akin to the rather commonplace public transport services today.
翻訳日:2024-08-19 04:49:14 公開日:2024-07-17
# 画像診断のための条件付き生成逆数ネットワークの適用

Applying Conditional Generative Adversarial Networks for Imaging Diagnosis ( http://arxiv.org/abs/2408.02074v1 )

ライセンス: Link先を確認
Haowei Yang, Yuxiang Hu, Shuyao He, Ting Xu, Jiajie Yuan, Xingxin Gu, (参考訳) 本研究は,特に医用画像の困難な環境において,画像セグメンテーションの強化を目的とした,スタックド・ホアーグラス・ネットワーク(SHGN)と統合されたコンディショナル・ジェネレーション・アドバイザリアル・ネットワーク(C-GAN)の革新的な応用を紹介する。 我々は、複雑な画像データセットに適用されるディープラーニングモデルに共通するオーバーフィッティングの問題に、回転とスケーリングを通じてデータを増大させることで対処する。 血管内超音波(IVUS)画像において,L1とL2再構成損失を併用したハイブリッド損失関数を導入する。 我々のアプローチは、組織境界や血管構造などの医療画像内の異なる領域を、ドメイン固有の知識に大きく依存することなく正確に記述する能力に特有である。 このアルゴリズムは標準医用画像ライブラリを用いて評価され、既存の方法と比較して優れたパフォーマンス指標を示し、深層学習による医療診断の自動化の可能性を示した。

This study introduces an innovative application of Conditional Generative Adversarial Networks (C-GAN) integrated with Stacked Hourglass Networks (SHGN) aimed at enhancing image segmentation, particularly in the challenging environment of medical imaging. We address the problem of overfitting, common in deep learning models applied to complex imaging datasets, by augmenting data through rotation and scaling. A hybrid loss function combining L1 and L2 reconstruction losses, enriched with adversarial training, is introduced to refine segmentation processes in intravascular ultrasound (IVUS) imaging. Our approach is unique in its capacity to accurately delineate distinct regions within medical images, such as tissue boundaries and vascular structures, without extensive reliance on domain-specific knowledge. The algorithm was evaluated using a standard medical image library, showing superior performance metrics compared to existing methods, thereby demonstrating its potential in enhancing automated medical diagnostics through deep learning
翻訳日:2024-08-19 04:49:14 公開日:2024-07-17
# MCU-MixQ:MCUのためのHW/SW共最適化混合精度ニューラルネットワーク設計フレームワーク

MCU-MixQ: A HW/SW Co-optimized Mixed-precision Neural Network Design Framework for MCUs ( http://arxiv.org/abs/2407.18267v1 )

ライセンス: Link先を確認
Junfeng Gong, Cheng Liu, Long Cheng, Huawei Li, Xiaowei Li, (参考訳) ニューラルネットワーク処理に十分なデータ幅を利用する混合精度ニューラルネットワーク(MPNN)は、MCUのメモリや計算を含む厳しいリソース制約を満たすための効果的なアプローチである。 それでも、MCUクラスのISAにはサブバイトと混合精度のSIMD操作がまだ欠けており、MCUの限られた計算能力は未利用のままであり、ニューラルネットワーク処理で遭遇する計算能力はさらに増大している。 このため、MPNNの利点を完全には解き放たない。 本研究では,複数の低ビット幅演算を1命令のSIMD命令にまとめて,データ並列性と計算並列性の両方を畳み込みで探索し,効率的な畳み込み演算子を開発することを提案する。 最後に、ニューラルネットワークサーチ(NAS)を活用して、HW/SWが共同設計したMPNN設計フレームワーク、すなわちMCU-MixQを構築する。 このフレームワークはMPNN量子化とMPNN実装の効率を最適化し、ニューラルネットワークの性能と精度のバランスを最適化することができる。 実験結果によると,MCU-MixQ は CMix-NN と MCUNet でそれぞれ 2.1$\times$ と 1.4$\times$ を達成する。

Mixed-precision neural network (MPNN) that utilizes just enough data width for the neural network processing is an effective approach to meet the stringent resources constraints including memory and computing of MCUs. Nevertheless, there is still a lack of sub-byte and mixed-precision SIMD operations in MCU-class ISA and the limited computing capability of MCUs remains underutilized, which further aggravates the computing bound encountered in neural network processing. As a result, the benefits of MPNNs cannot be fully unleashed. In this work, we propose to pack multiple low-bitwidth arithmetic operations within a single instruction multiple data (SIMD) instructions in typical MCUs, and then develop an efficient convolution operator by exploring both the data parallelism and computing parallelism in convolution along with the proposed SIMD packing. Finally, we further leverage Neural Architecture Search (NAS) to build a HW/SW co-designed MPNN design framework, namely MCU-MixQ. This framework can optimize both the MPNN quantization and MPNN implementation efficiency, striking an optimized balance between neural network performance and accuracy. According to our experiment results, MCU-MixQ achieves 2.1$\times$ and 1.4$\times$ speedup over CMix-NN and MCUNet respectively under the same resource constraints.
翻訳日:2024-08-05 01:35:56 公開日:2024-07-17
# Matryoshka-Adaptor: より小さな埋め込み次元のための教師なしおよび教師なしチューニング

Matryoshka-Adaptor: Unsupervised and Supervised Tuning for Smaller Embedding Dimensions ( http://arxiv.org/abs/2407.20243v1 )

ライセンス: Link先を確認
Jinsung Yoon, Raj Sinha, Sercan O Arik, Tomas Pfister, (参考訳) 大規模言語モデル(LLM)からの埋め込みは、特に情報検索において、様々なアプリケーションにおいて重要なコンポーネントとして現れてきた。 高次元埋め込みは一般により健全な情報を含むため優れた性能を示すが、その実用的応用は計算遅延の増大とそれに伴うコストの上昇によってしばしば妨げられる。 これらの課題に対処するために,LLM埋め込みをカスタマイズするための新しいチューニングフレームワークであるMatryoshka-Adaptorを提案する。 Matryoshka-Adaptorは、同等の性能レベルを維持しながら、相当な次元削減を促進し、計算効率とコスト効率を大幅に向上させる。 我々のフレームワークは、いかなるLLMアーキテクチャともシームレスに統合できるように設計され、ブラックボックスAPIを通してのみアクセス可能なものを含む、事前訓練されたLLMからの埋め込みを直接修正します。 また、教師なしと教師なしの両方の学習環境において有効性を示す。 英語、多言語、多モーダルデータセットの多種多様なコーパスに対して行われた厳密な評価は、Matryoshka-Adaptorによる顕著な利得を一貫して示している。 特に、GoogleとOpenAI Embedding APIによって、Matryoshka-Adaptorは、複数のBEIRデータセットのパフォーマンスを損なうことなく、2倍から12倍の次元の縮小を実現している。

Embeddings from Large Language Models (LLMs) have emerged as critical components in various applications, particularly for information retrieval. While high-dimensional embeddings generally demonstrate superior performance as they contain more salient information, their practical application is frequently hindered by elevated computational latency and the associated higher cost. To address these challenges, we propose Matryoshka-Adaptor, a novel tuning framework designed for the customization of LLM embeddings. Matryoshka-Adaptor facilitates substantial dimensionality reduction while maintaining comparable performance levels, thereby achieving a significant enhancement in computational efficiency and cost-effectiveness. Our framework directly modifies the embeddings from pre-trained LLMs which is designed to be seamlessly integrated with any LLM architecture, encompassing those accessible exclusively through black-box APIs. Also, it exhibits efficacy in both unsupervised and supervised learning settings. A rigorous evaluation conducted across a diverse corpus of English, multilingual, and multimodal datasets consistently reveals substantial gains with Matryoshka-Adaptor. Notably, with Google and OpenAI Embedding APIs, Matryoshka-Adaptor achieves a reduction in dimensionality ranging from two- to twelve-fold without compromising performance across multiple BEIR datasets.
翻訳日:2024-08-05 00:56:24 公開日:2024-07-17
# 蒸気ローラー問題:自動理論によるLCM推論能力の評価

Steamroller Problems: An Evaluation of LLM Reasoning Capability with Automated Theorem Prover Strategies ( http://arxiv.org/abs/2407.20244v1 )

ライセンス: Link先を確認
Lachlan McGinness, Peter Baumgartner, (参考訳) 本研究では, 大規模言語モデル (LLM) が, ATP(Automated Theorem Provers) の導出に使用される推論戦略に従う能力について, 初めて検討した。 GPT4, GPT3.5 TurboおよびGoogleのGeminiモデルの性能をスチームローラー領域の問題に対して評価した。 精度の判断に加えて、自然言語処理ライブラリpaCyを使用して、LLMの推論能力を調査する新しい方法を模索する。 この結果、テスト対象のモデルに対して、正しい推論と正しい答えの相関が低いという警告結果が得られた。 その結果, ATP推論手法を用いた場合のモデル性能は, 思考のワンショット連鎖に匹敵するものであり, モデル性能に関する結論を導き出す際には, 精度における不確実性への注意が重要であることがわかった。 これまでの憶測と一致して、LLMにはボトムアップ推論プロセスが好まれており、従うのが最善であることを確認した。 しかし、この推論戦略は、信頼された推論エンジンによる外部処理のための、小さくて関連する公式の集合を導出するのにも有用である。

This study presents the first examination of the ability of Large Language Models (LLMs) to follow reasoning strategies that are used to guide Automated Theorem Provers (ATPs). We evaluate the performance of GPT4, GPT3.5 Turbo and Google's recent Gemini model on problems from a steamroller domain. In addition to determining accuracy we make use of the Natural Language Processing library spaCy to explore new methods of investigating LLM's reasoning capabilities. This led to one alarming result, the low correlation between correct reasoning and correct answers for any of the tested models. We found that the models' performance when using the ATP reasoning strategies was comparable to one-shot chain of thought and observe that attention to uncertainty in the accuracy results is critical when drawing conclusions about model performance. Consistent with previous speculation we confirm that LLMs have a preference for, and are best able to follow, bottom up reasoning processes. However, the reasoning strategies can still be beneficial for deriving small and relevant sets of formulas for external processing by a trusted inference engine.
翻訳日:2024-08-05 00:56:24 公開日:2024-07-17
# ヒトフィードバックインバージョンを用いたテキスト・画像拡散モデルの保護

Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion ( http://arxiv.org/abs/2407.21032v1 )

ライセンス: Link先を確認
Sanghyun Kim, Seohyeon Jung, Balhae Kim, Moonseok Choi, Jinwoo Shin, Juho Lee, (参考訳) 本稿では、潜在的に有害なコンテンツや著作権のあるコンテンツを生成するための大規模テキスト・画像拡散モデルから生じる社会的懸念に対処する。 既存のモデルは網羅的なデータに大きく依存しており、問題のある概念は不完全な濾過プロセスのために継続する。 従来のアプローチではこの問題をやや緩和するが、しばしばテキストで特定された概念に依存し、ニュアンスドの概念を正確に捉え、モデルの知識を人間の理解と整合させるという課題を提起する。 そこで本研究では,Human Feedback Inversion (HFI) というフレームワークを提案する。 提案手法は,人的判断との整合性を高めることを目的として,既存の手法に基づいて構築することができる。 そこで我々は, 自己蒸留技術を用いて, 学習目標を簡素化し, 概念除去のための強力なベースラインを提供する。 実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。

This paper addresses the societal concerns arising from large-scale text-to-image diffusion models for generating potentially harmful or copyrighted content. Existing models rely heavily on internet-crawled data, wherein problematic concepts persist due to incomplete filtration processes. While previous approaches somewhat alleviate the issue, they often rely on text-specified concepts, introducing challenges in accurately capturing nuanced concepts and aligning model knowledge with human understandings. In response, we propose a framework named Human Feedback Inversion (HFI), where human feedback on model-generated images is condensed into textual tokens guiding the mitigation or removal of problematic images. The proposed framework can be built upon existing techniques for the same purpose, enhancing their alignment with human judgment. By doing so, we simplify the training objective with a self-distillation-based technique, providing a strong baseline for concept removal. Our experimental results demonstrate our framework significantly reduces objectionable content generation while preserving image quality, contributing to the ethical deployment of AI in the public sphere.
翻訳日:2024-08-05 00:46:38 公開日:2024-07-17
# グラウンドド・マルチモーダル名前付きエンティティ認識のためのマルチグラインドクエリ誘導セット予測ネットワーク

Multi-Grained Query-Guided Set Prediction Network for Grounded Multimodal Named Entity Recognition ( http://arxiv.org/abs/2407.21033v1 )

ライセンス: Link先を確認
Jielong Tang, Zhenxing Wang, Ziyang Gong, Jianxing Yu, Shuang Wang, Jian Yin, (参考訳) Grounded Multimodal Named Entity Recognition (GMNER) は、与えられた文と画像のペアのデータから、エンティティスパン、タイプ、およびエンティティマッチングされたバウンディングボックスグラウンドを同時に抽出することを目的とした、新興情報抽出(IE)タスクである。 機械読解(MRC)フレームワークやシーケンス生成モデルを用いた最近の統一手法は、マルチモーダルエンティティの関係を理解する上で困難に直面している。 人間が設計したクエリを利用するMRCベースのフレームワークは、コネクション内接続のモデル化に苦労する。 一方、シーケンス生成に基づくアウトプットは、事前に定義されたデコード順序のため、エンティティ間の依存関係を過度に依存する。 このような問題に対処するために,マルチグラデーションクエリ誘導セット予測ネットワーク (MQSPN) という新しい統合フレームワークを提案する。 具体的には、MQSPNはMulti-grained Query Set (MQS)とMulti-modal Set Prediction Network (MSP)で構成されている。 MQSは、特定のタイプ粒度と学習可能なエンティティ粒度クエリを組み合わせることで、視覚領域をテキストスパンと明示的に整合させることで、コンテンツ内接続を適応的に強化する。 ソリッド・イントラエンタリティ・モデリングに基づいて、GMNERをセット予測として再構成し、非自己回帰的な方法でマルチモーダル・エンティティの並列予測を可能にし、先行シーケンスからの冗長な依存関係を排除し、グローバル・マッチングの観点から適切なイントラエンタリティ・リレーションを確立するためのモデルを導く。 さらに、二レベル関係の整合性を高めるために、MQSとMSP間のグルーネットワークとして機能するQuery-guided Fusion Net(QFNet)も組み込んでいます。 広範に使用されているベンチマークにおいて,本手法が最先端のパフォーマンスを実現することを示す。 特に,難解なGMNERベンチマークではF1が2.83%向上した。

Grounded Multimodal Named Entity Recognition (GMNER) is an emerging information extraction (IE) task, aiming to simultaneously extract entity spans, types, and entity-matched bounding box groundings in images from given sentence-image pairs data. Recent unified methods employing machine reading comprehension (MRC-based) frameworks or sequence generation-based models face challenges in understanding the relationships of multimodal entities. MRC-based frameworks, utilizing human-designed queries, struggle to model intra-entity connections. Meanwhile, sequence generation-based outputs excessively rely on inter-entity dependencies due to pre-defined decoding order. To tackle these, we propose a novel unified framework named Multi-grained Query-guided Set Prediction Network (MQSPN) to learn appropriate relationships at intra-entity and inter-entity levels. Specifically, MQSPN consists of a Multi-grained Query Set (MQS) and a Multimodal Set Prediction Network (MSP). MQS combines specific type-grained and learnable entity-grained queries to adaptively strengthen intra-entity connections by explicitly aligning visual regions with textual spans. Based on solid intra-entity modeling, MSP reformulates GMNER as a set prediction, enabling the parallel prediction of multimodal entities in a non-autoregressive manner, eliminating redundant dependencies from preceding sequences, and guiding models to establish appropriate inter-entity relationships from a global matching perspective. Additionally, to boost better alignment of two-level relationships, we also incorporate a Query-guided Fusion Net (QFNet) to work as a glue network between MQS and MSP. Extensive experiments demonstrate that our approach achieves state-of-the-art performances in widely used benchmarks. Notably, our method improves 2.83% F1 in the difficult fine-grained GMNER benchmark.
翻訳日:2024-08-05 00:36:46 公開日:2024-07-17
# 透かしレコメンダシステム

Watermarking Recommender Systems ( http://arxiv.org/abs/2407.21034v1 )

ライセンス: Link先を確認
Sixiao Zhang, Cheng Long, Wei Yuan, Hongxu Chen, Hongzhi Yin, (参考訳) レコメンダシステムは重要な商業価値を具現化し、重要な知的財産を代表している。 しかし、これらのシステムの完全性は、根底にあるモデルを盗もうとする悪意あるアクターによって常に問題視されている。 このような脅威に対する保護は、モデル所有者の権利と利益を維持するために最重要である。 モデル透かしは、様々な領域において強力な防御機構として現れてきたが、推奨システムへの直接的な適用は未探索であり、非自明である。 本稿では,レコメンダシステムに特化した新しい手法であるAutoregressive Out-of-distriion Watermarking (AOW)を導入することで,このギャップに対処する。 提案手法では,初期項目の選択とオラクルモデルによるクエリを行い,その後に予測スコアの小さい項目を選択する。 この反復的プロセスは、自動的にウォーターマークシーケンスを生成し、トレーニングを通じてモデルのメモリに浸透する。 透かしの有効性を評価するため、このモデルでは、切り捨てられた透かしシーケンスが与えられた後続の項目を予測することを課題とする。 実験と解析を通じて,AOWの優れた性能とロバスト性を示す。 特に, この透かし技術は, 高信頼抽出能力を示し, 蒸留や微調整プロセスの面でも有効性を維持する。

Recommender systems embody significant commercial value and represent crucial intellectual property. However, the integrity of these systems is constantly challenged by malicious actors seeking to steal their underlying models. Safeguarding against such threats is paramount to upholding the rights and interests of the model owner. While model watermarking has emerged as a potent defense mechanism in various domains, its direct application to recommender systems remains unexplored and non-trivial. In this paper, we address this gap by introducing Autoregressive Out-of-distribution Watermarking (AOW), a novel technique tailored specifically for recommender systems. Our approach entails selecting an initial item and querying it through the oracle model, followed by the selection of subsequent items with small prediction scores. This iterative process generates a watermark sequence autoregressively, which is then ingrained into the model's memory through training. To assess the efficacy of the watermark, the model is tasked with predicting the subsequent item given a truncated watermark sequence. Through extensive experimentation and analysis, we demonstrate the superior performance and robust properties of AOW. Notably, our watermarking technique exhibits high-confidence extraction capabilities and maintains effectiveness even in the face of distillation and fine-tuning processes.
翻訳日:2024-08-05 00:36:46 公開日:2024-07-17
# ロバストおよび安全なテキスト・ツー・イメージモデルのための直接非学習最適化

Direct Unlearning Optimization for Robust and Safe Text-to-Image Models ( http://arxiv.org/abs/2407.21035v1 )

ライセンス: Link先を確認
Yong-Hyun Park, Sangdoo Yun, Jin-Hwa Kim, Junho Kim, Geonhui Jang, Yonghyun Jeong, Junghyo Jo, Gayoung Lee, (参考訳) テキスト・ツー・イメージ(T2I)モデルの最近の進歩は、大規模なデータセットから大きな恩恵を受けているが、安全でないコンテンツの潜在的な発生による大きなリスクも生じている。 この問題を緩和するために、研究者は、潜在的に有害なコンテンツを生成するモデルの能力を除去する未学習の技術を開発した。 しかし、これらの手法は敵攻撃によって容易に回避され、生成画像の安全性を確保するには信頼性が低い。 本稿では,T2I モデルからNot Safe For Work (NSFW) コンテンツを取り除き,その性能を非関連トピックに保存する新しいフレームワークである Direct Unlearning Optimization (DUO) を提案する。 DUOは、キュレートされたペア画像データを使用して好みの最適化アプローチを採用し、モデルが無関係な特徴を維持しながら、安全でない視覚概念を除去することを確実にする。 さらに,安全なコンテンツに対するモデル生成能力を維持するために,出力保存正規化項を導入する。 FIDとCLIPのスコアによって測定されるように、広範にわたる実験により、DUOは無関係なトピックのパフォーマンスを著しく低下させることなく、様々な最先端のレッドチーム方式に対して堅牢に防御できることが示される。 私たちの仕事は、より安全で信頼性の高いT2Iモデルの開発に貢献し、クローズドソースとオープンソースの両方のシナリオにおける責任あるデプロイメントの道を開いたのです。

Recent advancements in text-to-image (T2I) models have greatly benefited from large-scale datasets, but they also pose significant risks due to the potential generation of unsafe content. To mitigate this issue, researchers have developed unlearning techniques to remove the model's ability to generate potentially harmful content. However, these methods are easily bypassed by adversarial attacks, making them unreliable for ensuring the safety of generated images. In this paper, we propose Direct Unlearning Optimization (DUO), a novel framework for removing Not Safe For Work (NSFW) content from T2I models while preserving their performance on unrelated topics. DUO employs a preference optimization approach using curated paired image data, ensuring that the model learns to remove unsafe visual concepts while retaining unrelated features. Furthermore, we introduce an output-preserving regularization term to maintain the model's generative capabilities on safe content. Extensive experiments demonstrate that DUO can robustly defend against various state-of-the-art red teaming methods without significant performance degradation on unrelated topics, as measured by FID and CLIP scores. Our work contributes to the development of safer and more reliable T2I models, paving the way for their responsible deployment in both closed-source and open-source scenarios.
翻訳日:2024-08-05 00:36:46 公開日:2024-07-17
# 行動位相クラスタリングに基づく運転パターンの解釈

Driving pattern interpretation based on action phases clustering ( http://arxiv.org/abs/2407.17518v1 )

ライセンス: Link先を確認
Xue Yao, Simeon C. Calvert, Serge P. Hoogendoorn, (参考訳) 運転行動メカニズムの観点からの基本パターンを理解する上での課題に直面する不均一性同定への最近のアプローチ 動作相の概念は, 運転特性の多様性を物理的意味で捉え, これまでの研究で提案した。 本研究では,非教師的手法で行動フェーズを分類することで,運転パターンをさらに解釈する新しい枠組みを提案する。 このフレームワークでは、最初にResampling and Downsampling Method (RDM)を適用し、アクションフェーズの長さを標準化する。 そして、クラスタ内のすべての差と類似度が予め決定された基準に達するまで、''Feature Selection''、'Clustering Analysis'、''Difference/Similarity Evaluation'、''Action phases Re- Extraction''を含むクラスタ校正手順を反復的に適用する。 現実世界のデータセットを使用したフレームワークの適用により、"'Catch Up''、'Keep away'、''Maintain distance'とラベル付けされたI80データセットの6つの駆動パターンが明らかになった。 特に、不安定パターンは安定パターンよりも多い。 「主距離」が最も一般的なパターンである。 これらの観察は運転の動的な性質と一致している。 US101データセットには'Stable keep away'と'Unstable catch up'という2つのパターンが欠けている。 これは、駆動不均一性を記述する上での駆動パターンの可能性を示している。 提案フレームワークは、教師付き学習におけるラベル不足に対処し、運転行動モデリングや運転軌道予測などのタスクを強化することの利点を約束する。

Current approaches to identifying driving heterogeneity face challenges in comprehending fundamental patterns from the perspective of underlying driving behavior mechanisms. The concept of Action phases was proposed in our previous work, capturing the diversity of driving characteristics with physical meanings. This study presents a novel framework to further interpret driving patterns by classifying Action phases in an unsupervised manner. In this framework, a Resampling and Downsampling Method (RDM) is first applied to standardize the length of Action phases. Then the clustering calibration procedure including ''Feature Selection'', ''Clustering Analysis'', ''Difference/Similarity Evaluation'', and ''Action phases Re-extraction'' is iteratively applied until all differences among clusters and similarities within clusters reach the pre-determined criteria. Application of the framework using real-world datasets revealed six driving patterns in the I80 dataset, labeled as ''Catch up'', ''Keep away'', and ''Maintain distance'', with both ''Stable'' and ''Unstable'' states. Notably, Unstable patterns are more numerous than Stable ones. ''Maintain distance'' is the most common among Stable patterns. These observations align with the dynamic nature of driving. Two patterns ''Stable keep away'' and ''Unstable catch up'' are missing in the US101 dataset, which is in line with our expectations as this dataset was previously shown to have less heterogeneity. This demonstrates the potential of driving patterns in describing driving heterogeneity. The proposed framework promises advantages in addressing label scarcity in supervised learning and enhancing tasks such as driving behavior modeling and driving trajectory prediction.
翻訳日:2024-07-28 17:59:54 公開日:2024-07-17
# 農村における持続可能な未来に向けたAIによるミニグリッドソリューションの探索

A Survey of AI-Powered Mini-Grid Solutions for a Sustainable Future in Rural Communities ( http://arxiv.org/abs/2407.15865v1 )

ライセンス: Link先を確認
Craig Pirie, Harsha Kalutarage, Muhammad Shadi Hajar, Nirmalie Wiratunga, Subodha Charles, Geeth Sandaru Madhushan, Priyantha Buddhika, Supun Wijesiriwardana, Akila Dimantha, Kithdara Hansamal, Shalitha Pathiranage, (参考訳) 本稿では,持続可能なエネルギーアクセス向上を目的とした,AI駆動型ミニグリッドソリューションの総合的な調査を行う。 遠隔地コミュニティに信頼性と安価な電力を提供するため、独立して、あるいは国家の電力網と連携して運用できるミニグレードの可能性を強調している。 太陽や風などの再生可能エネルギー源の本質的な予測不可能性を考慮し、正確なエネルギー予測と管理の必要性について論じ、エネルギー供給と需要の予測、グリッド運用の最適化、持続可能なエネルギー配分の確保における先進的AI技術の役割を強調した。 本稿では,統計的手法,機械学習アルゴリズム,ハイブリッドアプローチなど,様々な予測モデルについてレビューし,短期・長期の予測の有効性を評価する。 さらに、モデルの実装と検証のために、Prophet、NeuralProphet、N-BEATSといった公開データセットやツールについても検討している。 この調査は、将来の研究への推奨で締めくくられ、モデル適応と現実世界のアプリケーションへの最適化における課題に対処する。

This paper presents a comprehensive survey of AI-driven mini-grid solutions aimed at enhancing sustainable energy access. It emphasises the potential of mini-grids, which can operate independently or in conjunction with national power grids, to provide reliable and affordable electricity to remote communities. Given the inherent unpredictability of renewable energy sources such as solar and wind, the necessity for accurate energy forecasting and management is discussed, highlighting the role of advanced AI techniques in forecasting energy supply and demand, optimising grid operations, and ensuring sustainable energy distribution. This paper reviews various forecasting models, including statistical methods, machine learning algorithms, and hybrid approaches, evaluating their effectiveness for both short-term and long-term predictions. Additionally, it explores public datasets and tools such as Prophet, NeuralProphet, and N-BEATS for model implementation and validation. The survey concludes with recommendations for future research, addressing challenges in model adaptation and optimisation for real-world applications.
翻訳日:2024-07-24 21:54:39 公開日:2024-07-17
# SmartQuant: CXLベースのAIモデルストアで実行時設定可能なウェイト量子化をサポート

SmartQuant: CXL-based AI Model Store in Support of Runtime Configurable Weight Quantization ( http://arxiv.org/abs/2407.15866v1 )

ライセンス: Link先を確認
Rui Xie, Asad Ul Haq, Linsen Ma, Krystal Sun, Sanchari Sen, Swagath Venkataramani, Liu Liu, Tong Zhang, (参考訳) 近年の研究では、トランスフォーマーのような生成AIモデルに対する推論において、異なる重みの重要性は、文脈依存のかなりのバリエーションを示すことが明らかになっている。 これは自然に、生成するAI推論効率を改善するために、ウェイト量子化を適応的に設定する有望な可能性を示す。 構成可能な重み量子化は、現代のGPUやAIアクセラレータにおける可変精度演算のハードウェアサポートを、容易に活用できるが、従来の研究では、変動量量子化を利用してAIモデルのメモリアクセス速度とエネルギー効率を比例的に改善する方法が研究されていない。 急速に成熟したCXLエコシステムに動機づけられたこの研究は、このギャップを埋めるためのCXLベースの設計ソリューションを開発する。 鍵となるのは、CXLメモリコントローラが実行時設定可能な重み量子化をサポートし、活用する上で、アクティブな役割を果たすことである。 トランスフォーマーを代表的生成AIモデルとして使用し,提案手法の有効性を実証する実験を行った。

Recent studies have revealed that, during the inference on generative AI models such as transformer, the importance of different weights exhibits substantial context-dependent variations. This naturally manifests a promising potential of adaptively configuring weight quantization to improve the generative AI inference efficiency. Although configurable weight quantization can readily leverage the hardware support of variable-precision arithmetics in modern GPU and AI accelerators, little prior research has studied how one could exploit variable weight quantization to proportionally improve the AI model memory access speed and energy efficiency. Motivated by the rapidly maturing CXL ecosystem, this work develops a CXL-based design solution to fill this gap. The key is to allow CXL memory controllers play an active role in supporting and exploiting runtime configurable weight quantization. Using transformer as a representative generative AI model, we carried out experiments that well demonstrate the effectiveness of the proposed design solution.
翻訳日:2024-07-24 21:54:39 公開日:2024-07-17
# 人工知能は人工知能か?

Is Intelligence Artificial? ( http://arxiv.org/abs/1403.1076v9 )

ライセンス: Link先を確認
Kieran Greer, (参考訳) 我々の知性に対する理解は主に人間レベルに向けられている。 本稿では,自然界や人工知能全般に適用可能な,より統一的な定義を提案する。 この定義は、定量化よりも適格化に利用され、この問題に関する判断を下すのに役立つかもしれない。 正しい振る舞いが望ましい定義であるが、コルモゴロフの複素性理論に基づく計量が提案され、エントロピーに関する測度が導かれる。 承認されたAIテストのバージョンは、後に 'acid test' として提示され、フリー思考プログラムが達成しようとするものかもしれない。 著者による最近の研究は、機械的プロセスの方向性や、自動で動作するかもしれないものより多い。 本稿では,インテリジェンスが活動的なイベントであることに同意すると同時に,背景および機械的側面にも留意する。 この論文は知性と意識を少し違うものとみなすことを提案し、そこで意識はより機械的な側面である。 実際、驚くべき結論は、能動的で知的でない感覚によって引き起こされる受動的だが知的な脳である。

Our understanding of intelligence is directed primarily at the human level. This paper attempts to give a more unifying definition that can be applied to the natural world in general and then Artificial Intelligence. The definition would be used more to qualify than quantify it and might help when making judgements on the matter. While correct behaviour is the preferred definition, a metric that is grounded in Kolmogorov's Complexity Theory is suggested, which leads to a measurement about entropy. A version of an accepted AI test is then put forward as the 'acid test' and might be what a free-thinking program would try to achieve. Recent work by the author has been more from a direction of mechanical processes, or ones that might operate automatically. This paper agrees that intelligence is a pro-active event, but also notes a second aspect to it that is in the background and mechanical. The paper suggests looking at intelligence and the conscious as being slightly different, where the conscious is this more mechanical aspect. In fact, a surprising conclusion can be a passive but intelligent brain being invoked by active and less intelligent senses.
翻訳日:2024-07-23 02:37:22 公開日:2024-07-17
# 近傍隣り合う補間におけるラウンド機能の評価

Evaluation of Rounding Functions in Nearest-Neighbor Interpolation ( http://arxiv.org/abs/2003.06885v3 )

ライセンス: Link先を確認
Olivier Rukundo, (参考訳) 近近傍(NN)画像補間における最も適切な円関数の新たな評価法を提案する。 評価された丸め関数は、IEEE 754-2008標準で定義された5つの丸め規則の中から選択される。 実測値と非参照画像品質評価値の両方を用いて、丸め関数がNN補間画像品質に与える影響を研究・評価する。 目的とする事象に対する達成率の概念は、使用したテスト画像の数に基づいて達成率を決定するために用いられる。 差分統計解析を適用して、少数の画像から導出し、より多数の画像に対して各丸み関数の挙動の結論を導出する。 正規分布と信頼度は95%に等しいが, 評価された各丸み関数による最大および最小達成可能な事象は, 推論解析に基づく実験に基づいて提供される。

A novel evaluation study of the most appropriate round function for nearest-neighbor (NN) image interpolation is presented. Evaluated rounding functions are selected among the five rounding rules defined by the Institute of Electrical and Electronics Engineers (IEEE) 754-2008 standard. Both full- and no-reference image quality assessment (IQA) metrics are used to study and evaluate the influence of rounding functions on NN interpolation image quality. The concept of achieved occurrences over targeted occurrences is used to determine the percentage of achieved occurrences based on the number of test images used. Inferential statistical analysis is applied to deduce from a small number of images and draw a conclusion of the behavior of each rounding function on a bigger number of images. Under the normal distribution and at the level of confidence equals to 95%, the maximum and minimum achievable occurrences by each evaluated rounding function are both provided based on the inferential analysis-based experiments.
翻訳日:2024-07-23 02:37:22 公開日:2024-07-17
# ReLUニューラルネットワークの深さに関する下界に向けて

Towards Lower Bounds on the Depth of ReLU Neural Networks ( http://arxiv.org/abs/2105.14835v5 )

ライセンス: Link先を確認
Christoph Hertrich, Amitabh Basu, Marco Di Summa, Martin Skutella, (参考訳) 我々は、ReLUアクティベーションと所定のアーキテクチャを持つニューラルネットワークで表現できる関数のクラスをよりよく理解するために貢献する。 混合整数最適化、多面体理論、熱帯幾何学の技法を用いて、単一の隠れ層が任意の関数を学ぶのに十分であることを示す普遍近似定理に数学的に逆均衡を与える。 特に、表現可能な関数のクラスが(サイズに制限を伴わずに)より多くのレイヤを追加することによって厳密に増加するかどうかを考察する。 我々の研究の副産物として、Wang and Sun (2005) による断片線型関数に関する古い予想を肯定的に解決する。 また、対数深度を持つ関数を表現するために必要なニューラルネットワークのサイズについて、上限を提示する。

We contribute to a better understanding of the class of functions that can be represented by a neural network with ReLU activations and a given architecture. Using techniques from mixed-integer optimization, polyhedral theory, and tropical geometry, we provide a mathematical counterbalance to the universal approximation theorems which suggest that a single hidden layer is sufficient for learning any function. In particular, we investigate whether the class of exactly representable functions strictly increases by adding more layers (with no restrictions on size). As a by-product of our investigations, we settle an old conjecture about piecewise linear functions by Wang and Sun (2005) in the affirmative. We also present upper bounds on the sizes of neural networks required to represent functions with logarithmic depth.
翻訳日:2024-07-23 02:31:08 公開日:2024-07-17
# 非相互作用量子場理論におけるオントロジー状態

Ontological States in Non-Interacting Quantum Field Theories ( http://arxiv.org/abs/2407.13799v1 )

ライセンス: Link先を確認
Marcel van Kessel, (参考訳) これは、例えば 't Hooft' によって提案されたセルオートマトン理論のように、量子場理論の背後にある存在論的決定論の分野における論文である。 これらの理論では、現実の状態が正確に知られ、不確かさが存在しない存在論的状態が存在する。 また、これらの状態は時間的に決定的に進化する。 標準モデルの背後にある存在論的決定論を見つける最初のステップは、量子場論において、存在論的状態として振る舞う状態を見つけることである。 標準モデルで発生するすべての非相互作用(3+1-次元)量子場理論に対する存在論的状態を示す。 我々は、自由スカラーボソンと自由メイスレス・ディラックフェルミオンについて、文献から知られている存在論的状態について要約する。 ベクトルボソンに対する存在論的状態はスカラーボソンの場合と類似する。 これにより、実数と標準モデルで知られている全ての粒子に対する存在論的状態の集合が得られる。

This is a paper in the field of ontological deterministic theories behind Quantum Field Theories, like for example the cellular automaton theories proposed by 't Hooft. In these theories one has ontological states in which the state of reality is exactly known and no uncertainties are present. Also these states evolve in time deterministically. A first step in finding the ontological deterministic theory behind the Standard Model is to find in Quantum Field Theory the states that behave as ontological states. We present the ontological states for all non-interacting (3+1-dimensional) Quantum Field Theories occurring in the Standard Model. We summarize the ontological states for free scalar bosons and for free masless Dirac fermions, which are known from the literature. We construct the ontological states for vector bosons, in analogy to the scalar boson case. With this we have a set of ontological states for all particles that are known to occur in reality and in the Standard Model.
翻訳日:2024-07-22 21:39:27 公開日:2024-07-17
# テキスト品質が向上したLDMにおける疎透かし

Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality ( http://arxiv.org/abs/2407.13803v1 )

ライセンス: Link先を確認
Duy C. Hoang, Hung T. Q. Le, Rui Chu, Ping Li, Weijie Zhao, Yingjie Lao, Khoa D. Doan, (参考訳) LLM(Large Language Models)の普及により、潜在的な誤用に対する懸念が浮上した。 この目的のために、透かしはLLMに適応し、生成されたテキストを検出して監視するシンプルで効果的な方法を可能にした。 しかし、既存の手法では、高精度で透かしと無透かしを区別できるが、生成されたテキストの品質と透かしの有効性のトレードオフに直面することが多い。 本研究では,テキストに分散した生成トークンの小さなサブセットに透かしを適用して,このトレードオフを緩和することを目的とした,新しいタイプのLCM透かしであるスパース透かしを提案する。 鍵となる戦略は、特定のPart-of-Speech (POS)タグを持つ単語に透かし付きトークンを固定することである。 提案手法は,従来のLCM透かし法よりも高い品質のテキストを生成しつつ,高い検出性を実現していることを示す実験結果を得た。

With the widespread adoption of Large Language Models (LLMs), concerns about potential misuse have emerged. To this end, watermarking has been adapted to LLM, enabling a simple and effective way to detect and monitor generated text. However, while the existing methods can differentiate between watermarked and unwatermarked text with high accuracy, they often face a trade-off between the quality of the generated text and the effectiveness of the watermarking process. In this work, we present a novel type of LLM watermark, Sparse Watermark, which aims to mitigate this trade-off by applying watermarks to a small subset of generated tokens distributed across the text. The key strategy involves anchoring watermarked tokens to words that have specific Part-of-Speech (POS) tags. Our experimental results demonstrate that the proposed watermarking scheme achieves high detectability while generating text that outperforms previous LLM watermarking methods in quality across various tasks
翻訳日:2024-07-22 21:39:27 公開日:2024-07-17
# 動的交通環境における適応車追従の連続学習

Continual Learning for Adaptable Car-Following in Dynamic Traffic Environments ( http://arxiv.org/abs/2407.14247v1 )

ライセンス: Link先を確認
Xianda Chen, PakHin Tiu, Xu Han, Junjie Chen, Yuanfei Wu, Xinhu Zheng, Meixin Zhu, (参考訳) 自動運転技術の継続的な進化には、多様なダイナミックな交通環境に適応できる自動車追従モデルが必要である。 従来の学習ベースのモデルは、連続的な学習能力の欠如により、目に見えないトラフィックパターンに遭遇する際のパフォーマンス低下に悩まされることが多い。 本稿では,この制限に対処する連続学習に基づく新しい車追従モデルを提案する。 我々のフレームワークにはElastic Weight Consolidation(EWC)とMemory Aware Synapses(MAS)技術が組み込まれています。 我々は、様々な交通シナリオを含むWaymoとLyftのデータセット上で提案されたモデルの性能を評価する。 その結果, 連続学習法はベースラインモデルよりも有意に優れており, 全交通条件における衝突速度は0.5%であることがわかった。 本研究は、より堅牢で適応可能な自動車追従モデルの開発を促進することにより、自動運転技術の進歩に寄与する。

The continual evolution of autonomous driving technology requires car-following models that can adapt to diverse and dynamic traffic environments. Traditional learning-based models often suffer from performance degradation when encountering unseen traffic patterns due to a lack of continual learning capabilities. This paper proposes a novel car-following model based on continual learning that addresses this limitation. Our framework incorporates Elastic Weight Consolidation (EWC) and Memory Aware Synapses (MAS) techniques to mitigate catastrophic forgetting and enable the model to learn incrementally from new traffic data streams. We evaluate the performance of the proposed model on the Waymo and Lyft datasets which encompass various traffic scenarios. The results demonstrate that the continual learning techniques significantly outperform the baseline model, achieving 0\% collision rates across all traffic conditions. This research contributes to the advancement of autonomous driving technology by fostering the development of more robust and adaptable car-following models.
翻訳日:2024-07-22 17:44:33 公開日:2024-07-17
# 双構造正規化グラフ Laplacian: 多様体 Laplacian への収束と外部雑音へのロバスト性

Bi-stochastically normalized graph Laplacian: convergence to manifold Laplacian and robustness to outlier noise ( http://arxiv.org/abs/2206.11386v3 )

ライセンス: Link先を確認
Xiuyuan Cheng, Boris Landa, (参考訳) 双確率正規化(bi-stochastic normalization)はグラフベースのデータ解析においてグラフラプラシアンの代替正規化を提供し、シンクホーン・ノック(SK)反復によって効率的に計算できる。 この論文は、高次元空間に埋め込まれた一般の$d$次元多様体から、$n$のデータ点が i.d.d.d.d. であるときに、ラプラシアンを(重み付き)ラプラシアンへ収束させることを証明している。 ある結合極限$n \to \infty$とカーネル帯域$\epsilon \to 0$の下では、グラフラプラシアン作用素(2ノルムの下では)の点収束速度は$O(n^{-1/(d/2+3)}$と証明され、有限大の$n$からログ係数まで、$\epsilon \sim n^{-1/(d/2+3)}$のスケーリングで達成される。 多様体データが外乱ノイズによって破損した場合、理論上は、クリーンな多様体データの速度に一致するグラフラプラシア点の整合性に加えて、ノイズベクトルの内積とデータベクトルとの有界性に比例した追加項を証明します。 本分析は, 両確率正規化ではなく近似正規化が同じ整合性を達成することを示唆するものであり, 早期終了を伴うSK反復によって解ける近似的・制約的行列スケーリング問題を提案する。 数値実験により理論的結果が裏付けられ, 二次元正規化グラフラプラシアンの高次元外乱雑音に対するロバスト性を示す。

Bi-stochastic normalization provides an alternative normalization of graph Laplacians in graph-based data analysis and can be computed efficiently by Sinkhorn-Knopp (SK) iterations. This paper proves the convergence of bi-stochastically normalized graph Laplacian to manifold (weighted-)Laplacian with rates, when $n$ data points are i.i.d. sampled from a general $d$-dimensional manifold embedded in a possibly high-dimensional space. Under certain joint limit of $n \to \infty$ and kernel bandwidth $\epsilon \to 0$, the point-wise convergence rate of the graph Laplacian operator (under 2-norm) is proved to be $ O( n^{-1/(d/2+3)})$ at finite large $n$ up to log factors, achieved at the scaling of $\epsilon \sim n^{-1/(d/2+3)} $. When the manifold data are corrupted by outlier noise, we theoretically prove the graph Laplacian point-wise consistency which matches the rate for clean manifold data plus an additional term proportional to the boundedness of the inner-products of the noise vectors among themselves and with data vectors. Motivated by our analysis, which suggests that not exact bi-stochastic normalization but an approximate one will achieve the same consistency rate, we propose an approximate and constrained matrix scaling problem that can be solved by SK iterations with early termination. Numerical experiments support our theoretical results and show the robustness of bi-stochastically normalized graph Laplacian to high-dimensional outlier noise.
翻訳日:2024-07-20 00:38:23 公開日:2024-07-17
# 言語モデルによる推論作業における人間的コンテンツの影響

Language models show human-like content effects on reasoning tasks ( http://arxiv.org/abs/2207.07051v4 )

ライセンス: Link先を確認
Ishita Dasgupta, Andrew K. Lampinen, Stephanie C. Y. Chan, Hannah R. Sheahan, Antonia Creswell, Dharshan Kumaran, James L. McClelland, Felix Hill, (参考訳) 推論はインテリジェントシステムにとって重要な能力である。 大規模言語モデル (LM) は抽象的推論タスクにおいて上述のパフォーマンスを達成するが、多くの不完全性を示す。 しかし、人間の抽象的推論も不完全である。 例えば、人間の推論は現実世界の知識や信念に影響され、顕著な「コンテンツ効果」を示す。 これらの内容に絡み合った推論パターンは、人間の知性の基本的性質に関する議論において中心的な役割を果たす。 ここでは、言語モデル $\unicode{x2014}$ が人間の知識のいくつかの側面を捉えた事前の期待値 $\unicode{x2014}$ が、同様にコンテンツを論理問題への解に混ぜるかどうかを検討する。 本研究では,3つの論理的推論課題である自然言語推論,シロジズムの論理的妥当性の判断,およびウェーソン選択課題について検討した。 我々は、現在最先端の大規模言語モデルと人間を評価するとともに、言語モデルがこれらのタスク全体で観察される同じパターンの多くを反映していることに気付き、タスクの意味的内容が論理的推論をサポートする場合に、より正確に答える。 これらの並列性は、応答パターンと、モデル応答分布と人間の応答時間との関係のような低レベルの特徴の両方に反映される。 ヒトにおける認知的影響と言語モデルの性能に寄与する要因の理解に影響を及ぼす。

Reasoning is a key ability for an intelligent system. Large language models (LMs) achieve above-chance performance on abstract reasoning tasks, but exhibit many imperfections. However, human abstract reasoning is also imperfect. For example, human reasoning is affected by our real-world knowledge and beliefs, and shows notable "content effects"; humans reason more reliably when the semantic content of a problem supports the correct logical inferences. These content-entangled reasoning patterns play a central role in debates about the fundamental nature of human intelligence. Here, we investigate whether language models $\unicode{x2014}$ whose prior expectations capture some aspects of human knowledge $\unicode{x2014}$ similarly mix content into their answers to logical problems. We explored this question across three logical reasoning tasks: natural language inference, judging the logical validity of syllogisms, and the Wason selection task. We evaluate state of the art large language models, as well as humans, and find that the language models reflect many of the same patterns observed in humans across these tasks $\unicode{x2014}$ like humans, models answer more accurately when the semantic content of a task supports the logical inferences. These parallels are reflected both in answer patterns, and in lower-level features like the relationship between model answer distributions and human response times. Our findings have implications for understanding both these cognitive effects in humans, and the factors that contribute to language model performance.
翻訳日:2024-07-20 00:32:05 公開日:2024-07-17
# ドメイン適応回帰のための逆2回帰器ネットワーク

Adversarial Bi-Regressor Network for Domain Adaptive Regression ( http://arxiv.org/abs/2209.09943v2 )

ライセンス: Link先を確認
Haifeng Xia, Pu Perry Wang, Toshiaki Koike-Akino, Ye Wang, Philip Orlik, Zhengming Ding, (参考訳) ドメイン適応(DA)は、ラベルのないターゲット学習を促進するために、十分にラベル付けされたソースドメインの知識を伝達することを目的としている。 屋内(Wi-Fi)のローカライゼーションのような特定のタスクに切り替える場合、ドメインシフトを軽減するためにクロスドメイン回帰器を学ぶことが不可欠である。 本稿では、より効果的なドメイン間回帰モデルを求めるために、ABRNet(Adversarial Bi-Regressor Network)を提案する。 具体的には、ソース分布から離れた不確実なターゲットインスタンスを発見するために、二回帰器の差を最大化するために、離散二回帰器アーキテクチャを開発し、それから、特徴抽出器と二重回帰器の間で対角訓練機構を採用し、ドメイン不変表現を生成する。 さらに大きなドメインギャップを埋めるために、ドメイン固有の拡張モジュールは、2つのソース類似およびターゲット類似の中間ドメインを合成して、元のドメインミスマッチを徐々に除去するように設計されている。 2つのクロスドメイン回帰ベンチマークに関する実証研究は、ドメイン適応回帰(DAR)問題を解く上での我々の手法の力を示している。

Domain adaptation (DA) aims to transfer the knowledge of a well-labeled source domain to facilitate unlabeled target learning. When turning to specific tasks such as indoor (Wi-Fi) localization, it is essential to learn a cross-domain regressor to mitigate the domain shift. This paper proposes a novel method Adversarial Bi-Regressor Network (ABRNet) to seek more effective cross-domain regression model. Specifically, a discrepant bi-regressor architecture is developed to maximize the difference of bi-regressor to discover uncertain target instances far from the source distribution, and then an adversarial training mechanism is adopted between feature extractor and dual regressors to produce domain-invariant representations. To further bridge the large domain gap, a domain-specific augmentation module is designed to synthesize two source-similar and target-similar intermediate domains to gradually eliminate the original domain mismatch. The empirical studies on two cross-domain regressive benchmarks illustrate the power of our method on solving the domain adaptive regression (DAR) problem.
翻訳日:2024-07-20 00:32:05 公開日:2024-07-17
# 新しい言語を継続的に学習する

Towards continually learning new languages ( http://arxiv.org/abs/2211.11703v4 )

ライセンス: Link先を確認
Ngoc-Quan Pham, Jan Niehues, Alexander Waibel, (参考訳) ニューラルネットワークを用いた多言語音声認識は、トレーニング前にすべての言語が利用できる場合、バッチ学習で実装されることが多い。 事前のトレーニングセッション後に新しい言語を追加することは経済的に有益であるが、大きな課題は破滅的な忘れである。 本研究は,破滅的な忘れ込みに対処し,新しい言語を素早く習得するために,重量分解特性と弾性重み付け特性を組み合わせたものである。 このような組み合わせによって、破滅的な忘れを排除しつつ、すべての言語に匹敵するパフォーマンスを達成することができました。最初の10言語から学び、破滅的な忘れをせずに26言語を達成する実験と、すべての言語をゼロからトレーニングするよりも合理的なパフォーマンスです。

Multilingual speech recognition with neural networks is often implemented with batch-learning, when all of the languages are available before training. An ability to add new languages after the prior training sessions can be economically beneficial, but the main challenge is catastrophic forgetting. In this work, we combine the qualities of weight factorization and elastic weight consolidation in order to counter catastrophic forgetting and facilitate learning new languages quickly. Such combination allowed us to eliminate catastrophic forgetting while still achieving performance for the new languages comparable with having all languages at once, in experiments of learning from an initial 10 languages to achieve 26 languages without catastrophic forgetting and a reasonable performance compared to training all languages from scratch.
翻訳日:2024-07-20 00:32:05 公開日:2024-07-17
# 古典的および量子的メルリン・アーサーオートマトン

Classical and quantum Merlin-Arthur automata ( http://arxiv.org/abs/2212.13801v2 )

ライセンス: Link先を確認
Abuzer Yakaryılmaz, (参考訳) 我々はMerlin-Arthur Automaticaを導入し、Merlinは計算開始時に証明書を提供し、入力を読む前にArthurによってスキャンされる。 本稿では,Merlin-Arthurによる決定論的,確率的,量子有限状態オートマトン(Resp.,MA-DFA,MA-PFA,MA-QFAs)を定義し,MA-PFAsとMA-QFAs(resp.,MA-PostPFA,MA-PostQFAs)をポストセレクトする。 異なる証明書長を用いていくつかの結果を示す。 我々はMA-DFAが一定の長さの証明書を使用しており、マルチエントリーDFAと等価であることを示す。 したがって、すべての正規言語と正規言語のみを認識するが、指数関数と多項式状態はそれぞれ二進言語と一進言語よりも効率的である。 線形長証明書では、MA-PFAはカットポイント1/2を持ついくつかの非確率的ユニタリ言語を認識できる。 線形長証明書を用いることで、MA-PostPFAはこれらの非確率的な単言語を有界エラーで認識することができる。 任意の長さの証明書で、有界エラーMA-PostPFAは任意の一意決定可能な言語を検証できる。 サブ線形長証明書では、有界エラーMA-PostQFAはいくつかの非確率的ユニタリ言語を検証できる。 線形長証明では、すべてのユニタリ言語とNP完全バイナリ言語を検証できる。 指数長証明書を使用すると、すべてのバイナリ言語を検証できる。

We introduce Merlin-Arthur (MA) automata where Merlin provides a certificate at the beginning of computation and it is scanned by Arthur before reading the input. We define Merlin-Arthur deterministic, probabilistic, and quantum finite state automata (resp., MA-DFAs, MA-PFAs, and MA-QFAs) and postselecting MA-PFAs and MA-QFAs (resp., MA-PostPFA and MA-PostQFA). We present several results using different certificate lengths. We show that MA-DFAs use constant length certificates, and they are equivalent to multi-entry DFAs. Thus, they recognize all and only regular languages, but they can be exponential and polynomial state efficient over binary and unary languages, respectively. With sublinear length certificates, MA-PFAs can recognize several nonstochastic unary languages with cutpoint 1/2. With linear length certificates, MA-PostPFAs can recognize these nonstochastic unary languages with bounded error. With arbitrarily long certificates, bounded-error MA-PostPFAs can verify every unary decidable language. With sublinear length certificates, bounded-error MA-PostQFAs can verify several nonstochastic unary languages. With linear length certificates, they can verify every unary language and some NP-complete binary languages. With exponential length certificates, they can verify every binary language.
翻訳日:2024-07-20 00:32:05 公開日:2024-07-17
# スパースIFT:訓練効率の最大化のためのスパースIso-FLOP変換

Sparse-IFT: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency ( http://arxiv.org/abs/2303.11525v4 )

ライセンス: Link先を確認
Vithursan Thangarasa, Shreyas Saxena, Abhay Gupta, Sean Lie, (参考訳) 近年の研究は、FLOPsを減らすためのディープニューラルネットワークトレーニングにおける重量の分散に焦点を当てており、効率の改善(テスト精度w.r.tトレーニングFLOPs)を目指している。 しかし、スパースウェイトトレーニングは精度を損なうことが多く、より密集したモデルの精度を達成するために訓練スケジュールを延長する必要がある。 対照的に、Sparse Iso-FLOP Transformations (Sparse-IFT) は密度モデルFLOPを維持しながら精度を向上させる。 Sparse-IFTは1つのハイパーパラメータ(すなわちスパースレベル)を使用して高密度層を効率的に置き換え、最適なスパースマスクの探索空間を拡大する。 さらに、スパース-IFTモデルを用いた動的スパーストレーニング(DST)は、ラマヌジャングラフ特性を用いたスペクトル解析によって証明されたこの大きなスパースマスクウェイト空間を効果的にナビゲートする。 本研究は,マスクトポロジ,重み,最終性能の相関性について明らかにした。 特に、トレーニングハイパーパラメータを調整することなく、Sparse-IFTで高密度層を置き換えると、ImageNetでResNet-18が+3.5%、Open LLMのリーダーボードで+0.9%向上する。 我々の知る限りでは、これはスパース変換の集合を通じて高密度モデルの精度を向上させるためのスパース性の使用を示す最初の研究である。 コードは、https://github.com/CerebrasResearch/Sparse-IFT.comで入手できる。

Recent research has focused on weight sparsity in deep neural network training to reduce FLOPs, aiming for improved efficiency (test accuracy w.r.t training FLOPs). However, sparse weight training often compromises accuracy, requiring extended training schedules to attain the accuracy of dense models. In contrast, our approach, Sparse Iso-FLOP Transformations (Sparse-IFT), uses sparsity to improve accuracy while maintaining dense model FLOPs. Using a single hyperparameter (i.e., the sparsity level), Sparse-IFTs efficiently replace dense layers, expanding the search space for optimal sparse masks. In addition, dynamic sparse training (DST) with Sparse-IFT models effectively navigate this larger sparse mask-weight space, which is evidenced by a spectral analysis using Ramanujan graph properties. Our study reveals a robust correlation among mask topology, weights, and final performance. Notably, without adjusting any training hyperparameters, replacing dense layers with Sparse-IFT yields significant improvements, such as a +3.5% boost for ResNet-18 on ImageNet and +0.9% for GPT-3 Small on the Open LLM leaderboard. To the best of our knowledge, this is the first work to demonstrate the use of sparsity for improving the accuracy of dense models through a set of simple-to-use sparse transformations. Code is available at: https://github.com/CerebrasResearch/Sparse-IFT.
翻訳日:2024-07-20 00:22:15 公開日:2024-07-17
# 連続力学対称性を持つフロケット系:特性,時間依存ネーター電荷,可解性

Floquet systems with continuous dynamical symmetries: characterization, time-dependent Noether charge, and solvability ( http://arxiv.org/abs/2308.02143v3 )

ライセンス: Link先を確認
Yukio Kaneko, Tatsuhiko N. Ikeda, (参考訳) 時間変換とヒルベルト空間上のユニタリ変換からなる連続力学対称性(CDS)を持つ量子フロケ系について検討する。 離散的なものとは異なり、CDSはハミルトニアン$H(t)$を強く制約し、有限次元固有値問題を解くことでフロケ状態をすべて得ることができる。 さらに、ネーターの定理は時間に依存しない保存電荷をもたらし、その期待値は進化を通して時間に依存しない。 ひずみ項のないダイヤモンド中の窒素空孔中心の有効モデルであるセミナルラビモデルにおけるCDSと回転場におけるハイゼンベルクスピンモデルの結果を実証する。 この結果はフロケ状態の体系的な解法を提供し、準エネルギー図のハイブリダイゼーションを避ける方法を説明する。

We study quantum Floquet (periodically-driven) systems having continuous dynamical symmetry (CDS) consisting of a time translation and a unitary transformation on the Hilbert space. Unlike the discrete ones, the CDS strongly constrains the possible Hamiltonians $H(t)$ and allows us to obtain all the Floquet states by solving a finite-dimensional eigenvalue problem. Besides, Noether's theorem leads to a time-dependent conservation charge, whose expectation value is time-independent throughout evolution. We exemplify these consequences of CDS in the seminal Rabi model, an effective model of a nitrogen-vacancy center in diamonds without strain terms, and Heisenberg spin models in rotating fields. Our results provide a systematic way of solving for Floquet states and explain how they avoid hybridization in quasienergy diagrams.
翻訳日:2024-07-20 00:12:03 公開日:2024-07-17
# フォールトトレラント量子エラー低減

Fault Tolerant Quantum Error Mitigation ( http://arxiv.org/abs/2308.05403v4 )

ライセンス: Link先を確認
Alvin Gonzales, Anjala M Babu, Ji Liu, Zain Saleem, Mark Byrd, (参考訳) 通常、フォールトトレラントな演算とコード結合は、リソースのオーバーヘッドのために量子エラー訂正のために予約される。 ここでは, 耐故障性演算が対称性に基づく誤差軽減手法の性能に大きく影響を与えることを示す。 また、フォールトトレラント量子コンピューティングの結果と同様に、フォールトトレラント量子エラー軽減(FTQEM)におけるコード結合は、エラーを任意のレベルまで指数関数的に抑制できることを示した。 回路群に対して、FTQEMに対して繰り返し符号を用いた解析誤差しきい値を提供する。 これらの回路は、可逆的な古典計算を全て生成できる量子回路の集合を含んでいる。 FTQEMのポストセレクションレートも、いくつかの結果を修正することで向上することができる。 我々のしきい値は、符号化に圧倒される前に、連結コードにおける安定化器のチェックを遅らせることができるゲート操作の数を定量化する観点から見ることもできる。 FTQEMの利点は数値シミュレーションとハードウェアデモで実証される。

Typically, fault-tolerant operations and code concatenation are reserved for quantum error correction due to their resource overhead. Here, we show that fault tolerant operations have a large impact on the performance of symmetry based error mitigation techniques. We also demonstrate that similar to results in fault tolerant quantum computing, code concatenation in fault-tolerant quantum error mitigation (FTQEM) can exponentially suppress the errors to arbitrary levels. For a family of circuits, we provide analytical error thresholds for FTQEM with the repetition code. These circuits include a set of quantum circuits that can generate all of reversible classical computing. The post-selection rate in FTQEM can also be increased by correcting some of the outcomes. Our threshold results can also be viewed from the perspective of quantifying the number of gate operations we can delay checking the stabilizers in a concatenated code before errors overwhelm the encoding. The benefits of FTQEM are demonstrated with numerical simulations and hardware demonstrations.
翻訳日:2024-07-20 00:12:03 公開日:2024-07-17
# シンプレクティック固有値の不等式における等式

Equality in some symplectic eigenvalue inequalities ( http://arxiv.org/abs/2309.04562v3 )

ライセンス: Link先を確認
Hemant K. Mishra, (参考訳) 過去10年間、多くの研究がシンプレクティック固有値のいくつかの特性について研究してきた。 注目すべきは、シンプレクティック固有値に関する結果は、適切な解釈を持つエルミート行列の固有値と類似していることである。 特に、有名な固有値の不等式に関するシンプレクティックな類似は、今日ではワイルの不等式、リドスキーの不等式、シュル=ホルン偏化不等式(Schur-Horn majorization inequalities)などとして知られている。 本稿では、上記の不等式のシンプレクティックアナログにおいて、必要十分条件を提供する。 シンプレクティックワイルとリドスキーの不等式に対する等式条件は、固有値に対する既知の等式条件と類似していることが判明した。

In the last decade, numerous works have investigated several properties of symplectic eigenvalues. Remarkably, the results on symplectic eigenvalues have been found to be analogous to those of eigenvalues of Hermitian matrices with appropriate interpretations. In particular, symplectic analogs of famous eigenvalue inequalities are known today such as Weyl's inequalities, Lidskii's inequalities, and Schur--Horn majorization inequalities. In this paper, we provide necessary and sufficient conditions for equality in the symplectic analogs of the aforementioned inequalities. The equality conditions for the symplectic Weyl's and Lidskii's inequalities turn out to be analogous to the known equality conditions for eigenvalues.
翻訳日:2024-07-20 00:02:04 公開日:2024-07-17
# 不均一トランスファー学習に関する最近の調査

A Recent Survey of Heterogeneous Transfer Learning ( http://arxiv.org/abs/2310.08459v3 )

ライセンス: Link先を確認
Runxue Bao, Yiming Sun, Yuhe Gao, Jindong Wang, Qiang Yang, Zhi-Hong Mao, Ye Ye, (参考訳) 伝達学習の応用は、ソースドメインからの知識を活用し、ターゲットドメインにおけるモデルパフォーマンスを向上させることで、様々な現実世界のアプリケーションをサポートするように大きく成長している。 その成功はしばしばドメイン間の共有知識に依存し、通常はこれらの方法論で必要とされる。 一般に、同種移動学習(homogeneous transfer learning)として知られる、両方の領域における同一の特徴とラベル空間を仮定する。 しかし、ソースとターゲットドメインは通常これらの空間で異なるため、正確なデータマッチングが困難でコストがかかるため、これは現実的ではないことが多い。 その結果、これらの格差に対処するヘテロジニアストランスファーラーニング(HTL)は、様々なタスクにおいて重要な戦略となっている。 本稿では,60以上のHTL手法を概説し,データベースとモデルベースの両方のアプローチについて述べる。 これらの手法の重要な仮定とアルゴリズムを説明し、それらをインスタンスベース、特徴表現ベース、パラメータ正規化、パラメータチューニング技術に体系的に分類する。 さらに、自然言語処理、コンピュータビジョン、マルチモーダル学習、バイオメディシンの応用を探求し、これらの領域の理解を深め、さらなる研究を促進することを目的としている。 本稿では,近年のHTLの進歩,例えばトランスフォーマーモデルの導入やマルチモーダル学習技術について述べる。 我々は,現在のHTL研究における重要な限界を特定し,今後の研究のための体系的なガイダンスを提供し,さらなる探索を必要とする領域を強調し,分野を前進させるための潜在的方向を提案する。

The application of transfer learning, leveraging knowledge from source domains to enhance model performance in a target domain, has significantly grown, supporting diverse real-world applications. Its success often relies on shared knowledge between domains, typically required in these methodologies. Commonly, methods assume identical feature and label spaces in both domains, known as homogeneous transfer learning. However, this is often impractical as source and target domains usually differ in these spaces, making precise data matching challenging and costly. Consequently, heterogeneous transfer learning (HTL), which addresses these disparities, has become a vital strategy in various tasks. In this paper, we offer an extensive review of over 60 HTL methods, covering both data-based and model-based approaches. We describe the key assumptions and algorithms of these methods and systematically categorize them into instance-based, feature representation-based, parameter regularization, and parameter tuning techniques. Additionally, we explore applications in natural language processing, computer vision, multimodal learning, and biomedicine, aiming to deepen understanding and stimulate further research in these areas. Our paper includes recent advancements in HTL, such as the introduction of transformer-based models and multimodal learning techniques, ensuring the review captures the latest developments in the field. We identify key limitations in current HTL studies and offer systematic guidance for future research, highlighting areas needing further exploration and suggesting potential directions for advancing the field.
翻訳日:2024-07-20 00:02:04 公開日:2024-07-17
# BrainVoxGen:MRIへの超音波合成のためのディープラーニングフレームワーク

BrainVoxGen: Deep learning framework for synthesis of Ultrasound to MRI ( http://arxiv.org/abs/2310.08608v2 )

ライセンス: Link先を確認
Shubham Singh, Mrunal Bewoor, Ammar Ranapurwala, Satyam Rai, Sheetal Patil, (参考訳) 本研究は、Pix2Pix Generative Adversarial Network(GAN)モデルの修正版を利用して、脳の3次元超音波画像から3次元MRIボリュームを合成するための新しいディープラーニングフレームワークを提案する。 超音波とMRIのモダリティ格差を埋めることの難しい課題に対処するため,本研究は神経画像領域における医療診断と治療計画の変革的応用を約束する。 これらの結果は、合成したMRIボリュームと予測される結果との明確な類似性を示しているが、主にデータセットのスケールと計算資源に関連する制約のため、実際のデプロイメント標準には達していない。 この手法はMRIのボリュームに良好な類似性スコアを与え、その後の調査の基礎となるベンチマークを確立する。

The work proposes a novel deep-learning framework for the synthesis of three-dimensional MRI volumes from corresponding 3D ultrasound images of the brain, leveraging a modified iteration of the Pix2Pix Generative Adversarial Network (GAN) model. Addressing the formidable challenge of bridging the modality disparity between ultrasound and MRI, this research holds promise for transformative applications in medical diagnostics and treatment planning within the neuroimaging domain. While the findings reveal a discernible degree of similarity between the synthesized MRI volumes and anticipated outcomes, they fall short of practical deployment standards, primarily due to constraints associated with dataset scale and computational resources. The methodology yields MRI volumes with a satisfactory similarity score, establishing a foundational benchmark for subsequent investigations.
翻訳日:2024-07-20 00:02:04 公開日:2024-07-17
# 大規模言語モデルの線形表現仮説と幾何学

The Linear Representation Hypothesis and the Geometry of Large Language Models ( http://arxiv.org/abs/2311.03658v2 )

ライセンス: Link先を確認
Kiho Park, Yo Joong Choe, Victor Veitch, (参考訳) インフォーマルに、「線形表現仮説」とは、高次概念がある表現空間の方向として線型に表現されるという考え方である。 本稿では,2つの密接に関連する疑問に対処する: 「線形表現」とは実際に何を意味するのか? そして、表現空間における幾何学的概念(例えばコサイン類似性や射影)をどのように意味づけるか。 これらに答えるために、反事実の言語を用いて「線形表現」の2つの形式化、出力(単語)表現空間の1つ、入力(文)空間の1つを与える。 次に、これらがそれぞれ線形探索とモデルステアリングに結びついていることを証明する。 幾何学的概念を理解するために、形式化を用いて言語構造を正確に表現する意味において、言語構造を尊重する特定の(非ユークリッド的)内積を特定する。 この因果内積を用いて、線型表現のすべての概念を統一する方法を示す。 特に、これは反実対を用いたプローブとステアリングベクトルの構築を可能にする。 LLaMA-2の実験では、概念の線形表現の存在、解釈と制御の関連、および内積の選択の基本的な役割が示されている。

Informally, the 'linear representation hypothesis' is the idea that high-level concepts are represented linearly as directions in some representation space. In this paper, we address two closely related questions: What does "linear representation" actually mean? And, how do we make sense of geometric notions (e.g., cosine similarity or projection) in the representation space? To answer these, we use the language of counterfactuals to give two formalizations of "linear representation", one in the output (word) representation space, and one in the input (sentence) space. We then prove these connect to linear probing and model steering, respectively. To make sense of geometric notions, we use the formalization to identify a particular (non-Euclidean) inner product that respects language structure in a sense we make precise. Using this causal inner product, we show how to unify all notions of linear representation. In particular, this allows the construction of probes and steering vectors using counterfactual pairs. Experiments with LLaMA-2 demonstrate the existence of linear representations of concepts, the connection to interpretation and control, and the fundamental role of the choice of inner product.
翻訳日:2024-07-20 00:02:04 公開日:2024-07-17
# 設計による解釈:ラッパーボックスは、トレーニングデータに対するモデル決定の忠実な帰属とニューラルパフォーマンスを結合する

Interpretable by Design: Wrapper Boxes Combine Neural Performance with Faithful Attribution of Model Decisions to Training Data ( http://arxiv.org/abs/2311.08644v2 )

ライセンス: Link先を確認
Yiheng Su, Junyi Jessy Li, Matthew Lease, (参考訳) 忠実な説明をしながら、ニューラルネットワークの精度を保てるだろうか? 予測性能を維持しつつモデル予測に対する忠実な例ベースの説明を生成するための一般的なアプローチであるラッパーボックスを提案する。 ニューラルネットワークを通常のように訓練した後、学習された特徴表現は古典的な解釈可能なモデルに入力され、実際の予測を実行する。 この単純な戦略は驚くほど効果的で、その結果は、トレーニング済みの大規模な3つの言語モデル、異なるスケールの2つのデータセット、4つの古典モデル、そして4つの評価指標で示されるように、元のニューラルモデルとほぼ同等である。 さらに、これらの古典的モデルは設計によって解釈可能であるので、古典的モデル予測を決定する訓練例のサブセットを直接ユーザに示すことができる。

Can we preserve the accuracy of neural models while also providing faithful explanations? We present wrapper boxes, a general approach to generate faithful, example-based explanations for model predictions while maintaining predictive performance. After training a neural model as usual, its learned feature representation is input to a classic, interpretable model to perform the actual prediction. This simple strategy is surprisingly effective, with results largely comparable to those of the original neural model, as shown across three large pre-trained language models, two datasets of varying scale, four classic models, and four evaluation metrics. Moreover, because these classic models are interpretable by design, the subset of training examples that determine classic model predictions can be shown directly to users.
翻訳日:2024-07-19 22:00:54 公開日:2024-07-17
# QAC0のパウリスペクトルについて

On the Pauli Spectrum of QAC0 ( http://arxiv.org/abs/2311.09631v4 )

ライセンス: Link先を確認
Shivam Nadimpalli, Natalie Parham, Francisca Vasconcelos, Henry Yuen, (参考訳) 回路クラス $\mathsf{QAC}^0$ はムーア (1999) によって、ゲート集合が多ビットトフォリゲートを含む定数深さ量子回路のモデルとして導入された。 そのような回路に対する下界の証明は、量子回路の複雑さにおける長年の挑戦であり、特に多項式サイズの$\mathsf{QAC}^0$がパリティ関数を計算できないことを示すことは、20年以上も未解決の問題のままである。 本研究では、古典的な$\mathsf{QAC}^0$回路のフーリエスペクトルの量子アナログと見なせる$\mathsf{QAC}^0$回路のパウリスペクトルの概念を同定する。 我々は、$\mathsf{QAC}^0$回路のパウリスペクトルが、有名なLinial, Nisan, Mansour定理に類似して、$\mathsf{QAC}^0$回路の低次フーリエ濃度に対する低次濃度を満たすことを予想する。 もし真なら、この予想は直ちに多項式サイズ$\mathsf{QAC}^0$回路がパリティを計算できないことを意味する。 我々は、この予想を、少なくとも$n^{O(1/d)}$補助量子ビットを持つ深さ=d$、多項式サイズ$\mathsf{QAC}^0$回路のクラスで証明する。 この回路のクラスは、$(\frac{1}{2} + 2^{-\Omega(n^{1/d})} 以上の$n$-bitパリティ関数、$(1 - \Omega(n^{-1/2}) 以上の$n$-bitマジョリティ関数。 さらに、補助量子ビットが制限された $\mathsf{QAC}^0$ 回路のクラスは準ポリノミカル標本の複雑さで学習できることを示し、$\mathsf{QAC}^0$ 回路に対する最初の学習結果を与える。 より広範に、我々の結果は、"Pauli-analytic"技術が量子回路の研究において強力なツールであることを示す証拠となる。

The circuit class $\mathsf{QAC}^0$ was introduced by Moore (1999) as a model for constant depth quantum circuits where the gate set includes many-qubit Toffoli gates. Proving lower bounds against such circuits is a longstanding challenge in quantum circuit complexity; in particular, showing that polynomial-size $\mathsf{QAC}^0$ cannot compute the parity function has remained an open question for over 20 years. In this work, we identify a notion of the Pauli spectrum of $\mathsf{QAC}^0$ circuits, which can be viewed as the quantum analogue of the Fourier spectrum of classical $\mathsf{AC}^0$ circuits. We conjecture that the Pauli spectrum of $\mathsf{QAC}^0$ circuits satisfies low-degree concentration, in analogy to the famous Linial, Nisan, Mansour theorem on the low-degree Fourier concentration of $\mathsf{AC}^0$ circuits. If true, this conjecture immediately implies that polynomial-size $\mathsf{QAC}^0$ circuits cannot compute parity. We prove this conjecture for the class of depth-$d$, polynomial-size $\mathsf{QAC}^0$ circuits with at most $n^{O(1/d)}$ auxiliary qubits. We obtain new circuit lower bounds and learning results as applications: this class of circuits cannot correctly compute - the $n$-bit parity function on more than $(\frac{1}{2} + 2^{-\Omega(n^{1/d})})$-fraction of inputs, and - the $n$-bit majority function on more than $(1 - \Omega(n^{-1/2}))$-fraction of inputs. Additionally we show that this class of $\mathsf{QAC}^0$ circuits with limited auxiliary qubits can be learned with quasipolynomial sample complexity, giving the first learning result for $\mathsf{QAC}^0$ circuits. More broadly, our results add evidence that "Pauli-analytic" techniques can be a powerful tool in studying quantum circuits.
翻訳日:2024-07-19 22:00:54 公開日:2024-07-17
# 磁気基底における格子ゲージ理論のディジタイズ-基本可換関係の破れを減少させる

Digitizing lattice gauge theories in the magnetic basis: reducing the breaking of the fundamental commutation relations ( http://arxiv.org/abs/2311.11928v2 )

ライセンス: Link先を確認
Simone Romiti, Carsten Urbach, (参考訳) 格子 $\mathrm{SU}(2)$ gauge theory Hamiltonian in the $\mathit{magnetic}$ $\mathit{basis}$ ここでゲージリンクはユニタリで対角線である。 デジタル化は、$\mathrm{SU}(2)$群多様体の特定のパーティショニングから得られ、このパーティショニング上のリー微分の近似によって、正準モータが構成される。 この構成は離散フーリエ変換(英語版)に類似しており、ハミルトンの運動部分のスペクトルとノルベルト空間の部分空間上の標準可換関係を正確に保存し、残りの部分空間は理論の切断の上に投影することができる。

We present a digitization scheme for the lattice $\mathrm{SU}(2)$ gauge theory Hamiltonian in the $\mathit{magnetic}$ $\mathit{basis}$, where the gauge links are unitary and diagonal. The digitization is obtained from a particular partitioning of the $\mathrm{SU}(2)$ group manifold, with the canonical momenta constructed by an approximation of the Lie derivatives on this partitioning. This construction, analogous to a discrete Fourier transform, preserves the spectrum of the kinetic part of the Hamiltonian and the canonical commutation relations exactly on a subspace of the truncated Hilbert space, while the residual subspace can be projected above the cutoff of the theory.
翻訳日:2024-07-19 22:00:54 公開日:2024-07-17
# EditShield: 命令誘導拡散モデルによる未許可画像編集の保護

EditShield: Protecting Unauthorized Image Editing by Instruction-guided Diffusion Models ( http://arxiv.org/abs/2311.12066v2 )

ライセンス: Link先を確認
Ruoxi Chen, Haibo Jin, Yixin Liu, Jinyin Chen, Haohan Wang, Lichao Sun, (参考訳) テキスト・ツー・イメージの拡散モデルは、画像合成において創造的なコンテンツを生み出す進化の過程として現れてきた。 これらのモデルの印象的な生成能力に基づいて、命令誘導拡散モデルは、簡単な命令と入力画像で画像を編集することができる。 ユーザーは自由に編集された画像を入手することができるが、許可されていない画像操作に関する懸念が持ち上がっている。 従来の研究では、パーソナライズされた拡散モデルの未承認利用が検討されてきたが、命令誘導拡散モデルのこの問題はいまだほとんど解明されていない。 本稿では,このようなモデルからの不正な修正に対する保護手法であるEditShieldを提案する。 具体的には、EditShieldは拡散過程で使用される潜伏表現をシフトさせる、知覚不能な摂動を追加することで、モデルを騙して非現実的なイメージを被写体で生成する。 人工および実世界のデータセット間でEditShieldの有効性を実証した。 さらに、EditShieldは編集タイプや同義語命令句の様々な操作設定に対して頑健に動作していることがわかった。

Text-to-image diffusion models have emerged as an evolutionary for producing creative content in image synthesis. Based on the impressive generation abilities of these models, instruction-guided diffusion models can edit images with simple instructions and input images. While they empower users to obtain their desired edited images with ease, they have raised concerns about unauthorized image manipulation. Prior research has delved into the unauthorized use of personalized diffusion models; however, this problem of instruction-guided diffusion models remains largely unexplored. In this paper, we first propose a protection method EditShield against unauthorized modifications from such models. Specifically, EditShield works by adding imperceptible perturbations that can shift the latent representation used in the diffusion process, tricking models into generating unrealistic images with mismatched subjects. Our extensive experiments demonstrate EditShield's effectiveness among synthetic and real-world datasets. Besides, we found that EditShield performs robustly against various manipulation settings across editing types and synonymous instruction phrases.
翻訳日:2024-07-19 22:00:54 公開日:2024-07-17
# データ駆動型オフライン信号検証のための深部生成攻撃と対策

Deep Generative Attacks and Countermeasures for Data-Driven Offline Signature Verification ( http://arxiv.org/abs/2312.00987v2 )

ライセンス: Link先を確認
An Ngo, Rajesh Kumar, Phuong Cao, (参考訳) 本研究では,データ駆動型オフライン署名検証(DASV)システムの生成攻撃に対する脆弱性を調査し,堅牢な対策を提案する。 具体的には,DASVシステムに挑戦する擬似シグネチャを作成する上で,変分オートエンコーダ(VAE)と条件生成適応ネットワーク(CGAN)の有効性について検討する。 本研究では,Xception,ResNet152V2,DenseNet201アーキテクチャで構築されたDASVシステムに対するそれらの影響を評価する。 最初の結果は、すべてのモデルとデータセットでFAR(False Accept Rates)が0%から5.47%まで変化した。 しかし、合成シグネチャへの曝露はFARを著しく増加させ、19.12%から61.64%に増加した。 提案した対策、すなわち、実際の+合成データセットによるモデルの再トレーニングは非常に効果的であり、FARを0%から0.99%に削減した。 これらの知見は,DASVなどのセキュリティシステムの脆弱性の調査の必要性を強調し,データ駆動システムのセキュリティ向上における生成手法の役割を強化する。

This study investigates the vulnerabilities of data-driven offline signature verification (DASV) systems to generative attacks and proposes robust countermeasures. Specifically, we explore the efficacy of Variational Autoencoders (VAEs) and Conditional Generative Adversarial Networks (CGANs) in creating deceptive signatures that challenge DASV systems. Using the Structural Similarity Index (SSIM) to evaluate the quality of forged signatures, we assess their impact on DASV systems built with Xception, ResNet152V2, and DenseNet201 architectures. Initial results showed False Accept Rates (FARs) ranging from 0% to 5.47% across all models and datasets. However, exposure to synthetic signatures significantly increased FARs, with rates ranging from 19.12% to 61.64%. The proposed countermeasure, i.e., retraining the models with real + synthetic datasets, was very effective, reducing FARs between 0% and 0.99%. These findings emphasize the necessity of investigating vulnerabilities in security systems like DASV and reinforce the role of generative methods in enhancing the security of data-driven systems.
翻訳日:2024-07-19 21:51:10 公開日:2024-07-17
# 心電図における性差の解剖学的基礎

Anatomical basis of human sex differences in ECG identified by automated torso-cardiac three-dimensional reconstruction ( http://arxiv.org/abs/2312.13976v2 )

ライセンス: Link先を確認
Hannah J. Smith, Blanca Rodriguez, Yuling Sang, Marcel Beetz, Robin Choudhury, Vicente Grau, Abhirup Banerjee, (参考訳) 背景と課題:心電図(ECG)は、心筋梗塞(MI)後の診断とリスク階層化に日常的に用いられているが、その解釈は解剖学的多様性と性差によって確立されている。 女性では脳梗塞後のMI診断の欠失率と予後不良率が高い。 心電図のバイオマーカーと心室細動の性差は, 主に高スループットの胴体再建法が欠如していることから, あまり特徴付けられていない。 方法: 本研究は心電図と心電図による心電図と解剖学的バイオマーカーの性差の定量化であり, 心電図による心室細動再建のための新しいエンドツーエンド自動パイプラインが有効である。 健常者425名, 健常者1051名を対象に, パーソナライズド3次元心室再建術を作成した。 抽出した胴体心室パラメータと心電図パラメータを関連づけた回帰モデルを構築した。 結果:QRS持続時間における性差の半分は、健常者(3.4 \pm 1.3$ms、6.0 \pm 1.5$ms)とポストMI(4.5 \pm 1.4$ms、8.3 \pm 2.5$ms)の双方において、より小さな心室で説明される。 女性における基準STj振幅の低下は、より小さな心室、より優れた心的位置と後部心的位置と結びついている。 後MIT波振幅とR軸偏差は、男性ほど電気生理学的ではない女性において、より後方および水平の心位置と強く関連している。 結論: 新しい計算パイプラインにより, 健常者, 心筋梗塞者, 心筋梗塞者, 性差の定量化, 心電図バイオマーカーとの関連性の3次元再構築が可能となった。 あらゆるECGベースのツールは、性別バイアスの結果を避けるために解剖学的性差を考慮する必要がある。

Background and Aims: The electrocardiogram (ECG) is routinely used for diagnosis and risk stratification following myocardial infarction (MI), though its interpretation is confounded by anatomical variability and sex differences. Women have a higher incidence of missed MI diagnosis and poorer outcomes following infarction. Sex differences in ECG biomarkers and torso-ventricular anatomy have not been well characterised, largely due to the absence of high-throughput torso reconstruction methods. Methods: This work presents quantification of sex differences in ECG versus anatomical biomarkers in healthy and post-MI subjects, enabled by a novel, end-to-end automated pipeline for torso-ventricular anatomical reconstruction from clinically standard cardiac magnetic resonance imaging. Personalised 3D torso-ventricular reconstructions were generated for 425 post-MI subjects and 1051 healthy controls from the UK Biobank. Regression models were created relating the extracted torso-ventricular and ECG parameters. Results: Half the sex difference in QRS durations is explained by smaller ventricles in women both in healthy ($3.4 \pm 1.3$ms of $6.0 \pm 1.5$ms) and post-MI ($4.5 \pm 1.4$ms of $8.3 \pm 2.5$ms) subjects. Lower baseline STj amplitude in women is also associated with smaller ventricles, and more superior and posterior cardiac position. Post-MI T wave amplitude and R axis deviations are more strongly associated with a more posterior and horizontal cardiac position in women rather than electrophysiology as in men. Conclusion: A novel computational pipeline enables the three-dimensional reconstruction of 1476 torso-cardiac geometries of healthy and post-myocardial infarction subjects, quantification of sex and BMI-related differences and association with ECG biomarkers. Any ECG-based tool should be reviewed considering anatomical sex differences to avoid sex-biased outcomes.
翻訳日:2024-07-19 21:51:10 公開日:2024-07-17
# TriNeRFLet:ウェーブレットをベースとした三面体NeRF表現

TriNeRFLet: A Wavelet Based Triplane NeRF Representation ( http://arxiv.org/abs/2401.06191v2 )

ライセンス: Link先を確認
Rajaei Khatib, Raja Giryes, (参考訳) 近年,複雑な3Dシーンを復元する能力により,ニューラルレイディアンス・フィールド(NeRF)モデルが人気を集めている。 成功の後、多くのアプローチがランタイムとパフォーマンスの両方を改善するために異なるNeRF表現を提案した。 この例の1つはトリプレーンで、NeRFは3つの2次元特徴平面で表される。 これにより、このフレームワークの既存の2Dニューラルネットワーク、例えば、簡単に3つの平面を生成することができる。 アドバンテージにもかかわらず、トリプレーンの表現は、NeRFソリューションと比較して3Dリカバリ品質に遅れを取っていた。 本研究では,NeRFの2次元ウェーブレットに基づくマルチスケールトリプレーン表現であるTriNeRFLetを提案する。 また, 拡散モデルとTriNeRFLetを組み合わせた新しい超解像(SR)手法を提案する。

In recent years, the neural radiance field (NeRF) model has gained popularity due to its ability to recover complex 3D scenes. Following its success, many approaches proposed different NeRF representations in order to further improve both runtime and performance. One such example is Triplane, in which NeRF is represented using three 2D feature planes. This enables easily using existing 2D neural networks in this framework, e.g., to generate the three planes. Despite its advantage, the triplane representation lagged behind in its 3D recovery quality compared to NeRF solutions. In this work, we propose TriNeRFLet, a 2D wavelet-based multiscale triplane representation for NeRF, which closes the 3D recovery performance gap and is competitive with current state-of-the-art methods. Building upon the triplane framework, we also propose a novel super-resolution (SR) technique that combines a diffusion model with TriNeRFLet for improving NeRF resolution.
翻訳日:2024-07-19 21:41:25 公開日:2024-07-17
# QuRating: 学習言語モデルのための高品質なデータの選択

QuRating: Selecting High-Quality Data for Training Language Models ( http://arxiv.org/abs/2402.09739v3 )

ライセンス: Link先を確認
Alexander Wettig, Aatmik Gupta, Saumya Malik, Danqi Chen, (参考訳) 高品質な事前学習データを選択することは、有能な言語モデルを作成する上で重要であるが、既存の手法は単純なヒューリスティックに依存している。 データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。 本稿では,文章の書き方,専門知識,事実とトリビア,教育価値の4つの特性について検討し,特にテキストの両面的な判断を行う場合,LLMがこれらの性質を識別できることを見出した。 ペアの判断からスカラー評価を学ぶためにQuRaterモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。 実験では,品質評価の異なる30Bトークンを選択し,選択したデータに基づいて1.3Bパラメータ言語モデルを訓練する。 品質と多様性のバランスをとることが重要です。 品質評価を文書上のロジットとして用いた場合、ベースラインよりも難易度が低く、文脈内学習性能が優れている。 我々の最良のモデルは教育的価値に基づいており、さらに50%のステップで一様サンプリングで訓練されたモデルと同様に機能する。 データ選択以外にも、トレーニングデータセットを変更することなく、パフォーマンスを改善するトレーニングカリキュラムを構築するために、品質評価を使用します。 品質評価を幅広く分析し、その特性、バイアス、より広い意味について論じる。

Selecting high-quality pre-training data is important for creating capable language models, but existing methods rely on simple heuristics. We introduce QuRating, a method for selecting pre-training data that can capture human intuitions about data quality. In this paper, we investigate four qualities - writing style, required expertise, facts & trivia, and educational value - and find that LLMs are able to discern these qualities, especially when making pairwise judgments of texts. We train a QuRater model to learn scalar ratings from pairwise judgments, and use it to annotate a 260B training corpus with quality ratings for each of the four criteria. In our experiments, we select 30B tokens according to the different quality ratings and train 1.3B-parameter language models on the selected data. We find that it is important to balance quality and diversity. When we sample using quality ratings as logits over documents, our models obtain lower perplexity and stronger in-context learning performance than baselines. Our best model is based on educational value and performs similarly to a model trained with uniform sampling for 50% more steps. Beyond data selection, we use the quality ratings to construct a training curriculum which improves performance without changing the training dataset. We extensively analyze the quality ratings and discuss their characteristics, biases, and wider implications.
翻訳日:2024-07-19 21:31:34 公開日:2024-07-17
# オーディオ同期型ビジュアルアニメーション

Audio-Synchronized Visual Animation ( http://arxiv.org/abs/2403.05659v2 )

ライセンス: Link先を確認
Lin Zhang, Shentong Mo, Yijing Zhang, Pedro Morgado, (参考訳) 現在のビジュアル生成手法は、テキストでガイドされた高品質なビデオを生成することができる。 しかし、オブジェクトのダイナミクスを効果的に制御することは依然として困難である。 この研究は、時間的に同期された画像アニメーションを生成するためのキューとしてオーディオを探索する。 本研究では,複数のクラスにまたがる音声クリップによって時間的にガイドされる動作動態を示す静的なイメージをアニメーションするタスクであるAudio Synchronized Visual Animation (ASVA)を紹介する。 この目的のために,VGGSoundから収集したデータセットであるAVSync15を紹介した。 また、オーディオによって誘導される動的アニメーションを生成することができる拡散モデルAVSyncDを提案する。 AVSync15を同期生成の信頼性ベンチマークとして評価し,本モデルの性能評価を行った。 さらに、ベース画像のないフルビデオ生成から、様々な音で物体の動きを制御するまで、様々なオーディオ同期生成タスクにおけるAVSyncDの可能性を探る。 確立されたベンチマークが、制御可能なビジュアル生成のための新しい道を開くことを願っています。 プロジェクトのWebページ https://lzhangbj.github.io/projects/asva/asva.html

Current visual generation methods can produce high quality videos guided by texts. However, effectively controlling object dynamics remains a challenge. This work explores audio as a cue to generate temporally synchronized image animations. We introduce Audio Synchronized Visual Animation (ASVA), a task animating a static image to demonstrate motion dynamics, temporally guided by audio clips across multiple classes. To this end, we present AVSync15, a dataset curated from VGGSound with videos featuring synchronized audio visual events across 15 categories. We also present a diffusion model, AVSyncD, capable of generating dynamic animations guided by audios. Extensive evaluations validate AVSync15 as a reliable benchmark for synchronized generation and demonstrate our models superior performance. We further explore AVSyncDs potential in a variety of audio synchronized generation tasks, from generating full videos without a base image to controlling object motions with various sounds. We hope our established benchmark can open new avenues for controllable visual generation. More videos on project webpage https://lzhangbj.github.io/projects/asva/asva.html.
翻訳日:2024-07-19 21:21:41 公開日:2024-07-17
# DrJAX: JAXにおけるスケーラブルで微分可能なMapReduceプリミティブ

DrJAX: Scalable and Differentiable MapReduce Primitives in JAX ( http://arxiv.org/abs/2403.07128v2 )

ライセンス: Link先を確認
Keith Rush, Zachary Charles, Zachary Garrett, Sean Augenstein, Nicole Mitchell, (参考訳) 我々は、MapReduceスタイルの操作を使用する大規模分散および並列機械学習アルゴリズムをサポートするように設計されたJAXベースのライブラリであるDrJAXを紹介する。 DrJAXは、JAXのシャーディングメカニズムを活用して、TPUとPathwaysを含む最先端のJAXランタイムのネイティブターゲティングを可能にします。 DrJAXはMapReduce計算のビルディングブロックをJAXのプリミティブとして組み込みます。 これにより、3つの重要なメリットが実現される。 まず、DrJAX計算をXLA HLOに直接変換することで、幅広いMLトレーニングプラットフォームとの柔軟な統合を可能にします。 第二に、DrJAX計算は完全に微分可能である。 最後に、DrJAX計算は、Apache Beamのような従来のMapReduceシステムや、フェデレートされた学習アプリケーションを動かすようなクロスデバイスコンピューティングシステムを含む、既存のバッチ処理コンピューティングシステムに解釈することができる。 DJAXは並列化アルゴリズム開発のための、プログラムが容易で、パフォーマンスが高く、スケーラブルなフレームワークを提供する。 DrJAX は \url{https://github.com/google-research/google-research/tree/master/drjax} で入手できる。

We present DrJAX, a JAX-based library designed to support large-scale distributed and parallel machine learning algorithms that use MapReduce-style operations. DrJAX leverages JAX's sharding mechanisms to enable native targeting of TPUs and state-of-the-art JAX runtimes, including Pathways. DrJAX embeds building blocks for MapReduce computations as primitives in JAX. This enables three key benefits. First, DrJAX computations can be translated directly to XLA HLO, enabling flexible integration with a wide array of ML training platforms. Second, DrJAX computations are fully differentiable. Last, DrJAX computations can be interpreted out to existing batch-processing compute systems, including traditional MapReduce systems like Apache Beam and cross-device compute systems like those powering federated learning applications. We show that DrJAX provides an easily programmable, performant, and scalable framework for parallelized algorithm development. DrJAX is available at \url{https://github.com/google-research/google-research/tree/master/drjax}.
翻訳日:2024-07-19 21:21:41 公開日:2024-07-17
# 社会的行動生成のための動的相互作用モデリング

Dyadic Interaction Modeling for Social Behavior Generation ( http://arxiv.org/abs/2403.09069v3 )

ライセンス: Link先を確認
Minh Tran, Di Chang, Maksim Siniukov, Mohammad Soleymani, (参考訳) 人間と人間のコミュニケーションは、リスナーと話者が同時に対話して会話のダイナミクスを維持する、繊細なダンスのようなものです。 したがって、リスナー非言語行動を生成する効果的なモデルには、ダイアドの文脈と相互作用を理解する必要がある。 本稿では,ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。 既存の作業では、リスナーは話者の声や顔の動きに対する反射的な振る舞いを持つ反応剤であると考えられている。 我々のフレームワークの核心はDyadic Interaction Modeling (DIM) である。これは、Dyadicコンテキストをキャプチャする表現を学ぶために、マスキングと対照的な学習を通じて、話者とリスナーの動作を共同でモデル化する訓練前のアプローチである。 非決定論的行動の生成を可能にするため、VQ-VAEを介してリスナーと話者の動作を個別の潜在表現に符号化する。 事前訓練されたモデルは、モーション生成のためにさらに微調整される。 広範にわたる実験は, 聴取者の動作生成における枠組みの優位性を実証し, 生成した動きの多様性とリアリズムを定量的に把握し, 新たな最先端技術を確立した。 定性的な結果は、多様で現実的な表現、目まき、頭部ジェスチャーの生成における提案手法の優れた能力を示している。 コードはhttps://github.com/Boese0601/Dyadic-Interaction-Modelingで入手できる。

Human-human communication is like a delicate dance where listeners and speakers concurrently interact to maintain conversational dynamics. Hence, an effective model for generating listener nonverbal behaviors requires understanding the dyadic context and interaction. In this paper, we present an effective framework for creating 3D facial motions in dyadic interactions. Existing work consider a listener as a reactive agent with reflexive behaviors to the speaker's voice and facial motions. The heart of our framework is Dyadic Interaction Modeling (DIM), a pre-training approach that jointly models speakers' and listeners' motions through masking and contrastive learning to learn representations that capture the dyadic context. To enable the generation of non-deterministic behaviors, we encode both listener and speaker motions into discrete latent representations, through VQ-VAE. The pre-trained model is further fine-tuned for motion generation. Extensive experiments demonstrate the superiority of our framework in generating listener motions, establishing a new state-of-the-art according to the quantitative measures capturing the diversity and realism of generated motions. Qualitative results demonstrate the superior capabilities of the proposed approach in generating diverse and realistic expressions, eye blinks and head gestures. The code is available at https://github.com/Boese0601/Dyadic-Interaction-Modeling
翻訳日:2024-07-19 21:11:56 公開日:2024-07-17
# DN-Splatter:ガウススメッティングとメッシュの深さと正規化

DN-Splatter: Depth and Normal Priors for Gaussian Splatting and Meshing ( http://arxiv.org/abs/2403.17822v2 )

ライセンス: Link先を確認
Matias Turkulainen, Xuqian Ren, Iaroslav Melekhov, Otto Seiskari, Esa Rahtu, Juho Kannala, (参考訳) 一般的な屋内シーンの高忠実度3D再構成は、VRおよびARアプリケーションにとって不可欠である。 3D Gaussian splatting, a novel differentiable rendering technique, has achieved the state-of-the-art novel view synthesis results with high rendering speeds and relatively low training time。 しかし,室内データセットでよく見られる場面では,最適化時の幾何的制約が欠如しているため,性能が劣っている。 我々は3Dガウススプラッティングを奥行きと通常の手法で拡張し、挑戦的な屋内データセットに取り組み、効率的なメッシュ抽出技術を示す。 具体的には、最適化手順を深度情報で規則化し、近くのガウスの局所的な滑らかさを強制し、オフザシェルの単分子ネットワークを用いて真のシーン幾何学との整合性を向上する。 カラー画像の勾配に基づく適応的な深度損失を提案し、様々なベースライン上での深度推定と新しいビュー合成結果を改善した。 我々の単純かつ効果的な正則化技術はガウス表現からの直接メッシュ抽出を可能にし、屋内シーンのより物理的に正確な再構築を可能にする。 私たちのコードはhttps://github.com/maturk/dn-splatter.comでリリースされます。

High-fidelity 3D reconstruction of common indoor scenes is crucial for VR and AR applications. 3D Gaussian splatting, a novel differentiable rendering technique, has achieved state-of-the-art novel view synthesis results with high rendering speeds and relatively low training times. However, its performance on scenes commonly seen in indoor datasets is poor due to the lack of geometric constraints during optimization. We extend 3D Gaussian splatting with depth and normal cues to tackle challenging indoor datasets and showcase techniques for efficient mesh extraction. Specifically, we regularize the optimization procedure with depth information, enforce local smoothness of nearby Gaussians, and use off-the-shelf monocular networks to achieve better alignment with the true scene geometry. We propose an adaptive depth loss based on the gradient of color images, improving depth estimation and novel view synthesis results over various baselines. Our simple yet effective regularization technique enables direct mesh extraction from the Gaussian representation, yielding more physically accurate reconstructions of indoor scenes. Our code will be released in https://github.com/maturk/dn-splatter.
翻訳日:2024-07-19 21:01:57 公開日:2024-07-17
# テンポラルアテンション分解による高速拡散

Faster Diffusion via Temporal Attention Decomposition ( http://arxiv.org/abs/2404.02747v2 )

ライセンス: Link先を確認
Haozhe Liu, Wentian Zhang, Jinheng Xie, Francesco Faccio, Mengmeng Xu, Tao Xiang, Mike Zheng Shou, Juan-Manuel Perez-Rua, Jürgen Schmidhuber, (参考訳) テキスト条件拡散モデルにおける推論における注意機構の役割について検討する。 経験的観察は、いくつかの推論ステップの後、交差注意出力が固定点に収束することを示唆している。 収束時間は自然に推論プロセス全体を2つのフェーズに分割する: テキスト指向の視覚的意味論を計画するための初期フェーズ。 クロスアテンションは初期段階で必須であるが、その後はほとんど無関係である。 しかし、自己意識は最初はマイナーな役割を果たしたが、第2フェーズでは重要な役割を担っている。 これらの結果から,時間的ゲーティング(TGATE)と呼ばれる簡易かつ訓練のない手法が得られた。 実験結果から、既存のテキスト条件拡散モデルに広く適用された場合、TGATEはこれらのモデルを10%-50%高速化する。 TGATEのコードはhttps://github.com/HaozheLiu-ST/T-GATEで公開されている。

We explore the role of attention mechanism during inference in text-conditional diffusion models. Empirical observations suggest that cross-attention outputs converge to a fixed point after several inference steps. The convergence time naturally divides the entire inference process into two phases: an initial phase for planning text-oriented visual semantics, which are then translated into images in a subsequent fidelity-improving phase. Cross-attention is essential in the initial phase but almost irrelevant thereafter. However, self-attention initially plays a minor role but becomes crucial in the second phase. These findings yield a simple and training-free method known as temporally gating the attention (TGATE), which efficiently generates images by caching and reusing attention outputs at scheduled time steps. Experimental results show when widely applied to various existing text-conditional diffusion models, TGATE accelerates these models by 10%-50%. The code of TGATE is available at https://github.com/HaozheLiu-ST/T-GATE.
翻訳日:2024-07-19 21:01:57 公開日:2024-07-17
# SambaLingo: 大規模言語モデルに新しい言語を教える

SambaLingo: Teaching Large Language Models New Languages ( http://arxiv.org/abs/2404.05829v2 )

ライセンス: Link先を確認
Zoltan Csaki, Bo Li, Jonathan Li, Qiantong Xu, Pian Pawakapan, Leon Zhang, Yun Du, Hengyu Zhao, Changran Hu, Urmish Thakker, (参考訳) LLMが広く利用可能であるにもかかわらず、その能力と様々な言語での可用性には大きなギャップが残っている。 これらの問題に対処する1つのアプローチは、既存のトレーニング済みのLLMを新しい言語でトレーニングし続けることである。 以前の研究は言語適応を実験してきたが、ベストプラクティスや方法論に関する多くの質問はカバーされていない。 本稿では,LLMの新たな言語への適応について,包括的に検討する。 本研究は、語彙拡張、直接選好最適化、低リソース言語における人間のアライメントのためのデータ不足問題など、このプロセスにおける重要な要素について述べる。 9つの言語と2つのパラメータスケール(7Bと70B)にまたがってこれらの実験をスケールします。 Llama 2、Aya-101、XGLM、BLOOM、および既存の言語専門家に対して、我々のモデルを比較した。 さらに、将来の研究を促進するため、すべての評価コードとチェックポイントが公開されています。

Despite the widespread availability of LLMs, there remains a substantial gap in their capabilities and availability across diverse languages. One approach to address these issues has been to take an existing pre-trained LLM and continue to train it on new languages. While prior works have experimented with language adaptation, many questions around best practices and methodology have not been covered. In this paper, we present a comprehensive investigation into the adaptation of LLMs to new languages. Our study covers the key components in this process, including vocabulary extension, direct preference optimization and the data scarcity problem for human alignment in low-resource languages. We scale these experiments across 9 languages and 2 parameter scales (7B and 70B). We compare our models against Llama 2, Aya-101, XGLM, BLOOM and existing language experts, outperforming all prior published baselines. Additionally, all evaluation code and checkpoints are made public to facilitate future research.
翻訳日:2024-07-19 21:01:57 公開日:2024-07-17
# ROSに基づくロボットシステムの実行時検証とフィールドベーステスト

Runtime Verification and Field-based Testing for ROS-Based Robotic Systems ( http://arxiv.org/abs/2404.11498v2 )

ライセンス: Link先を確認
Ricardo Caldas, Juan Antonio Pinera Garcia, Matei Schiopu, Patrizio Pelliccione, Genaina Rodrigues, Thorsten Berger, (参考訳) ロボットシステムは、製造業、医療、宇宙探査など、ますます多くの領域で普及し、採用されつつある。 この目的のために、メンテナンス可能で再利用可能なロボットシステムを構築するための重要な分野として、エンジニアリングソフトウェアが登場した。 ロボティクスソフトウェア工学の研究は注目され、基本的な目標として自律性を育んでいる。 しかし、シミュレーションが現実の現象を現実的にエミュレートするソリューションを提供できないため、ロボティクスの開発者はこの目標を達成するために依然として挑戦されている。 ロボットはまた、ソフトウェアに実装された安全で信頼性の高い自己適応機能を必要とする予測不能で制御不能な環境でも動作する必要がある。 この課題に対処する典型的なテクニックは、実行時検証、フィールドベースのテスト、フェールセーフなソリューションを可能にする緩和技術である。 しかし、実行時検証とフィールドベースのテストを可能にするためにROSベースのシステムを設計するための明確なガイダンスはない。 本稿では,現場でのロボットの開発,検証,テストにおいて,開発者やQAチームを支援するガイドラインを提供することで,このギャップを埋めることを目的とする。 これらのガイドラインは、現実のシナリオでロボットシステムをテストする際の課題と要件に対処するために慎重に調整されている。 ロボットシステムの実行時検証とフィールドベーステスト, ROSベースのアプリケーションリポジトリのマイニング, 適用性, 明確性, 有用性について, 55回答の2つの質問紙を用いて検討した。 ロボットソフトウェア工学の研究者と実践者のための20のガイドラインをコントリビュートする。 最後に、我々のガイドラインを、ROSベースのシステムの実行時検証とフィールドベーステストにおける課題のオープン化にマッピングし、この分野における有望な研究方向性を概説する。

Robotic systems are becoming pervasive and adopted in increasingly many domains, such as manufacturing, healthcare, and space exploration. To this end, engineering software has emerged as a crucial discipline for building maintainable and reusable robotic systems. Robotics software engineering research has received increasing attention, fostering autonomy as a fundamental goal. However, robotics developers are still challenged trying to achieve this goal given that simulation is not able to deliver solutions to realistically emulate real-world phenomena. Robots also need to operate in unpredictable and uncontrollable environments, which require safe and trustworthy self-adaptation capabilities implemented in software. Typical techniques to address the challenges are runtime verification, field-based testing, and mitigation techniques that enable fail-safe solutions. However, there is no clear guidance to architect ROS-based systems to enable and facilitate runtime verification and field-based testing. This paper aims to fill in this gap by providing guidelines that can help developers and QA teams when developing, verifying or testing their robots in the field. These guidelines are carefully tailored to address the challenges and requirements of testing robotics systems in real-world scenarios. We conducted a literature review on studies addressing runtime verification and field-based testing for robotic systems, mined ROS-based application repositories, and validated the applicability, clarity, and usefulness via two questionnaires with 55 answers. We contribute 20 guidelines formulated for researchers and practitioners in robotic software engineering. Finally, we map our guidelines to open challenges thus far in runtime verification and field-based testing for ROS-based systems and, we outline promising research directions in the field.
翻訳日:2024-07-19 20:52:07 公開日:2024-07-17
# 物体の運動ブラジャーに対する検索ロバスト

Retrieval Robust to Object Motion Blur ( http://arxiv.org/abs/2404.18025v2 )

ライセンス: Link先を確認
Rong Zou, Marc Pollefeys, Denys Rozumnyi, (参考訳) 移動する物体は日常生活でよく見られ、通常、動きのために画像にぼやけている。 汎用オブジェクト検索はコンピュータビジョンにおいて広く研究されている分野であるが、主にシャープで静的なオブジェクトに焦点を当てており、大規模な画像収集における動きブルオブジェクトの検索は未探索のままである。 本研究では,動きのぼやけの影響を受けやすい画像のオブジェクト検索手法を提案する。 提案手法は,ぼやけたオブジェクトをデブロア化されたバージョンにマッチングできる頑健な表現を学習し,その逆も学習する。 提案手法を評価するために, 様々なポーズやスケールにおいて, 様々な程度にぼやけた物体の画像を特徴付ける, ぼやけた物体検索のための最初の大規模データセットを提案する。 提案手法は,提案手法の有効性を検証した新しいぼかし検索データセットにおいて,最先端の検索手法よりも優れていることを示す。 コード、データ、モデルはhttps://github.com/Rong-Zou/Retrieval-Robust-to-Object-Motion-Blurで入手できる。

Moving objects are frequently seen in daily life and usually appear blurred in images due to their motion. While general object retrieval is a widely explored area in computer vision, it primarily focuses on sharp and static objects, and retrieval of motion-blurred objects in large image collections remains unexplored. We propose a method for object retrieval in images that are affected by motion blur. The proposed method learns a robust representation capable of matching blurred objects to their deblurred versions and vice versa. To evaluate our approach, we present the first large-scale datasets for blurred object retrieval, featuring images with objects exhibiting varying degrees of blur in various poses and scales. We conducted extensive experiments, showing that our method outperforms state-of-the-art retrieval methods on the new blur-retrieval datasets, which validates the effectiveness of the proposed approach. Code, data, and model are available at https://github.com/Rong-Zou/Retrieval-Robust-to-Object-Motion-Blur.
翻訳日:2024-07-19 20:52:07 公開日:2024-07-17
# 条件付きGANへの蒸留拡散モデル

Distilling Diffusion Models into Conditional GANs ( http://arxiv.org/abs/2405.05967v3 )

ライセンス: Link先を確認
Minguk Kang, Richard Zhang, Connelly Barnes, Sylvain Paris, Suha Kwak, Jaesik Park, Eli Shechtman, Jun-Yan Zhu, Taesung Park, (参考訳) 本稿では,複雑な多段階拡散モデルを単一段階の条件付きGAN学生モデルに蒸留し,画像品質を保ちながら推論を劇的に加速する手法を提案する。 本稿では,拡散モデルのODE軌道のノイズ対と画像対を用いて,拡散蒸留を画像対変換タスクとして解釈する。 効率的な回帰損失計算のために,拡散モデルの潜在空間で直接動作する知覚的損失であるE-LatentLPIPSを提案する。 さらに、拡散モデルを適用し、テキストアライメント損失を有するマルチスケール判別器を構築し、効果的な条件付きGANベースの定式化を構築する。 E-LatentLPIPSは多くの既存の蒸留法よりも効率的に収束し、データセットの構築コストも考慮している。 我々は, ゼロショットCOCOベンチマークにおいて, 最先端の一段階拡散蒸留モデル(DMD, SDXL-Turbo, SDXL-Lightning)より優れていることを示す。

We propose a method to distill a complex multistep diffusion model into a single-step conditional GAN student model, dramatically accelerating inference, while preserving image quality. Our approach interprets diffusion distillation as a paired image-to-image translation task, using noise-to-image pairs of the diffusion model's ODE trajectory. For efficient regression loss computation, we propose E-LatentLPIPS, a perceptual loss operating directly in diffusion model's latent space, utilizing an ensemble of augmentations. Furthermore, we adapt a diffusion model to construct a multi-scale discriminator with a text alignment loss to build an effective conditional GAN-based formulation. E-LatentLPIPS converges more efficiently than many existing distillation methods, even accounting for dataset construction costs. We demonstrate that our one-step generator outperforms cutting-edge one-step diffusion distillation models -- DMD, SDXL-Turbo, and SDXL-Lightning -- on the zero-shot COCO benchmark.
翻訳日:2024-07-19 20:42:05 公開日:2024-07-17
# 自閉症のある求職者のための協調的デザイン--未来研究のための概念的枠組み

Collaborative Design for Job-Seekers with Autism: A Conceptual Framework for Future Research ( http://arxiv.org/abs/2405.06078v2 )

ライセンス: Link先を確認
Sungsoo Ray Hong, Marcos Zampieri, Brittany N. Hand, Vivian Motti, Dongjun Chung, Ozlem Uzuner, (参考訳) 雇用の成功は、求職者が他人とコミュニケーションし協力する能力に強く関係している。 求職過程においてネットワークを活用することは神経型に直感的であるが、自閉症の人には難しい。 最近の経験的発見は、自閉症患者と新しいデザインによる社会的環境との連携が、いかに雇用機会を向上させるかを示し始めている。 この研究は、将来の研究者や実践者が、自閉症のある求職者の協調設計を改善するために適用できる、実行可能なガイドラインと概念的フレームワークを提供することを目的としている。 本研究は,(1)コミュニケーション支援,(2)就業段階支援,(3)グループワーク支援の3つの主要な研究課題を定義する。 それぞれの課題について、現在の最先端のプラクティスと将来のソリューションについてレビューします。 次に、人間とAIのコラボレーション、医療サービス、グループワーク、アクセシビリティーコンピューティング、自然言語処理の分野間レンズのブレークスルーを提供する将来の設計を提案する。

The success of employment is highly related to a job seeker's capability of communicating and collaborating with others. While leveraging one's network during the job-seeking process is intuitive to the neurotypical, this can be challenging for people with autism. Recent empirical findings have started to show how facilitating collaboration between people with autism and their social surroundings through new design can improve their chances of employment. This work aims to provide actionable guidelines and conceptual frameworks that future researchers and practitioners can apply to improve collaborative design for job-seekers with autism. Built upon the literature on past technological interventions built for supporting job-seekers with autism, we define three major research challenges of (1) communication support, (2) employment stage-wise support, and (3) group work support. For each challenge, we review the current state-of-the-art practices and possible future solutions. We then suggest future designs that can provide breakthroughs from the interdisciplinary lens of human-AI collaboration, health services, group work, accessibility computing, and natural language processing.
翻訳日:2024-07-19 20:42:05 公開日:2024-07-17
# Casimir-Polder 相互作用による定常エンタングルメント生成

Steady-State Entanglement Generation via Casimir-Polder Interactions ( http://arxiv.org/abs/2406.02270v2 )

ライセンス: Link先を確認
Mohsen Izadyari, Onur Pusuluk, Kanu Sinha, Özgür E. Müstecaplıoğlu, (参考訳) 本研究では, 表面近傍のCasimir-Polder (CP) 相互作用から生じる2つの原子間の定常な絡み合いの発生について検討した。 原子の初期分離状態から始めて、平面媒質から$\sim25$ nm離れた距離に配置された原子の原子-原子絡み合いのダイナミクスを分析し、媒質の性質と原子双極子の幾何学的構成の影響を調べた。 完全導電および超伝導表面は, ほぼ0.5の最適定常収束値が得られることを示す。 さらに, 生成した絡み合いは金属表面の中間損失とともに減少するが, 表面による絡み合いの発生を補助する金属表面からの最適距離を同定する。 ゆらぎを媒介とする相互作用は、通常ナノスケールにおける量子系のコヒーレンスに有害であると考えられるが、この結果は、そのような相互作用を絡み合い生成に活用するためのメカニズムを実証する。

We investigate the generation of steady-state entanglement between two atoms resulting from the fluctuation-mediated Casimir-Polder (CP) interactions near a surface. Starting with an initially separable state of the atoms, we analyze the atom-atom entanglement dynamics for atoms placed at distances in the range of $\sim25$ nm away from a planar medium, examining the effect of medium properties and geometrical configuration of the atomic dipoles. We show that perfectly conducting and superconducting surfaces yield an optimal steady-state concurrence value of approximately 0.5. Furthermore, although the generated entanglement decreases with medium losses for a metal surface, we identify an optimal distance from the metal surface that assists in entanglement generation by the surface. While fluctuation-mediated interactions are typically considered detrimental to the coherence of quantum systems at nanoscales, our results demonstrate a mechanism for leveraging such interactions for entanglement generation.
翻訳日:2024-07-19 20:32:20 公開日:2024-07-17
# PrE-Text:LLM時代の私的フェデレーションデータに基づく言語モデル

PrE-Text: Training Language Models on Private Federated Data in the Age of LLMs ( http://arxiv.org/abs/2406.02958v2 )

ライセンス: Link先を確認
Charlie Hou, Akshat Shrivastava, Hongyuan Zhan, Rylan Conway, Trang Le, Adithya Sagar, Giulia Fanti, Daniel Lazar, (参考訳) オンデバイストレーニングは、現在、プライベートな分散ユーザデータ上で機械学習(ML)モデルをトレーニングするための最も一般的なアプローチである。 それにもかかわらず、デバイス上でのトレーニングにはいくつかの欠点がある: (1) 多くのユーザデバイスはデバイス上で大きなモデルをトレーニングするには小さすぎる、(2)デバイス上でのトレーニングは通信と計算集約であり、(3)デバイス上でのトレーニングはデバッグとデプロイが困難である。 これらの問題に対処するために、差分プライベート(DP)合成テキストデータを生成するPrE-Text(PrE-Text)を提案する。 まず、複数のデータセットにまたがって、PrE-Text合成データによる小さなモデル(ユーザデバイスに適合するモデル)のトレーニングが、実際のプライバシー体制下でトレーニングされた小さなモデル(\epsilon=1.29$, $\epsilon=7.58$)よりも優れていることを示す。 9$\times$より少ないラウンド、6$\times$より少ないラウンドで、100$\times$より少ない通信で、これらの結果を達成する。 第二に、PrE-TextのDP合成データに大規模なモデルを微調整することで、同じ種類のプライバシー予算でプライベートデータ上での大きな言語モデル(LLM)のパフォーマンスが向上する。 これらの結果は、DP合成データのトレーニングが、プライベートな分散データ上でデバイス上でモデルをトレーニングするよりも、よりよい選択肢となることを示唆している。 コードはhttps://github.com/houcharlie/PrE-Textで入手できる。

On-device training is currently the most common approach for training machine learning (ML) models on private, distributed user data. Despite this, on-device training has several drawbacks: (1) most user devices are too small to train large models on-device, (2) on-device training is communication- and computation-intensive, and (3) on-device training can be difficult to debug and deploy. To address these problems, we propose Private Evolution-Text (PrE-Text), a method for generating differentially private (DP) synthetic textual data. First, we show that across multiple datasets, training small models (models that fit on user devices) with PrE-Text synthetic data outperforms small models trained on-device under practical privacy regimes ($\epsilon=1.29$, $\epsilon=7.58$). We achieve these results while using 9$\times$ fewer rounds, 6$\times$ less client computation per round, and 100$\times$ less communication per round. Second, finetuning large models on PrE-Text's DP synthetic data improves large language model (LLM) performance on private data across the same range of privacy budgets. Altogether, these results suggest that training on DP synthetic data can be a better option than training a model on-device on private distributed data. Code is available at https://github.com/houcharlie/PrE-Text.
翻訳日:2024-07-19 20:32:20 公開日:2024-07-17
# パラメータアンダーレジームにおけるフェデレーション表現学習

Federated Representation Learning in the Under-Parameterized Regime ( http://arxiv.org/abs/2406.04596v4 )

ライセンス: Link先を確認
Renpu Liu, Cong Shen, Jing Yang, (参考訳) フェデレーション表現学習(FRL)は、クライアントが共通の表現をトレーニングし、パーソナライズされた頭を維持しながら協調する、パーソナライズされたフェデレーション学習(FL)フレームワークである。 しかし、既存の研究は主に過度にパラメータ化された体制に焦点を当てている。 本稿では, フラックスモデルがすべての地中構造モデルの変動を表現するのに不十分な, パラメータ下条件下でのFRLについて検討する。 我々は新しいFRLアルゴリズムFLUTEを提案し、パラメータ下状態における線形モデルに対する標本の複雑さと収束率を理論的に特徴づける。 我々の知る限りでは、この方式で証明可能な性能保証を備えたFRLアルゴリズムは初めてである。 FLUTEは、データ非依存のランダム初期化と、不整合局所表現から大域的最適表現に代表される部分空間の蒸留を支援する、慎重に設計された目的関数を備えている。 技術的には、FL解析による低ランク行列近似手法を橋渡しする。 また、FLUTEを線形表現を超えて拡張する。 実験により、FLUTEは、合成タスクと実世界のタスクの両方において、最先端のFRLソリューションよりも優れていることが示された。

Federated representation learning (FRL) is a popular personalized federated learning (FL) framework where clients work together to train a common representation while retaining their personalized heads. Existing studies, however, largely focus on the over-parameterized regime. In this paper, we make the initial efforts to investigate FRL in the under-parameterized regime, where the FL model is insufficient to express the variations in all ground-truth models. We propose a novel FRL algorithm FLUTE, and theoretically characterize its sample complexity and convergence rate for linear models in the under-parameterized regime. To the best of our knowledge, this is the first FRL algorithm with provable performance guarantees in this regime. FLUTE features a data-independent random initialization and a carefully designed objective function that aids the distillation of subspace spanned by the global optimal representation from the misaligned local representations. On the technical side, we bridge low-rank matrix approximation techniques with the FL analysis, which may be of broad interest. We also extend FLUTE beyond linear representations. Experimental results demonstrate that FLUTE outperforms state-of-the-art FRL solutions in both synthetic and real-world tasks.
翻訳日:2024-07-19 20:32:20 公開日:2024-07-17
# 競争プログラミングにおける人力支援のためのタスク分解の学習

Learning Task Decomposition to Assist Humans in Competitive Programming ( http://arxiv.org/abs/2406.04604v2 )

ライセンス: Link先を確認
Jiaxin Wen, Ruiqi Zhong, Pei Ke, Zhihong Shao, Hongning Wang, Minlie Huang, (参考訳) 複雑な問題を解決するために言語モデル(LM)を使用する場合、人間はLM生成した解決策を理解し、欠陥のあるものを修正するのに苦労するかもしれない。 そこで本研究では, 複雑な解を, 特定のサブタスクに対応する複数の単純なピースに自動的に分解する手法を提案する。 本研究では, 課題分解学習のための新しい目標である補助値(AssistV)を導入する。 我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。 収集したデータをインコンテキストの例として利用して、AssistVを改善するために分解されたソリューションを批判し、洗練し、ランク付けすることを学ぶ。 我々は,本手法を競合プログラミング問題下で検証する。人間研究177時間で,非専門家が33.3倍の問題を解き,3.3倍の速度で高速化し,無支援の専門家とのマッチングを可能にする。

When using language models (LMs) to solve complex problems, humans might struggle to understand the LM-generated solutions and repair the flawed ones. To assist humans in repairing them, we propose to automatically decompose complex solutions into multiple simpler pieces that correspond to specific subtasks. We introduce a novel objective for learning task decomposition, termed assistive value (AssistV), which measures the feasibility and speed for humans to repair the decomposed solution. We collect a dataset of human repair experiences on different decomposed solutions. Utilizing the collected data as in-context examples, we then learn to critique, refine, and rank decomposed solutions to improve AssistV. We validate our method under competitive programming problems: under 177 hours of human study, our method enables non-experts to solve 33.3\% more problems, speeds them up by 3.3x, and empowers them to match unassisted experts.
翻訳日:2024-07-19 20:32:20 公開日:2024-07-17
# カスタマイズ拡散モデルにおける重み空間の解釈

Interpreting the Weight Space of Customized Diffusion Models ( http://arxiv.org/abs/2406.09413v2 )

ライセンス: Link先を確認
Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman, (参考訳) 本研究では,多種多様な拡散モデルによる重みの空間について検討する。 私たちは6万以上のモデルのデータセットを作成して、このスペースをポップアップさせ、それぞれが異なる人の視覚的アイデンティティを挿入するために微調整されたベースモデルです。 これらの重みの基底多様体を部分空間としてモデル化し、重み2重みと呼ぶ。 我々は、この空間の3つの即時応用、サンプリング、編集、反転を実演する。 まず、空間の各点が恒等式に対応するので、そこから重みの集合をサンプリングすると、新しい恒等式を符号化するモデルが得られる。 次に、この空間における線形方向は、アイデンティティのセマンティックな編集(例えば、ひげを加える)に対応する。 これらの編集は、生成されたサンプルにまたがって出現し続ける。 最後に、入力画像が分布外である場合でも、この空間に単一のイメージを反転させることで、現実的なアイデンティティが再構築されることを示す(例えば、絵画)。 この結果は、微調整拡散モデルの重み空間が、解釈可能な潜在性空間として振る舞うことを示唆している。

We investigate the space of weights spanned by a large collection of customized diffusion models. We populate this space by creating a dataset of over 60,000 models, each of which is a base model fine-tuned to insert a different person's visual identity. We model the underlying manifold of these weights as a subspace, which we term weights2weights. We demonstrate three immediate applications of this space -- sampling, editing, and inversion. First, as each point in the space corresponds to an identity, sampling a set of weights from it results in a model encoding a novel identity. Next, we find linear directions in this space corresponding to semantic edits of the identity (e.g., adding a beard). These edits persist in appearance across generated samples. Finally, we show that inverting a single image into this space reconstructs a realistic identity, even if the input image is out of distribution (e.g., a painting). Our results indicate that the weight space of fine-tuned diffusion models behaves as an interpretable latent space of identities.
翻訳日:2024-07-19 20:22:33 公開日:2024-07-17
# 高レベル合成による電子設計自動化のためのクロスモーダルプログラム表現学習

Cross-Modality Program Representation Learning for Electronic Design Automation with High-Level Synthesis ( http://arxiv.org/abs/2406.09606v3 )

ライセンス: Link先を確認
Zongyue Qin, Yunsheng Bai, Atefeh Sohrabizadeh, Zijian Ding, Ziniu Hu, Yizhou Sun, Jason Cong, (参考訳) 近年、ディープラーニングや自律運転などのアプリケーションで、ドメイン固有アクセラレータ(DSA)が人気を集めている。 DSA設計を容易にするため、プログラマは高レベル合成(HLS)を使用して、C/C++で書かれた高レベル記述を低レベルなハードウェア記述言語でコンパイルし、最終的に回路上でDSAを合成する。 しかし、高品質なHLS設計を作成するには、特に「textit{pragmas}」と表されるマイクロアーキテクチャ決定において、重要なドメイン知識が必要である。 したがって、HLS設計の品質を予測するために機械学習の助けを借りてそのような決定を自動化し、元のコードとプラグマからなるプログラムをより深く理解する必要がある。 当然、これらのプログラムはシーケンスデータと見なすことができる。 さらに、これらのプログラムをコンパイルして制御データフローグラフ(CDFG)に変換することもできる。 しかし、既存の作品は両方のモダリティを活用できないか、その2つを浅いあるいは粗い方法で組み合わせることができない。 本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互作用できるモデルであるProgSGを提案する。 ラベル付き設計の不足を軽減するため,コンパイラのデータフロー解析タスクのスイートに基づいて事前学習手法を提案する。 実験の結果、ProgSG は設計性能予測の RMSE を最大で 22\% まで下げ、平均で $1.10\times$ と $1.26\times$ (最大 8.17\times$ と $113.31\times$) を HARP と AutoDSE と比較してそれぞれ性能改善したことを示している。

In recent years, domain-specific accelerators (DSAs) have gained popularity for applications such as deep learning and autonomous driving. To facilitate DSA designs, programmers use high-level synthesis (HLS) to compile a high-level description written in C/C++ into a design with low-level hardware description languages that eventually synthesize DSAs on circuits. However, creating a high-quality HLS design still demands significant domain knowledge, particularly in microarchitecture decisions expressed as \textit{pragmas}. Thus, it is desirable to automate such decisions with the help of machine learning for predicting the quality of HLS designs, requiring a deeper understanding of the program that consists of original code and pragmas. Naturally, these programs can be considered as sequence data. In addition, these programs can be compiled and converted into a control data flow graph (CDFG). But existing works either fail to leverage both modalities or combine the two in shallow or coarse ways. We propose ProgSG, a model that allows interaction between the source code sequence modality and the graph modality in a deep and fine-grained way. To alleviate the scarcity of labeled designs, a pre-training method is proposed based on a suite of compiler's data flow analysis tasks. Experimental results show that ProgSG reduces the RMSE of design performance predictions by up to $22\%$, and identifies designs with an average of $1.10\times$ and $1.26\times$ (up to $8.17\times$ and $13.31\times$) performance improvement in design space exploration (DSE) task compared to HARP and AutoDSE, respectively.
翻訳日:2024-07-19 20:22:33 公開日:2024-07-17
# 境界線を破る: モデル編集が言語間性能に及ぼす影響について

Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance ( http://arxiv.org/abs/2406.11139v2 )

ライセンス: Link先を確認
Somnath Banerjee, Avik Halder, Rajarshi Mandal, Sayan Layek, Ian Soboroff, Rima Hazra, Animesh Mukherjee, (参考訳) BERTやGPTのような事前訓練された言語モデル(PLM)の統合は、特に英語においてNLPに革命をもたらしたが、言語的不均衡も生んでいる。 本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。 Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。 本研究は,言語間整合性に関する正規モデルとマージモデルにおいて重要な相違点を同定する。 我々は、これらのモデルをストレステストするために、'each language for itself'(ELFI)や'each language for others'(ELFO)のような戦略を採用している。 我々の研究は、LLMが言語的障壁を克服する可能性を実証し、AI技術における言語的傾倒を達成するための基礎となる基礎を築いた。

The integration of pretrained language models (PLMs) like BERT and GPT has revolutionized NLP, particularly for English, but it has also created linguistic imbalances. This paper strategically identifies the need for linguistic equity by examining several knowledge editing techniques in multilingual contexts. We evaluate the performance of models such as Mistral, TowerInstruct, OpenHathi, Tamil-Llama, and Kan-Llama across languages including English, German, French, Italian, Spanish, Hindi, Tamil, and Kannada. Our research identifies significant discrepancies in normal and merged models concerning cross-lingual consistency. We employ strategies like 'each language for itself' (ELFI) and 'each language for others' (ELFO) to stress-test these models. Our findings demonstrate the potential for LLMs to overcome linguistic barriers, laying the groundwork for future research in achieving linguistic inclusivity in AI technologies.
翻訳日:2024-07-19 20:22:33 公開日:2024-07-17
# バックドアトリガーとしての今後の出来事 : LLMにおける時間的脆弱性の調査

Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs ( http://arxiv.org/abs/2407.04108v2 )

ライセンス: Link先を確認
Sara Price, Arjun Panickssery, Sam Bowman, Asa Cooper Stickland, (参考訳) バックドアは隠れた振る舞いであり、AIシステムがデプロイされるとのみトリガーされる。 バックドアを成功させようとする悪いアクターは、トレーニングや評価の際のアクティベーションを避けるために、それらを設計する必要があります。 これらの段階で使用されるデータは、既に発生したイベントに関する情報のみを含むことが多いため、単純なバックドアトリガーのコンポーネントは、トレーニングされた時間に関する将来的なデータを認識するモデルになる可能性がある。 実験の促進と内部アクティベーションの探索により、現在の大規模言語モデル(LLM)は過去の出来事と将来の出来事を区別でき、モデルのアクティベーションに関する調査では90%の精度が得られた。 私たちは、時間的分布シフトによって引き起こされるバックドアでモデルをトレーニングします。 有用で無害で正直な(HHH)データの微調整は、シンプルなバックドアトリガを除去するにはうまくいきませんが、我々のバックドアモデルでは有効です。 また,モデルの内部表現を表すアクティベーションステアリングベクトルが,バックドアアクティベーションの速度に影響を与えることも確認した。 これらの結果は、少なくとも我々がテストする控えめなスケールのモデルでは、標準安全対策はこれらのバックドアを取り除くのに十分である、という最初の証拠として捉えています。

Backdoors are hidden behaviors that are only triggered once an AI system has been deployed. Bad actors looking to create successful backdoors must design them to avoid activation during training and evaluation. Since data used in these stages often only contains information about events that have already occurred, a component of a simple backdoor trigger could be a model recognizing data that is in the future relative to when it was trained. Through prompting experiments and by probing internal activations, we show that current large language models (LLMs) can distinguish past from future events, with probes on model activations achieving 90% accuracy. We train models with backdoors triggered by a temporal distributional shift; they activate when the model is exposed to news headlines beyond their training cut-off dates. Fine-tuning on helpful, harmless and honest (HHH) data does not work well for removing simpler backdoor triggers but is effective on our backdoored models, although this distinction is smaller for the larger-scale model we tested. We also find that an activation-steering vector representing a model's internal representation of the date influences the rate of backdoor activation. We take these results as initial evidence that, at least for models at the modest scale we test, standard safety measures are enough to remove these backdoors.
翻訳日:2024-07-19 20:12:48 公開日:2024-07-17
# 大規模言語モデルを用いた検索支援による説明可能なバイオメディカル仮説生成

Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models ( http://arxiv.org/abs/2407.12888v1 )

ライセンス: Link先を確認
Alexander R. Pelletier, Joseph Ramirez, Irsyad Adam, Simha Sankar, Yu Yan, Ding Wang, Dylan Steinecke, Wei Wang, Peipei Ping, (参考訳) 今日入手可能な膨大なバイオメディカル情報は、これらの発見を効果的に消化し、処理し、理解しようとする研究者にとって重要な課題であることを示している。 大規模言語モデル(LLM)は、この複雑で困難なデータランドスケープをナビゲートする強力なツールとして登場した。 しかし、LLMは幻覚反応を引き起こす可能性があり、正確な情報を得るためには、RAG(Retrieval Augmented Generation)が不可欠である。 本プロトコルでは,知識統合と仮説生成を行う研究者を支援するための総合的なワークフローであるRUGGED(Retrieval Under Graph-Guided Explainable Disease Distinction)を提案する。 出版物や知識ベースからの関連バイオメディカル情報は、テキストマイニングアソシエーション分析および疾患ノード上の説明可能なグラフ予測モデルを用いてレビュー、統合、抽出され、薬物や疾患間の潜在的な関連を予測する。 これらの分析は、生医学的テキストとともに、ユーザ指向のメカニズム解明と、RAG対応LCMによる仮説探索を容易にするフレームワークに統合される。 臨床応用例では、RUGGEDが不整脈性心筋症(ACM)および拡張型心筋症(DCM)の治療評価と推奨を行い、分子間相互作用および未探索使用のための所定の薬物を分析できることが示されている。 このプラットフォームはLLM幻覚を最小化し、実行可能な洞察を提供し、新しい治療薬の調査を改善する。

The vast amount of biomedical information available today presents a significant challenge for investigators seeking to digest, process, and understand these findings effectively. Large Language Models (LLMs) have emerged as powerful tools to navigate this complex and challenging data landscape. However, LLMs may lead to hallucinatory responses, making Retrieval Augmented Generation (RAG) crucial for achieving accurate information. In this protocol, we present RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), a comprehensive workflow designed to support investigators with knowledge integration and hypothesis generation, identifying validated paths forward. Relevant biomedical information from publications and knowledge bases are reviewed, integrated, and extracted via text-mining association analysis and explainable graph prediction models on disease nodes, forecasting potential links among drugs and diseases. These analyses, along with biomedical texts, are integrated into a framework that facilitates user-directed mechanism elucidation as well as hypothesis exploration through RAG-enabled LLMs. A clinical use-case demonstrates RUGGED's ability to evaluate and recommend therapeutics for Arrhythmogenic Cardiomyopathy (ACM) and Dilated Cardiomyopathy (DCM), analyzing prescribed drugs for molecular interactions and unexplored uses. The platform minimizes LLM hallucinations, offers actionable insights, and improves the investigation of novel therapeutics.
翻訳日:2024-07-19 19:52:52 公開日:2024-07-17
# GeoGuide:拡散モデルの幾何学的ガイダンス

GeoGuide: Geometric guidance of diffusion models ( http://arxiv.org/abs/2407.12889v1 )

ライセンス: Link先を確認
Mateusz Poleski, Jacek Tabor, Przemysław Spurek, (参考訳) 拡散モデルは画像生成の最も効果的な方法の一つである。 これは特に、GANとは異なり、トレーニング中は容易に条件付きで、望ましいクラスやプロパティを持つ要素を生成することができるためである。 しかし、事前学習した拡散モデルを用いてラベルなしデータから要素を生成することは、はるかに困難である。 考えられる解決策の1つは、ADM-G誘導法である。 ADM-Gは、与えられたクラスから要素をうまく生成するが、もともとこのクラスに規定されていたモデルと比較して、大きな品質差がある。 特に, ADM-G誘導拡散モデルにより得られたFIDスコアは, クラス条件のガイダンスよりも約3倍低い。 ADM-Gは, 復調過程の最終段階において, 最小限のガイダンスを提供するため, この問題が原因であることが実証された。 この問題を解決するために,データ多様体から拡散モデルの軌道距離を追従するガイダンスモデルGeoGuideを提案する。 GeoGuideの主な考え方は、後方除音プロセス中に正規化された調整を生成することである。 実験で示されたように、GeoGuideはFIDスコアと生成された画像の品質の両方に関して確率論的アプローチであるADM-Gを上回っている。

Diffusion models are among the most effective methods for image generation. This is in particular because, unlike GANs, they can be easily conditioned during training to produce elements with desired class or properties. However, guiding a pre-trained diffusion model to generate elements from previously unlabeled data is significantly more challenging. One of the possible solutions was given by the ADM-G guiding approach. Although ADM-G successfully generates elements from the given class, there is a significant quality gap compared to a model originally conditioned on this class. In particular, the FID score obtained by the ADM-G-guided diffusion model is nearly three times lower than the class-conditioned guidance. We demonstrate that this issue is partly due to ADM-G providing minimal guidance during the final stage of the denoising process. To address this problem, we propose GeoGuide, a guidance model based on tracing the distance of the diffusion model's trajectory from the data manifold. The main idea of GeoGuide is to produce normalized adjustments during the backward denoising process. As shown in the experiments, GeoGuide surpasses the probabilistic approach ADM-G with respect to both the FID scores and the quality of the generated images.
翻訳日:2024-07-19 19:52:52 公開日:2024-07-17
# 視覚変換器を用いた高精細画像認識のためのグローバルローカル類似性

Global-Local Similarity for Efficient Fine-Grained Image Recognition with Vision Transformers ( http://arxiv.org/abs/2407.12891v1 )

ライセンス: Link先を確認
Edwin Arkel Rios, Min-Chun Hu, Bo-Cheng Lai, (参考訳) 微粒化認識には下位のマクロカテゴリからのイメージの分類が含まれており、クラス間の差が小さいため困難である。 これを解決するために、ほとんどの方法は、特徴抽出バックボーンで可能とし、次いで高レベルな特徴改善ステップで識別的特徴選択を行う。 近年,視覚変換器を微細な認識のバックボーンとして活用する研究が盛んに行われているが,識別トークンの選択に注意機構を用いることは,計算に費用がかかる。 本研究では,画像中の識別領域を識別するための,新しい計算コストの指標を提案する。 CLSトークンによって与えられる画像のグローバルな表現、分類のために変換器が使用する学習可能なトークン、個々のパッチの局所的な表現の類似性を比較した。 我々は,同じ変圧器エンコーダによって転送される作物を得るために,最も類似性の高い地域を選択する。 最後に、より堅牢な予測を行うために、オリジナルおよびトリミングされた表現の高レベルな特徴をさらに洗練する。 提案手法の有効性を実験的に検証し,様々なデータセットにまたがる精度で良好な結果が得られることを示した。 さらに,提案手法は,提案手法よりも計算コストの低い結果が得られる。 コードとチェックポイントは: \url{https://github.com/arkel23/GLSim}.orgで入手できる。

Fine-grained recognition involves the classification of images from subordinate macro-categories, and it is challenging due to small inter-class differences. To overcome this, most methods perform discriminative feature selection enabled by a feature extraction backbone followed by a high-level feature refinement step. Recently, many studies have shown the potential behind vision transformers as a backbone for fine-grained recognition, but their usage of its attention mechanism to select discriminative tokens can be computationally expensive. In this work, we propose a novel and computationally inexpensive metric to identify discriminative regions in an image. We compare the similarity between the global representation of an image given by the CLS token, a learnable token used by transformers for classification, and the local representation of individual patches. We select the regions with the highest similarity to obtain crops, which are forwarded through the same transformer encoder. Finally, high-level features of the original and cropped representations are further refined together in order to make more robust predictions. Through extensive experimental evaluation we demonstrate the effectiveness of our proposed method, obtaining favorable results in terms of accuracy across a variety of datasets. Furthermore, our method achieves these results at a much lower computational cost compared to the alternatives. Code and checkpoints are available at: \url{https://github.com/arkel23/GLSim}.
翻訳日:2024-07-19 19:52:52 公開日:2024-07-17
# ハイブリッド動的プルーニング:効率的な変圧器推論への道

Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference ( http://arxiv.org/abs/2407.12893v1 )

ライセンス: Link先を確認
Ghadeer Jaradat, Mohammed Tolba, Ghada Alsuhli, Hani Saleh, Mahmoud Al-Qutayri, Thanos Stouraitis, Baker Mohammad, (参考訳) ディープラーニングの世界では、Transformerモデルが非常に重要になり、言語理解から画像認識まで多くの分野で改善され、幅広い応用がカバーされている。 その成功にもかかわらず、これらのモデルをリアルタイムアプリケーション、特にエッジデバイスにデプロイすることは、2次計算強度とメモリ要求のために大きな課題となる。 これらの課題を克服するために、頭部の疎度、ブロックの疎度、および近似機会を用いてトランスフォーマーを高速化し、注意の計算を減らし、メモリアクセスを減少させる効率的なアルゴリズムアーキテクチャ共設計アプローチであるHybrid Dynamic Pruning (HDP)を導入する。 注目スコアと注目ヘッドの巨大な冗長性を観察し、実行時に注目行列内の重要でないブロックをプルーする新しい整数ベースの行バランスブロックプルーニングを提案し、また、実行時に重要でないヘッドを検出およびプルーする整数ベースのヘッドプルーニングを提案する。 また,注意計算の少ない近似法を提案する。 低レイテンシと電力効率でこれらの手法を効率的にサポートするために,HDPコプロセッサアーキテクチャを提案する。

In the world of deep learning, Transformer models have become very significant, leading to improvements in many areas from understanding language to recognizing images, covering a wide range of applications. Despite their success, the deployment of these models in real-time applications, particularly on edge devices, poses significant challenges due to their quadratic computational intensity and memory demands. To overcome these challenges we introduce a novel Hybrid Dynamic Pruning (HDP), an efficient algorithm-architecture co-design approach that accelerates transformers using head sparsity, block sparsity and approximation opportunities to reduce computations in attention and reduce memory access. With the observation of the huge redundancy in attention scores and attention heads, we propose a novel integer-based row-balanced block pruning to prune unimportant blocks in the attention matrix at run time, also propose integer-based head pruning to detect and prune unimportant heads at an early stage at run time. Also we propose an approximation method that reduces attention computations. To efficiently support these methods with lower latency and power efficiency, we propose a HDP co-processor architecture.
翻訳日:2024-07-19 19:52:52 公開日:2024-07-17
# マルチステート劣化型下水道管の保守戦略と深部補強学習

Maintenance Strategies for Sewer Pipes with Multi-State Degradation and Deep Reinforcement Learning ( http://arxiv.org/abs/2407.12894v1 )

ライセンス: Link先を確認
Lisandro A. Jimenez-Roa, Thiago D. Simão, Zaharah Bukhsh, Tiedo Tinga, Hajo Molegraaf, Nils Jansen, Marielle Stoelinga, (参考訳) 大規模インフラシステムは社会福祉にとって不可欠であり、その効果的な管理には様々な複雑さを考慮に入れた戦略的予測と介入の方法が必要である。 本研究は,下水道事業に応用されたPHM(Prognostics and Health Management)フレームワークにおける2つの課題に対処する。 我々は、下水道管の確率的劣化過程を表すために多状態劣化モデル(MSDM)を用い、保守戦略の考案にDeep Reinforcement Learning(DRL)を用いている。 オランダ下水道網のケーススタディは,我々の方法論を実証している。 本研究は, ヒューリスティックスを超越した知的, コスト削減型メンテナンス戦略を創出する上で, モデルの有効性を示すものである。 パイプの年齢に基づいて管理戦略に適応し、新しいパイプの受動的アプローチを選択し、古いパイプのアクティブ戦略に移行して失敗を防止しコストを削減した。 本研究は、DRLがメンテナンスポリシーを最適化する可能性を強調している。 今後の研究は、部分的な可観測性を取り入れ、様々な強化学習アルゴリズムを探求し、この方法論を総合的なインフラ管理にまで拡張することで、モデルの改善を目指す。

Large-scale infrastructure systems are crucial for societal welfare, and their effective management requires strategic forecasting and intervention methods that account for various complexities. Our study addresses two challenges within the Prognostics and Health Management (PHM) framework applied to sewer assets: modeling pipe degradation across severity levels and developing effective maintenance policies. We employ Multi-State Degradation Models (MSDM) to represent the stochastic degradation process in sewer pipes and use Deep Reinforcement Learning (DRL) to devise maintenance strategies. A case study of a Dutch sewer network exemplifies our methodology. Our findings demonstrate the model's effectiveness in generating intelligent, cost-saving maintenance strategies that surpass heuristics. It adapts its management strategy based on the pipe's age, opting for a passive approach for newer pipes and transitioning to active strategies for older ones to prevent failures and reduce costs. This research highlights DRL's potential in optimizing maintenance policies. Future research will aim improve the model by incorporating partial observability, exploring various reinforcement learning algorithms, and extending this methodology to comprehensive infrastructure management.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# 普遍近似理論に関する一考察

A Survey on Universal Approximation Theorems ( http://arxiv.org/abs/2407.12895v1 )

ライセンス: Link先を確認
Midhun T Augustine, (参考訳) 本稿では,ニューラルネットワーク(NN)の近似能力に関する様々な定理について論じる。 この論文は、テイラーの定理、フーリエの定理、ワイエルシュトラスの近似定理、コルモゴロフ-アーノルドの表現定理など、関数近似の予備結果から始まるUATの体系的な概要を述べる。 UATの理論的および数値的な側面は、任意の幅と深さの両方からカバーされている。

This paper discusses various theorems on the approximation capabilities of neural networks (NNs), which are known as universal approximation theorems (UATs). The paper gives a systematic overview of UATs starting from the preliminary results on function approximation, such as Taylor's theorem, Fourier's theorem, Weierstrass approximation theorem, Kolmogorov - Arnold representation theorem, etc. Theoretical and numerical aspects of UATs are covered from both arbitrary width and depth.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# 12カ国における詐欺被曝, 被害者, タイプ, ベクトル, 報告の実態調査

A Survey of Scam Exposure, Victimization, Types, Vectors, and Reporting in 12 Countries ( http://arxiv.org/abs/2407.12896v1 )

ライセンス: Link先を確認
Mo Houtti, Abhishek Roy, Venkata Narsi Reddy Gangula, Ashley Marie Walker, (参考訳) 詐欺は被害者と加害者の両方にとって深刻な結果をもたらす広範な問題であるが、既存のデータ収集は断片化されており、グローバルおよび比較ローカルな理解を先取りしている。 本研究は, ベルギー, エジプト, フランス, ハンガリー, インドネシア, メキシコ, ルーマニア, スロバキア, 南アフリカ, スウェーデン, イギリス12か国で, 詐欺, 被害者, タイプ, ベクター, 報告に関する全国代表調査(n = 8,369)を通じて, このギャップを解決した。 我々は6つの調査質問を分析し、各国の詐欺現場の詳細な定量的画像を作成し、各国で比較してグローバルなパターンを特定した。 まず、裕福でない国の住民が詐欺で財政的に損失を受けやすいことがわかりました。 第二に、インターネットは世界中の詐欺において重要な役割を担い、一人当たりのGNIは特定の詐欺タイプや接触ベクトルと強く結びついている。 第三に、低所得国の住民は詐欺の報告方法を知らない傾向にある。 オンライン詐欺・詐欺防止の分野では,研究者,実践家,政策立案者に貴重な知見が得られている。

Scams are a widespread issue with severe consequences for both victims and perpetrators, but existing data collection is fragmented, precluding global and comparative local understanding. The present study addresses this gap through a nationally representative survey (n = 8,369) on scam exposure, victimization, types, vectors, and reporting in 12 countries: Belgium, Egypt, France, Hungary, Indonesia, Mexico, Romania, Slovakia, South Africa, South Korea, Sweden, and the United Kingdom. We analyze 6 survey questions to build a detailed quantitative picture of the scams landscape in each country, and compare across countries to identify global patterns. We find, first, that residents of less affluent countries suffer financial loss from scams more often. Second, we find that the internet plays a key role in scams across the globe, and that GNI per-capita is strongly associated with specific scam types and contact vectors. Third, we find widespread under-reporting, with residents of less affluent countries being less likely to know how to report a scam. Our findings contribute valuable insights for researchers, practitioners, and policymakers in the online fraud and scam prevention space.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# 神経合成:MRIによる神経解剖学的生成モデルと18,000サンプルの関連データセット

NeuroSynth: MRI-Derived Neuroanatomical Generative Models and Associated Dataset of 18,000 Samples ( http://arxiv.org/abs/2407.12897v1 )

ライセンス: Link先を確認
Sai Spandana Chintapalli, Rongguang Wang, Zhijian Yang, Vasiliki Tassopoulou, Fanyang Yu, Vishnu Bashyam, Guray Erus, Pratik Chaudhari, Haochang Shou, Christos Davatzikos, (参考訳) 大規模で多様な医療データセットの可用性は、プライバシとデータ共有の制限によってしばしば問題になる。 機械学習技術の病気診断、予後診断、精密医療への応用を成功させるためには、モデルの構築と最適化に大量のデータが必要である。 脳MRIの文脈におけるそのような制限を克服するために、我々はNeuroSynthを、構造的脳画像から派生した規範的局所容積特徴の生成モデルとして提示する。 NeuroSynthモデルは、iSTAGINGコンソーシアムからの実際の脳画像領域の体積測定に基づいて訓練されている。 NeuroSynthを活用することで、モデルが無制限のデータを生成する能力とともに、成体寿命(22~90歳)にまたがる18,000の合成サンプルを作成および提供します。 実験の結果,NeuroSynthから生成されたサンプルは実データから得られた分布と一致していることがわかった。 最も重要なことは、生成された規範データにより、疾患分類などのタスクにおける下流機械学習モデルの精度が大幅に向上することである。 データとモデルについては、https://huggingface.co/spaces/rongguangw/neuro-synth.comで公開されている。

Availability of large and diverse medical datasets is often challenged by privacy and data sharing restrictions. For successful application of machine learning techniques for disease diagnosis, prognosis, and precision medicine, large amounts of data are necessary for model building and optimization. To help overcome such limitations in the context of brain MRI, we present NeuroSynth: a collection of generative models of normative regional volumetric features derived from structural brain imaging. NeuroSynth models are trained on real brain imaging regional volumetric measures from the iSTAGING consortium, which encompasses over 40,000 MRI scans across 13 studies, incorporating covariates such as age, sex, and race. Leveraging NeuroSynth, we produce and offer 18,000 synthetic samples spanning the adult lifespan (ages 22-90 years), alongside the model's capability to generate unlimited data. Experimental results indicate that samples generated from NeuroSynth agree with the distributions obtained from real data. Most importantly, the generated normative data significantly enhance the accuracy of downstream machine learning models on tasks such as disease classification. Data and models are available at: https://huggingface.co/spaces/rongguangw/neuro-synth.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# DreamStory: LLM-Guided Multi-Subject Consistent Diffusionによるオープンドメインストーリーの可視化

DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion ( http://arxiv.org/abs/2407.12899v1 )

ライセンス: Link先を確認
Huiguo He, Huan Yang, Zixi Tuo, Yuan Zhou, Qiuyue Wang, Yuhang Zhang, Zeyu Liu, Wenhao Huang, Hongyang Chao, Jian Yin, (参考訳) ストーリービジュアライゼーションは、テキストの物語に対応する視覚的に魅力的な画像やビデオを作成することを目的としている。 近年の拡散モデルの発展は有望な結果をもたらすが、既存の手法は物語のみに基づく主観一貫性のあるフレームのコヒーレントなシーケンスを作るのに苦慮している。 この目的のために,LLMと新しい多目的一貫した拡散モデルを活用することで,自動オープンドメインストーリー可視化フレームワークDreamStoryを提案する。 DreamStory は(1) ストーリーディレクターとして機能する LLM と (2) 画像間で一貫したマルチオブジェクトを生成するための革新的なマルチオブジェクト一貫した拡散モデル (MSD) から構成される。 まず、DreamStory は LLM を用いて、ストーリーに沿った主題やシーンの描写的なプロンプトを生成し、各シーンの主題を次の主題一貫性世代に注釈付けする。 第二に、DreamStoryは、これらの詳細な主題の記述を利用して、被験者の肖像画を作成し、これらの肖像画とその対応するテキスト情報がマルチモーダルアンカー(ガイダンス)として機能する。 最後に、MSDはこれらのマルチモーダルアンカーを使用して、一貫したマルチオブジェクトでストーリーシーンを生成する。 特に、MSDには、Masked Mutual Self-Attention (MMSA)とMasked Mutual Cross-Attention (MMCA)モジュールが含まれる。 MMSAモジュールとMMCAモジュールは、それぞれ参照画像とテキストとの外観と意味の整合性を保証する。 どちらのモジュールも被写体ブレンディングを防ぐためにマスキング機構を採用している。 提案手法を検証し,ストーリービジュアライゼーションの進展を促進するために,ストーリービジュアライゼーションフレームワークの全体的な性能,主観的識別精度,生成モデルの整合性を評価するベンチマークDS-500を構築した。 広範囲な実験により、主観的評価と客観的評価の両方においてDreamStoryの有効性が検証された。 プロジェクトのホームページはhttps://dream-xyz.github.io/dreamstory.comにある。

Story visualization aims to create visually compelling images or videos corresponding to textual narratives. Despite recent advances in diffusion models yielding promising results, existing methods still struggle to create a coherent sequence of subject-consistent frames based solely on a story. To this end, we propose DreamStory, an automatic open-domain story visualization framework by leveraging the LLMs and a novel multi-subject consistent diffusion model. DreamStory consists of (1) an LLM acting as a story director and (2) an innovative Multi-Subject consistent Diffusion model (MSD) for generating consistent multi-subject across the images. First, DreamStory employs the LLM to generate descriptive prompts for subjects and scenes aligned with the story, annotating each scene's subjects for subsequent subject-consistent generation. Second, DreamStory utilizes these detailed subject descriptions to create portraits of the subjects, with these portraits and their corresponding textual information serving as multimodal anchors (guidance). Finally, the MSD uses these multimodal anchors to generate story scenes with consistent multi-subject. Specifically, the MSD includes Masked Mutual Self-Attention (MMSA) and Masked Mutual Cross-Attention (MMCA) modules. MMSA and MMCA modules ensure appearance and semantic consistency with reference images and text, respectively. Both modules employ masking mechanisms to prevent subject blending. To validate our approach and promote progress in story visualization, we established a benchmark, DS-500, which can assess the overall performance of the story visualization framework, subject-identification accuracy, and the consistency of the generation model. Extensive experiments validate the effectiveness of DreamStory in both subjective and objective evaluations. Please visit our project homepage at https://dream-xyz.github.io/dreamstory.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# ウィグナー表現における強度相関

Intensity correlations in the Wigner representation ( http://arxiv.org/abs/2407.12901v1 )

ライセンス: Link先を確認
Mojdeh S. Najafabadi, Luis L. Sánchez-Soto, Kun. Huang, Julien. Laurat, Hanna. Le Jeannic, Gerd. Leuchs, (参考訳) 2階相関関数 $g^{(2)} (0)$ のコンパクトな表現をウィグナー函数の項で導き、その結果、位相空間における$g^{(2)} (0)$ と状態の形状との直接的なリンクを確立する。 直接光計測により$g^{(2)} (0)$を同時に測定し、ホモダインのトモグラフィーによりウィグナー関数を再構成する実験を行う。 結果は我々の理論的予測を裏付ける。

We derive a compact expression for the second-order correlation function $g^{(2)} (0)$ of a quantum state in terms of its Wigner function, thereby establishing a direct link between $g^{(2)} (0)$ and the state's shape in phase space. We conduct an experiment that simultaneously measures $g^{(2)} (0)$ through direct photocounting and reconstructs the Wigner function via homodyne tomography. The results confirm our theoretical predictions.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# トポロジカルオイラー不変量を持つ射影絡み合った対基底状態

Exact projected entangled pair ground states with topological Euler invariant ( http://arxiv.org/abs/2407.12902v1 )

ライセンス: Link先を確認
Thorsten B. Wahl, Wojciech J. Jankowski, Adrien Bouhon, Gaurav Chaudhary, Robert-Jan Slager, (参考訳) 我々は近年のバンド幾何学の進歩に動機づけられた非自明なオイラートポロジを持つギャップ付き凸凸対状態(PEPS)のクラスについて報告する。 非相互作用極限において、これらの系は量子幾何学的境界の飽和に関する最適条件を持ち、最小のバンドが完全に平坦で、PEPSをユニークな基底状態として持つ親ハミルトニアンを許す。 結晶対称性によって保護されたこれらの状態は、ギャップ付きPEPSで10方向の位相的特徴を捕捉する制限を回避する。 これらのPEPSは、一次元の北エフ連鎖と同様、非相互作用的、ギャップ付き2次元トポロジー位相を表す最初のテンソルネットワークを形成する。 ユニタリ回路を用いて、これらのPEPSと対応するギャップを持つ親ハミルトニアンの相互作用変異を定式化する。 我々は自由フェルミオンとオイラー位相と相互作用する状態の間に共有される特徴的絡み合いの特徴を明らかにする。 その結果,PEPSモデルが有限な位相不変性を持ち,新しいスピン液体,量子ホール物理,量子情報探索のためのプラットフォームを提供することができた。

We report on a class of gapped projected entangled pair states (PEPS) with non-trivial Euler topology motivated by recent progress in band geometry. In the non-interacting limit, these systems have optimal conditions relating to saturation of quantum geometrical bounds, allowing for parent Hamiltonians whose lowest bands are completely flat and which have the PEPS as unique ground states. Protected by crystalline symmetries, these states evade restrictions on capturing tenfold-way topological features with gapped PEPS. These PEPS thus form the first tensor network representative of a non-interacting, gapped two-dimensional topological phase, similar to the Kitaev chain in one dimension. Using unitary circuits, we then formulate interacting variants of these PEPS and corresponding gapped parent Hamiltonians. We reveal characteristic entanglement features shared between the free-fermionc and interacting states with Euler topology. Our results hence provide a rich platform of PEPS models that have, unexpectedly, a finite topological invariant, providing a platform for new spin liquids, quantum Hall physics, and quantum information pursuits.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# 運動的制約のあるモデルにおける状態依存型モビリティエッジ

State-dependent mobility edge in kinetically constrained models ( http://arxiv.org/abs/2407.12909v1 )

ライセンス: Link先を確認
Manthan Badbaria, Nicola Pancotti, Rajeev Singh, Jamir Marino, Riccardo J. Valencia-Tortora, (参考訳) 本研究は, 運動論的に制約された量子東モデルにおいて, スペクトルの非従来型モビリティエッジを特徴とする量子スカーレッドと多体局在系の間に存在することを示す。 このシナリオを $\textit{state-dependent}$ Mobility edge と呼ぶ: この系は熱的および非熱的固有状態間のエネルギーの急激な分離を示さないが、非熱的固有状態の豊富さは、積状態のような初期状態に対して、有限エネルギー密度以下でゆっくり絡み合う成長をもたらす。 システムサイズを正確に対角化することでアクセス可能なものよりもはるかに多く、テンソルネットワークを用いて力学を古典的にシミュレートすることで、状態依存のモビリティエッジを特徴づける。 初期積状態に着目して、エネルギー密度の関数として必要とされる結合次元の力学における定性的変化を観察する。 具体的には、結合次元は通常$\textit{polynomially}$を一定のエネルギー密度まで成長させる。 このエネルギー密度を超えると、結合次元は典型的には$\textit{exponentially}$となり、相互作用理論で一般的に予想されるように、シミュレーションは短い時間を超えて事実上不可能になる。 結合次元の多項式成長は、そのエネルギー密度の周りの多くの非熱的固有状態の存在と相関する。

In this work, we show that the kinetically constrained quantum East model lies between a quantum scarred and a many-body localized system featuring an unconventional type of mobility edge in the spectrum. We name this scenario $\textit{state-dependent}$ mobility edge: while the system does not exhibit a sharp separation in energy between thermal and non-thermal eigenstates, the abundance of non-thermal eigenstates results in slow entanglement growth for $\textit{many}$ initial states, such as product states, below a finite energy density. We characterize the state-dependent mobility edge by looking at the complexity of classically simulating dynamics using tensor network for system sizes well beyond those accessible via exact diagonalization. Focusing on initial product states, we observe a qualitative change in the dynamics of the bond dimension needed as a function of their energy density. Specifically, the bond dimension typically grows $\textit{polynomially}$ in time up to a certain energy density, where we locate the state-dependent mobility edge, enabling simulations for long times. Above this energy density, the bond dimension typically grows $\textit{exponentially}$ making the simulation practically unfeasible beyond short times, as generally expected in interacting theories. We correlate the polynomial growth of the bond dimension to the presence of many non-thermal eigenstates around that energy density, a subset of which we compute via tensor network.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# パラメタライズド量子状態のトモグラフィー

Tomography of parametrized quantum states ( http://arxiv.org/abs/2407.12916v1 )

ライセンス: Link先を確認
Franz J. Schreiber, Jens Eisert, Johannes Jakob Meyer, (参考訳) 量子システムを特徴づけることは、量子技術の発展を可能にする基本的なタスクである。 フルトモグラフィーから古典的な影の例まで、様々なアプローチが提案されている。 しかし、実際に準備されている量子状態は、しばしば量子状態の時間進化のような連続的なパラメータによって特徴づけられる量子状態の族を含む。 本研究では、量子状態トモグラフィの基礎をパラメトリズド量子状態に拡張する。 トモグラフィーの異なる概念を統一する枠組みを導入し、パラメタライズド量子状態のトモグラフィーに有益な自然像を定式化する。 これに基づいて,信号処理技術とトモグラフィー手法を組み合わせることで,明示的な保証を備えたパラメータ化量子状態への近似を復元する明示的アルゴリズムを提供する。 提案アルゴリズムは, 圧縮センシングによるパラメータ依存構造を利用した手法を用いて, 基礎となるトモグラフィースキームをブラックボックスとして, プラグ・アンド・プレイ・ナチュラルで動作させる。 類似した方法で、パラメタライズド量子チャネルに適用されるメリットの図形を導出する。 提案アルゴリズムでは,状態トモグラフィースキームをプロセストモグラフィーのスキームに置き換え,パラメタライズド量子チャネルのトモグラフィーのためのプロトコルを得る。 NMRハミルトニアンとフリーフェルミオンハミルトニアンの下で時間発展する状態の2つのシャドウトモグラフィーの例を示す。

Characterizing quantum systems is a fundamental task that enables the development of quantum technologies. Various approaches, ranging from full tomography to instances of classical shadows, have been proposed to this end. However, quantum states that are being prepared in practice often involve families of quantum states characterized by continuous parameters, such as the time evolution of a quantum state. In this work, we extend the foundations of quantum state tomography to parametrized quantum states. We introduce a framework that unifies different notions of tomography and use it to establish a natural figure of merit for tomography of parametrized quantum states. Building on this, we provide an explicit algorithm that combines signal processing techniques with a tomography scheme to recover an approximation to the parametrized quantum state equipped with explicit guarantees. Our algorithm uses techniques from compressed sensing to exploit structure in the parameter dependence and operates with a plug and play nature, using the underlying tomography scheme as a black box. In an analogous fashion, we derive a figure of merit that applies to parametrized quantum channels. Substituting the state tomography scheme with a scheme for process tomography in our algorithm, we then obtain a protocol for tomography of parametrized quantum channels. We showcase our algorithm with two examples of shadow tomography of states time-evolved under an NMR Hamiltonian and a free fermionic Hamiltonian.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# 量子真空誘起トポロジカルエッジ分極

Quantum-vacuum-induced topological edge polaritons ( http://arxiv.org/abs/2407.12925v1 )

ライセンス: Link先を確認
Raditya Weda Bomantara, (参考訳) 本稿では、量子真空の存在によって引き起こされる位相的エッジ偏光子の形成を明らかにする。 このような量子真空誘起エッジ分極は、単一のフォトニックモードとの適切な相互作用の下でスピンフルフェルミオン格子の系で達成できる。 光物質結合がない場合、システムはトポロジカルに自明であることが示され、したがってエッジモードをサポートしない。 フロケ理論を用いることで、この系は古典的な光の極限において位相的に自明であること、すなわち非常に小さな光マター結合において非常に多くの光子を持つことが分かる。 一方、フェルミオンとフォトニックの両自由度を量子力学的に扱うことにより、この系はフル(フェルミオン+フォトニック)ヒルベルト空間において位相的に非自明となる。 最後に、このような量子真空誘起エッジ偏光子による空間障害と反回転結合効果に対するロバスト性を示す。

This paper uncovers the formation of topological edge polaritons that are induced by the presence of quantum vacuum. Such quantum-vacuum-induced edge polaritons could be achieved in a system of spinful fermionic lattice under appropriate interaction with a single photonic mode. In the absence of the light-matter coupling, the system is shown to be topologically trivial, which consequently does not support edge modes. By employing Floquet theory, the system is also found to be topologically trivial in the classical light limit, i.e., at very small light-matter coupling but very large number of photons. On the other hand, by treating both the fermionic and photonic degrees of freedom quantum mechanically, the system becomes topologically nontrivial in the full (fermionic+photonic) Hilbert space, which manifests itself as a pair of topological (almost) zero energy eigenstates localized near each lattice's edge and with very small mean photon number. Finally, the robustness of such quantum-vacuum-induced edge polaritons against spatial disorder and counterrotating coupling effect is explicitly demonstrated.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# 野生における複合マルチモーダル感情認識のためのテキストモデルと特徴モデル

Text- and Feature-based Models for Compound Multimodal Emotion Recognition in the Wild ( http://arxiv.org/abs/2407.12927v1 )

ライセンス: Link先を確認
Nicolas Richet, Soufiane Belharbi, Haseeb Aslam, Meike Emilie Schadt, Manuela González-González, Gustave Cortal, Alessandro Lameiras Koerich, Marco Pedersoli, Alain Finkel, Simon Bacon, Eric Granger, (参考訳) マルチモーダル感情認識(ER)システムは、一般的に7つの基本的な感情を予測するために異なるモーダル(例えば、視覚、音声、テキスト)から抽出された特徴に依存している。 しかし、複合感情は現実世界のシナリオでしばしば発生し、予測することがより困難である。 複合マルチモーダルERは、様々なモダリティの不確かさが加わったため、ビデオではより困難になる。 さらに、標準的な特徴に基づくモデルは、複雑な感情を理解するのに必要な複雑で微妙な手がかりを完全には捉えないかもしれない。 %%)をテキスト形式で抽出できるため,大規模言語モデル(LLM)の能力を活用するために,視覚や音声などのすべてのモダリティのテキスト化を提唱する。 これらのモデルは、モダリティと複雑な感情の微妙さの間の複雑な相互作用を理解することができる。 LLMのトレーニングには大規模なデータセットが必要だが、BERTやLLaMAなど、最近トレーニング済みのLLMの急増は、複合ERのような下流タスクに容易に微調整できる。 本稿では,ビデオにおける複合ERの2つのマルチモーダルモデリング手法について比較する。 複合ERのための挑戦的C-EXPR-DBデータセットの実験を行い、基礎ERのためのMELDデータセットと比較した。 私たちのコードは利用可能です

Systems for multimodal Emotion Recognition (ER) commonly rely on features extracted from different modalities (e.g., visual, audio, and textual) to predict the seven basic emotions. However, compound emotions often occur in real-world scenarios and are more difficult to predict. Compound multimodal ER becomes more challenging in videos due to the added uncertainty of diverse modalities. In addition, standard features-based models may not fully capture the complex and subtle cues needed to understand compound emotions. %%%% Since relevant cues can be extracted in the form of text, we advocate for textualizing all modalities, such as visual and audio, to harness the capacity of large language models (LLMs). These models may understand the complex interaction between modalities and the subtleties of complex emotions. Although training an LLM requires large-scale datasets, a recent surge of pre-trained LLMs, such as BERT and LLaMA, can be easily fine-tuned for downstream tasks like compound ER. This paper compares two multimodal modeling approaches for compound ER in videos -- standard feature-based vs. text-based. Experiments were conducted on the challenging C-EXPR-DB dataset for compound ER, and contrasted with results on the MELD dataset for basic ER. Our code is available
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# Foundation Model Transparency Index v1.1: May 2024

The Foundation Model Transparency Index v1.1: May 2024 ( http://arxiv.org/abs/2407.12929v1 )

ライセンス: Link先を確認
Rishi Bommasani, Kevin Klyman, Sayash Kapoor, Shayne Longpre, Betty Xiong, Nestor Maslej, Percy Liang, (参考訳) ファンデーションモデルは、徐々に連続しているが非常に不透明になっている。 現状を特徴付けるため、ファンデーションモデル透明性指数は2023年10月に開始され、主要なファンデーションモデル開発者の透明性を測った。 2023年10月(v1.0)は、10の主要な基盤モデル開発者(例えばOpenAI、Google)を100の透明性指標で評価した。 当時、開発者は非常に限られた情報を公開しており、平均スコアは100点中37点だった。 現状がどう変わったのかを理解するために、6ヶ月後にフォローアップ調査(v1.1)を実施します。 v1.0では、公開情報を探しましたが、v1.1では、開発者は、以前は公開されていなかった情報を含む、100の透明性指標に関するレポートを提出しました。 開発者は、平均して100点中58点を獲得し、v1.0よりも21点改善している。 この増加の多くは、v1.1プロセス中に情報を開示する開発者が引き起こしている: 平均して、開発者は以前は公開されていなかった16.6指標に関する情報を公開した。 我々は、持続的な(v1.0とv1.1)領域と、著作権状態、データアクセス、データ労働力、下流への影響など、システム的(ほとんどの開発者またはすべての開発者)不透明さを観察する。 私たちは、情報開示を統合する開発者毎の透明性レポートを公開しています。 この発見は、この初期段階のエコシステムにおいて透明性が向上できることを示し、ファンデーションモデル透明性指数がこれらの改善に寄与する可能性を示し、政策立案者は透明性が改善されていない領域における介入を検討するべきである。

Foundation models are increasingly consequential yet extremely opaque. To characterize the status quo, the Foundation Model Transparency Index was launched in October 2023 to measure the transparency of leading foundation model developers. The October 2023 Index (v1.0) assessed 10 major foundation model developers (e.g. OpenAI, Google) on 100 transparency indicators (e.g. does the developer disclose the wages it pays for data labor?). At the time, developers publicly disclosed very limited information with the average score being 37 out of 100. To understand how the status quo has changed, we conduct a follow-up study (v1.1) after 6 months: we score 14 developers against the same 100 indicators. While in v1.0 we searched for publicly available information, in v1.1 developers submit reports on the 100 transparency indicators, potentially including information that was not previously public. We find that developers now score 58 out of 100 on average, a 21 point improvement over v1.0. Much of this increase is driven by developers disclosing information during the v1.1 process: on average, developers disclosed information related to 16.6 indicators that was not previously public. We observe regions of sustained (i.e. across v1.0 and v1.1) and systemic (i.e. across most or all developers) opacity such as on copyright status, data access, data labor, and downstream impact. We publish transparency reports for each developer that consolidate information disclosures: these reports are based on the information disclosed to us via developers. Our findings demonstrate that transparency can be improved in this nascent ecosystem, the Foundation Model Transparency Index likely contributes to these improvements, and policymakers should consider interventions in areas where transparency has not improved.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# 代理証人を用いた物理系における量子特性の検出

Detecting quantum properties in physical systems using proxy witnesses ( http://arxiv.org/abs/2407.12933v1 )

ライセンス: Link先を確認
Priya Ghosh, Ujjwal Sen, Siddhartha Das, (参考訳) 実際には、マクロシステムにおいて量子的性質、微視的特性を検出することは極めて困難である。 本研究では,量子系の存在を検出するために,量子特性の一般的なプロキシ証人を構築した。 特に、不拡張性、量子コヒーレンス、アクティベーション、ステアビリティ、絡み合いなどの量子特性のプロキシ証人について議論する。 これらの代理証人は、多体系(viz)、量子ハイゼンベルクモデル、量子J1-J2モデルなど、広く検討されているいくつかの例に適用する。

In practice, it is quite challenging to detect a quantum property, a microscopic property, in a macroscopic system. In our work, we construct general proxy witnesses of quantum properties to detect their presence in quantum systems and we do so for quantum systems which may possibly be large. In particular, we discuss proxy witnesses for quantum properties like unextendibility, quantum coherence, activation, steerability, and entanglement. We apply these proxy witnesses in some widely considered examples of many-body systems, viz., the quantum Heisenberg models, the quantum J1-J2 model.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# GenRC: スパースイメージコレクションから生成した3Dルームコンプリート

GenRC: Generative 3D Room Completion from Sparse Image Collections ( http://arxiv.org/abs/2407.12939v1 )

ライセンス: Link先を確認
Ming-Feng Li, Yueh-Feng Ku, Hong-Xuan Yen, Chi Liu, Yu-Lun Liu, Albert Y. C. Chen, Cheng-Hao Kuo, Min Sun, (参考訳) 特にシーン全体を通して一貫したテクスチャやジオメトリーを考える場合、スパースRGBDシーンの完成は難しい課題である。 人間の設計したテキストプロンプトやカメラトラジェクトリに依存する既存のソリューションとは違って,高忠実度テクスチャを備えた部屋規模の3Dメッシュを実現するための,自動トレーニングフリーパイプラインであるGenRCを提案する。 これを実現するために、まず、スパースRGBD画像を高度に不完全な3Dメッシュに投影する。 空白を埋めるために新しいビューを反復的に生成する代わりに,提案したE-Diffusionを用いて,大域的幾何学と外観整合性を保証するビュー一貫性パノラマRGBD画像を生成する。 さらに,人間設計のテキストプロンプトを置き換えるために,テキスト変換による入力出力シーンのスタイリスティックな整合性を維持する。 データセット間のドメインギャップを埋めるために、E-Diffusionは大規模なデータセットでトレーニングされたモデルを活用して、さまざまな外観を生成する。 GenRCは、ScanNetとARKitScenesデータセットにおいて、これらのデータセットや事前に定義されたカメラトラジェクトリを使用してトレーニングされていないにもかかわらず、ほとんどの外観と幾何学的メトリクスの下で最先端の手法よりも優れています。 プロジェクトページ: \href{https://minfenli.github.io/GenRC}{this https URL}

Sparse RGBD scene completion is a challenging task especially when considering consistent textures and geometries throughout the entire scene. Different from existing solutions that rely on human-designed text prompts or predefined camera trajectories, we propose GenRC, an automated training-free pipeline to complete a room-scale 3D mesh with high-fidelity textures. To achieve this, we first project the sparse RGBD images to a highly incomplete 3D mesh. Instead of iteratively generating novel views to fill in the void, we utilized our proposed E-Diffusion to generate a view-consistent panoramic RGBD image which ensures global geometry and appearance consistency. Furthermore, we maintain the input-output scene stylistic consistency through textual inversion to replace human-designed text prompts. To bridge the domain gap among datasets, E-Diffusion leverages models trained on large-scale datasets to generate diverse appearances. GenRC outperforms state-of-the-art methods under most appearance and geometric metrics on ScanNet and ARKitScenes datasets, even though GenRC is not trained on these datasets nor using predefined camera trajectories. Project page: \href{https://minfenli.github.io/GenRC}{this https URL}
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# KiGRAS: 現実的エージェントシミュレーションのための運動駆動生成モデル

KiGRAS: Kinematic-Driven Generative Model for Realistic Agent Simulation ( http://arxiv.org/abs/2407.12940v1 )

ライセンス: Link先を確認
Jianbo Zhao, Jiaheng Zhuang, Qibin Zhou, Taiyu Ban, Ziyao Xu, Hangning Zhou, Junhe Wang, Guoan Wang, Zhiheng Li, Bin Li, (参考訳) 軌道生成は自動運転における重要な課題である。 最近の研究は、状態遷移モデルを利用して将来の軌道分布を近似する自己回帰パラダイムを導入している。 このパラダイムは現実世界の軌道生成過程を忠実に反映し、顕著な成功を収めた。 しかし、そのポテンシャルは、冗長な状態空間内の現実的な軌道の非効率な表現によって制限される。 この制限に対処するため,実エージェントシミュレーションのためのキネマティック駆動生成モデル(KiGRAS)を提案する。 状態空間をモデル化する代わりに、KiGRASは駆動シーンを各タイミングで動作確率分布に分解し、現実的な駆動パターンを表現するためのコンパクトな空間を提供する。 運動モデルによる行動(原因)から軌道(効果)への物理的因果性を確立することで、KiGRASは巨大な冗長な軌道を除去する。 因数空間における作用に由来する全ての状態は、物理的に実現可能であるように制約される。 さらに、同一のアクションシーケンスを表す冗長なトラジェクトリは、その基盤となるアクションを反映して、同じ表現にマッピングされる。 このアプローチはタスクの複雑さを大幅に減らし、物理的な実現性を保証する。 KiGRASはWaymoのSimAgents Challengeで最先端のパフォーマンスを達成した。 ビデオ資料は \url{https://kigras-mach.github.io/KiGRAS/} で公開されている。

Trajectory generation is a pivotal task in autonomous driving. Recent studies have introduced the autoregressive paradigm, leveraging the state transition model to approximate future trajectory distributions. This paradigm closely mirrors the real-world trajectory generation process and has achieved notable success. However, its potential is limited by the ineffective representation of realistic trajectories within the redundant state space. To address this limitation, we propose the Kinematic-Driven Generative Model for Realistic Agent Simulation (KiGRAS). Instead of modeling in the state space, KiGRAS factorizes the driving scene into action probability distributions at each time step, providing a compact space to represent realistic driving patterns. By establishing physical causality from actions (cause) to trajectories (effect) through the kinematic model, KiGRAS eliminates massive redundant trajectories. All states derived from actions in the cause space are constrained to be physically feasible. Furthermore, redundant trajectories representing identical action sequences are mapped to the same representation, reflecting their underlying actions. This approach significantly reduces task complexity and ensures physical feasibility. KiGRAS achieves state-of-the-art performance in Waymo's SimAgents Challenge, ranking first on the WOMD leaderboard with significantly fewer parameters than other models. The video documentation is available at \url{https://kigras-mach.github.io/KiGRAS/}.
翻訳日:2024-07-19 19:43:08 公開日:2024-07-17
# Halu-J:批判に基づく幻覚の裁判官

Halu-J: Critique-Based Hallucination Judge ( http://arxiv.org/abs/2407.12943v1 )

ライセンス: Link先を確認
Binjie Wang, Steffi Chern, Ethan Chern, Pengfei Liu, (参考訳) 大型言語モデル (LLM) は幻覚として知られる非現実的なコンテンツを頻繁に生成する。 既存の検索強化型幻覚検出手法は、典型的には、それを分類タスクとしてフレーミングすることでこの問題に対処し、検索された証拠との整合性に基づいて幻覚を評価する。 しかし、このアプローチにはこれらの評価に関する詳細な説明が欠如しており、これらの説明の信頼性は評価されていない。 さらに、検索システムの欠陥は、検出過程を損なうことなく、無関係または部分的に関係のある証拠の検索につながる可能性がある。 さらに、実世界の幻覚検出には複数の証拠を解析する必要があるが、現在のシステムは通常、その内容との関連性を考慮せずに全ての証拠を均一に扱う。 これらの課題に対処するために、70億のパラメータを持つ批判に基づく幻覚判断器であるHalu-Jを紹介する。 Halu-Jは、関連する証拠を選択し、詳細な批評を提供することで幻覚の検出を強化する。 実験の結果,Hlu-JはGPT-4oよりも多値幻覚検出に優れており,批判生成やエビデンス選択の能力と一致していることがわかった。 また,マルチエビデンス幻覚検出のための新しいデータセットであるME-FEVERを紹介する。 私たちのコードとデータセットはhttps://github.com/GAIR-NLP/factool.orgで確認できます。

Large language models (LLMs) frequently generate non-factual content, known as hallucinations. Existing retrieval-augmented-based hallucination detection approaches typically address this by framing it as a classification task, evaluating hallucinations based on their consistency with retrieved evidence. However, this approach usually lacks detailed explanations for these evaluations and does not assess the reliability of these explanations. Furthermore, deficiencies in retrieval systems can lead to irrelevant or partially relevant evidence retrieval, impairing the detection process. Moreover, while real-world hallucination detection requires analyzing multiple pieces of evidence, current systems usually treat all evidence uniformly without considering its relevance to the content. To address these challenges, we introduce Halu-J, a critique-based hallucination judge with 7 billion parameters. Halu-J enhances hallucination detection by selecting pertinent evidence and providing detailed critiques. Our experiments indicate that Halu-J outperforms GPT-4o in multiple-evidence hallucination detection and matches its capability in critique generation and evidence selection. We also introduce ME-FEVER, a new dataset designed for multiple-evidence hallucination detection. Our code and dataset can be found in https://github.com/GAIR-NLP/factool .
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# 類似性のベールを越えて - 説明可能なAIにおけるセマンティック連続性の定量化

Beyond the Veil of Similarity: Quantifying Semantic Continuity in Explainable AI ( http://arxiv.org/abs/2407.12950v1 )

ライセンス: Link先を確認
Qi Huang, Emanuele Mezzi, Osman Mutlu, Miltiadis Kofinas, Vidya Prasad, Shadnan Azwad Khan, Elena Ranguelova, Niki van Stein, (参考訳) 本稿では,説明可能なAI手法と機械学習モデルにおける意味連続性を測定するための新しい指標を提案する。 モデルが真に解釈可能で信頼性の高いものであるためには、同様の入力が、一貫性のあるセマンティックな理解を反映して、同様の説明をもたらすべきであると仮定する。 XAI技術を活用することで,画像認識のタスクにおける意味的連続性を評価する。 我々は、入力の漸進的な変化が、異なるXAI手法によって提供される説明にどのように影響するかを観察する実験を行う。 本研究の目的は,モデルのセマンティックな概念を正確に一般化・抽象化する能力の評価と,モデルの振る舞いを正確に捉えるための異なるXAI手法の評価である。 本稿では、XAI手法のセマンティック・コンティニュティの定量的尺度を提案し、モデルと説明者の内部推論プロセスに関する洞察を提供し、より信頼性が高く透明なAIシステムを促進することで、AIの解釈可能性に関する幅広い議論に貢献する。

We introduce a novel metric for measuring semantic continuity in Explainable AI methods and machine learning models. We posit that for models to be truly interpretable and trustworthy, similar inputs should yield similar explanations, reflecting a consistent semantic understanding. By leveraging XAI techniques, we assess semantic continuity in the task of image recognition. We conduct experiments to observe how incremental changes in input affect the explanations provided by different XAI methods. Through this approach, we aim to evaluate the models' capability to generalize and abstract semantic concepts accurately and to evaluate different XAI methods in correctly capturing the model behaviour. This paper contributes to the broader discourse on AI interpretability by proposing a quantitative measure for semantic continuity for XAI methods, offering insights into the models' and explainers' internal reasoning processes, and promoting more reliable and transparent AI systems.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# AdaLog: 適応対数量子化器を用いた視覚変換器のポストトレーニング量子化

AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer ( http://arxiv.org/abs/2407.12951v1 )

ライセンス: Link先を確認
Zhuguanyu Wu, Jiaxin Chen, Hanwen Zhong, Di Huang, Yunhong Wang, (参考訳) Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。 精度が高いにもかかわらず、実際のアプリケーションにデプロイすると、高い計算コストや推論遅延などの重要な問題が発生する。 近年,ポストトレーニング量子化 (PTQ) 技術が ViT の効率を高めるための有望な方法として出現している。 それでも、ViT の既存の PTQ アプローチは、Softmax 以降の非フレキシブルな量子化と、Power-law-like 分布に従うポストGELU 活性化に悩まされている。 これらの問題に対処するために,Adaptive Logarithm AdaLog (AdaLog) Quantizer と呼ばれる新しい非一様量子化器を提案する。 対数基底を最適化して、ハードウェアフレンドリーな量子化と非量子化を実現しつつ、アクティベーションのパワーローのような分布を許容する。 バイアス再パラメータ化を用いることで、AdaLog量子化器は、Softmax以降とGELU後のアクティベーションの両方に適用できる。 さらに,AdaLog の最適対数ベースを決定するための高速プログレッシブ・コンバインド・サーチ (FPCS) 戦略と,一様量子化器のスケーリング係数とゼロ点を提案する。 公開ベンチマークによる大規模な実験結果から,分類やオブジェクト検出,インスタンスセグメンテーションなど,様々なViTアーキテクチャやビジョンタスクに対するアプローチの有効性が示された。 コードはhttps://github.com/GoatWu/AdaLogで入手できる。

Vision Transformer (ViT) has become one of the most prevailing fundamental backbone networks in the computer vision community. Despite the high accuracy, deploying it in real applications raises critical challenges including the high computational cost and inference latency. Recently, the post-training quantization (PTQ) technique has emerged as a promising way to enhance ViT's efficiency. Nevertheless, existing PTQ approaches for ViT suffer from the inflexible quantization on the post-Softmax and post-GELU activations that obey the power-law-like distributions. To address these issues, we propose a novel non-uniform quantizer, dubbed the Adaptive Logarithm AdaLog (AdaLog) quantizer. It optimizes the logarithmic base to accommodate the power-law-like distribution of activations, while simultaneously allowing for hardware-friendly quantization and de-quantization. By employing the bias reparameterization, the AdaLog quantizer is applicable to both the post-Softmax and post-GELU activations. Moreover, we develop an efficient Fast Progressive Combining Search (FPCS) strategy to determine the optimal logarithm base for AdaLog, as well as the scaling factors and zero points for the uniform quantizers. Extensive experimental results on public benchmarks demonstrate the effectiveness of our approach for various ViT-based architectures and vision tasks including classification, object detection, and instance segmentation. Code is available at https://github.com/GoatWu/AdaLog.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# 医用画像分割のための遅延空間における拡散

Denoising Diffusions in Latent Space for Medical Image Segmentation ( http://arxiv.org/abs/2407.12952v1 )

ライセンス: Link先を確認
Fahim Ahmed Zaman, Mathews Jacob, Amanda Chang, Kan Liu, Milan Sonka, Xiaodong Wu, (参考訳) 拡散モデル(DPM)は画像生成において顕著な性能を示しており、しばしば他の生成モデルよりも優れている。 導入以来、強力なノイズ・ツー・イメージ・デノゲーションパイプラインは、画像セグメンテーションを含む様々な識別タスクに拡張されてきた。 医療画像の場合、しばしば画像は大きな3Dスキャンであり、DPMを用いて1つの画像を分割することは、大きなメモリ消費と反復的なサンプリングプロセスのために非常に非効率になる。 本研究では,医療画像セグメンテーションのための潜在空間に拡散する条件付き生成モデリングフレームワーク(LDSeg)を提案する。 提案手法は,対象物体形状の学習固有の低次元潜時分布と画像埋め込みを利用する。 遅延空間における条件拡散は、マルチラベルオブジェクトに対する正確なn-D画像のセグメンテーションを保証するだけでなく、(1)大きなメモリ消費、(2)サンプリングプロセスの時間消費、(3)フォワード/リバースプロセスにおける不自然なノイズ注入といった従来のDPMベースのセグメンテーションの根本的な問題を緩和する。 LDSegは、異なる画像モダリティを持つ3つの医療画像データセットに対して、最先端のセグメンテーション精度を達成した。 さらに,提案手法は,医用画像領域における領域シフト問題を解く可能性がありうる従来の決定論的セグメンテーションモデルと比較して,ノイズに対してかなり頑健であることを示す。 コードは、https://github.com/LDSeg/LDSeg.comで入手できる。

Diffusion models (DPMs) have demonstrated remarkable performance in image generation, often times outperforming other generative models. Since their introduction, the powerful noise-to-image denoising pipeline has been extended to various discriminative tasks, including image segmentation. In case of medical imaging, often times the images are large 3D scans, where segmenting one image using DPMs become extremely inefficient due to large memory consumption and time consuming iterative sampling process. In this work, we propose a novel conditional generative modeling framework (LDSeg) that performs diffusion in latent space for medical image segmentation. Our proposed framework leverages the learned inherent low-dimensional latent distribution of the target object shapes and source image embeddings. The conditional diffusion in latent space not only ensures accurate n-D image segmentation for multi-label objects, but also mitigates the major underlying problems of the traditional DPM based segmentation: (1) large memory consumption, (2) time consuming sampling process and (3) unnatural noise injection in forward/reverse process. LDSeg achieved state-of-the-art segmentation accuracy on three medical image datasets with different imaging modalities. Furthermore, we show that our proposed model is significantly more robust to noises, compared to the traditional deterministic segmentation models, which can be potential in solving the domain shift problems in the medical imaging domain. Codes are available at: https://github.com/LDSeg/LDSeg.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# R+X:毎日の人間ビデオの検索と実行

R+X: Retrieval and Execution from Everyday Human Videos ( http://arxiv.org/abs/2407.12957v1 )

ライセンス: Link先を確認
Georgios Papagiannis, Norman Di Palo, Pietro Vitiello, Edward Johns, (参考訳) R+Xはロボットが日々のタスクをこなす様子を、長く、ひそかに、一人称ビデオから学べるフレームワークである。 人間から言語コマンドが与えられた後、R+Xはまず、関連する振る舞いを含む短いビデオクリップを検索し、その振る舞いにコンテキスト内模倣学習法を条件付けてそのスキルを実行する。 検索に視覚言語モデル(VLM)を活用することにより、R+Xはビデオの手動アノテーションを一切必要とせず、実行にコンテキスト内学習を活用することにより、検索したビデオのトレーニング期間を必要とせずに、ロボットは即座に指揮スキルを実行することができる。 日常的な日常的なタスクを幅広く研究した結果、R+Xは人間の動画をロバストなロボットのスキルに翻訳することに成功し、R+Xはいくつかの方法に勝っていることが判明した。 ビデオはhttps://www.robot-learning.uk/r-plus-x.comで公開されている。

We present R+X, a framework which enables robots to learn skills from long, unlabelled, first-person videos of humans performing everyday tasks. Given a language command from a human, R+X first retrieves short video clips containing relevant behaviour, and then executes the skill by conditioning an in-context imitation learning method on this behaviour. By leveraging a Vision Language Model (VLM) for retrieval, R+X does not require any manual annotation of the videos, and by leveraging in-context learning for execution, robots can perform commanded skills immediately, without requiring a period of training on the retrieved videos. Experiments studying a range of everyday household tasks show that R+X succeeds at translating unlabelled human videos into robust robot skills, and that R+X outperforms several recent alternative methods. Videos are available at https://www.robot-learning.uk/r-plus-x.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# 四回転子ダイナミクスのための長軸予測の学習

Learning Long-Horizon Predictions for Quadrotor Dynamics ( http://arxiv.org/abs/2407.12964v1 )

ライセンス: Link先を確認
Pratyaksh Prabhav Rao, Alessandro Saviolo, Tommaso Castiglione Ferrari, Giuseppe Loianno, (参考訳) システムダイナミクスの正確なモデリングは、ロボットシステムの高性能な計画と制御を実現するために不可欠である。 既存のデータ駆動型アプローチは、力学をモデル化するための有望なアプローチであるが、その精度は、より長い予測地平線に対する複雑な予測エラーの影響を見越して、短い予測地平線に限られている。 これらの累積誤差を緩和する戦略はいまだ未解明のままである。 本稿では,このギャップを埋めるために,四辺形に対する長軸予測力学を効率的に学習するための重要な設計選択について検討する。 具体的には、複数のアーキテクチャ、履歴データ、多段階損失定式化の影響を分析する。 逐次モデリング手法は,他のタイプの手法と比較して,合成誤差を最小限に抑える上での優位性を示す。 さらに,モジュール性の向上を図りながら,学習プロセスをさらに単純化する,疎結合な動的学習手法を提案する。 実世界の四重項データに関する大規模な実験とアブレーション研究は、提案手法の汎用性と精度を実証している。 我々の成果は、計画と制御のための学習された四重項力学の長期予測精度を高めるための洞察と方法論を提供する。

Accurate modeling of system dynamics is crucial for achieving high-performance planning and control of robotic systems. Although existing data-driven approaches represent a promising approach for modeling dynamics, their accuracy is limited to a short prediction horizon, overlooking the impact of compounding prediction errors over longer prediction horizons. Strategies to mitigate these cumulative errors remain underexplored. To bridge this gap, in this paper, we study the key design choices for efficiently learning long-horizon prediction dynamics for quadrotors. Specifically, we analyze the impact of multiple architectures, historical data, and multi-step loss formulation. We show that sequential modeling techniques showcase their advantage in minimizing compounding errors compared to other types of solutions. Furthermore, we propose a novel decoupled dynamics learning approach, which further simplifies the learning process while also enhancing the approach modularity. Extensive experiments and ablation studies on real-world quadrotor data demonstrate the versatility and precision of the proposed approach. Our outcomes offer several insights and methodologies for enhancing long-term predictive accuracy of learned quadrotor dynamics for planning and control.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# $d^3$メンバシップクエリによるRényi-infinity制約サンプリング

Rényi-infinity constrained sampling with $d^3$ membership queries ( http://arxiv.org/abs/2407.12967v1 )

ライセンス: Link先を確認
Yunbum Kook, Matthew S. Zhang, (参考訳) 凸体上の一様サンプリングは基本的なアルゴリズム上の問題であるが、ほとんどのサンプリング器のKLあるいはR'enyi分散の収束はよく理解されていない。 本研究では,エレガントな収束保証を有する原理的かつ単純なアルゴリズムである制約付き近位サンプリング器を提案する。 このサンプルの均一なエルゴディディティを利用することで、暖かい開始から開始する際のクエリの複雑さのオーバーヘッドを伴わず、R\'enyi-infinity divergence(\mathcal R_\infty$)に収束することを示す。 これは一般に考慮されるパフォーマンス指標の中で最強であり、特別な場合として$\{\mathcal R_q, \mathsf{KL}\}$収束を意味する。 このサンプルをアニーリング方式で適用することにより、約$\varepsilon$-closeを$\mathcal R_\infty$-divergence with $\widetilde{\mathcal{O}}(d^3\, \text{polylog} \frac{1}{\varepsilon})の凸体上の均一分布に約$\varepsilon$-closeを適用できるアルゴリズムを提案する。 これは、アルゴリズムの変更やサンプルの後処理に頼ることなく、$\{\mathcal R_q, \mathsf{KL}\}$-divergences の全ての事前結果を改善する。 また、全変動距離において、最もよく知られた複雑さとも一致している。

Uniform sampling over a convex body is a fundamental algorithmic problem, yet the convergence in KL or R\'enyi divergence of most samplers remains poorly understood. In this work, we propose a constrained proximal sampler, a principled and simple algorithm that possesses elegant convergence guarantees. Leveraging the uniform ergodicity of this sampler, we show that it converges in the R\'enyi-infinity divergence ($\mathcal R_\infty$) with no query complexity overhead when starting from a warm start. This is the strongest of commonly considered performance metrics, implying rates in $\{\mathcal R_q, \mathsf{KL}\}$ convergence as special cases. By applying this sampler within an annealing scheme, we propose an algorithm which can approximately sample $\varepsilon$-close to the uniform distribution on convex bodies in $\mathcal R_\infty$-divergence with $\widetilde{\mathcal{O}}(d^3\, \text{polylog} \frac{1}{\varepsilon})$ query complexity. This improves on all prior results in $\{\mathcal R_q, \mathsf{KL}\}$-divergences, without resorting to any algorithmic modifications or post-processing of the sample. It also matches the prior best known complexity in total variation distance.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# 複合感情認識のための時間ラベル階層ネットワーク

Temporal Label Hierachical Network for Compound Emotion Recognition ( http://arxiv.org/abs/2407.12973v1 )

ライセンス: Link先を確認
Sunan Li, Hailun Lian, Cheng Lu, Yan Zhao, Tianhua Qi, Hao Yang, Yuan Zong, Wenming Zheng, (参考訳) 感情認識はここ数十年で注目されている。 7つの基本的な感情の認識技術では大きな進歩があったが、既存の手法では、一般的に応用されている複合的な感情認識に取り組むことは依然として困難である。 本稿では,第7回フィールド感情行動分析(ABAW)コンペの成果を紹介する。 コンペでは、ネットワークフレームワークとして広く検証されている事前訓練されたResNet18とTransformerを選択した。 時間経過に伴う感情の連続性を考慮して,フレームレベルの感情予測のための時間ピラミッド構造ネットワークを提案する。 さらに。 同時に、複合感情認識におけるデータの欠如に対処するため、DFEWデータベースからのきめ細かいラベルを用いて、コンペティションにおける感情カテゴリーのトレーニングデータを構築した。 様々な複雑な感情の原子価刺激の特性を考慮し,ラベル空間における粗さから細さへの分類の枠組みを構築した。

The emotion recognition has attracted more attention in recent decades. Although significant progress has been made in the recognition technology of the seven basic emotions, existing methods are still hard to tackle compound emotion recognition that occurred commonly in practical application. This article introduces our achievements in the 7th Field Emotion Behavior Analysis (ABAW) competition. In the competition, we selected pre trained ResNet18 and Transformer, which have been widely validated, as the basic network framework. Considering the continuity of emotions over time, we propose a time pyramid structure network for frame level emotion prediction. Furthermore. At the same time, in order to address the lack of data in composite emotion recognition, we utilized fine-grained labels from the DFEW database to construct training data for emotion categories in competitions. Taking into account the characteristics of valence arousal of various complex emotions, we constructed a classification framework from coarse to fine in the label space.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# 大規模言語モデルを用いたPDDL自動生成と計画のための環境相互作用の活用

Leveraging Environment Interaction for Automated PDDL Generation and Planning with Large Language Models ( http://arxiv.org/abs/2407.12979v1 )

ライセンス: Link先を確認
Sadegh Mahdavi, Raquel Aoki, Keyi Tang, Yanshuai Cao, (参考訳) 大規模言語モデル(LLM)は様々な自然言語処理において顕著な性能を示してきたが、構造的推論を必要とする計画上の問題に悩まされることが多い。 この制限に対処するため、計画領域定義言語(PDDL)への計画問題の変換が潜在的な解決策として提案され、自動プランナーの使用が可能である。 しかし、正確なPDDLファイルを生成するには、一般的に人間の入力や修正が必要である。 本稿では, LLMと環境フィードバックを利用してPDDLドメインと問題記述ファイルを自動生成する手法を提案する。 提案手法では,複数の問題PDDL候補を生成し,環境との相互作用から得られるフィードバックに基づいて,ドメインPDDLを段階的に洗練する反復的改善プロセスを提案する。 改良プロセスのガイドとして,LDMがPDDLファイルを更新するためのリッチなフィードバック信号を提供するExploration Walk(EW)メトリックを開発した。 我々はPDDL環境に対するアプローチを評価した。 GPT-4の本質的な計画とチェーン・オブ・ソート・プロンプトによる29%の問題解決率と比較して,タスク解決率の平均は66%に達した。 本研究は,LDMと環境フィードバックを用いた計画環境の自動モデリングを可能にし,PDDL生成プロセスにおける人的介入の必要性を排除し,より信頼性の高いLCMエージェントを課題に活用する。

Large Language Models (LLMs) have shown remarkable performance in various natural language tasks, but they often struggle with planning problems that require structured reasoning. To address this limitation, the conversion of planning problems into the Planning Domain Definition Language (PDDL) has been proposed as a potential solution, enabling the use of automated planners. However, generating accurate PDDL files typically demands human inputs or correction, which can be time-consuming and costly. In this paper, we propose a novel approach that leverages LLMs and environment feedback to automatically generate PDDL domain and problem description files without the need for human intervention. Our method introduces an iterative refinement process that generates multiple problem PDDL candidates and progressively refines the domain PDDL based on feedback obtained from interacting with the environment. To guide the refinement process, we develop an Exploration Walk (EW) metric, which provides rich feedback signals for LLMs to update the PDDL file. We evaluate our approach on PDDL environments. We achieve an average task solve rate of 66% compared to a 29% solve rate by GPT-4's intrinsic planning with chain-of-thought prompting. Our work enables the automated modeling of planning environments using LLMs and environment feedback, eliminating the need for human intervention in the PDDL generation process and paving the way for more reliable LLM agents in challenging problems.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# エッジライクな環境を用いたフェデレーション学習アルゴリズムのテストフレームワーク

A Framework for testing Federated Learning algorithms using an edge-like environment ( http://arxiv.org/abs/2407.12980v1 )

ライセンス: Link先を確認
Felipe Machado Schwanck, Marcos Tomazzoli Leipnitz, Joel Luís Carbonera, Juliano Araujo Wickboldt, (参考訳) フェデレーテッド・ラーニング(FL)は、多くのクライアントが、データをプライベートかつ分散化しながら、単一の集中型モデルを協調的にトレーニングする機械学習パラダイムである。 FLはエッジコンピューティングで一般的に使われており、コンピュータワークロード(ハードウェアとソフトウェアの両方)を可能な限りエッジに配置し、データが作成され、アクションが発生し、応答時間が短縮され、データプライバシが向上し、データ転送コストが削減される。 しかし、クライアントの不均一なデータ分散/コンテンツのため、グローバル集中型モデルアグリゲーションにおける局所モデルの貢献を正確に評価することは容易ではない。 これはFLにおける大きな挑戦の例であり、一般にデータ不均衡またはクラス不均衡として知られている。 一般に、FLアルゴリズムのテストと評価は、システムの分散特性のために非常に困難で複雑な作業である。 本研究では,FLアルゴリズムをより容易かつスケーラブルに評価するためのフレームワークを提案し,実装した。 このフレームワークは、コンテナオーケストレーションプラットフォーム(Kubernetesなど)によって管理される分散エッジのような環境上で評価される。

Federated Learning (FL) is a machine learning paradigm in which many clients cooperatively train a single centralized model while keeping their data private and decentralized. FL is commonly used in edge computing, which involves placing computer workloads (both hardware and software) as close as possible to the edge, where the data is being created and where actions are occurring, enabling faster response times, greater data privacy, and reduced data transfer costs. However, due to the heterogeneous data distributions/contents of clients, it is non-trivial to accurately evaluate the contributions of local models in global centralized model aggregation. This is an example of a major challenge in FL, commonly known as data imbalance or class imbalance. In general, testing and assessing FL algorithms can be a very difficult and complex task due to the distributed nature of the systems. In this work, a framework is proposed and implemented to assess FL algorithms in a more easy and scalable way. This framework is evaluated over a distributed edge-like environment managed by a container orchestration platform (i.e. Kubernetes).
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# 検索強化機械学習:合成と機会

Retrieval-Enhanced Machine Learning: Synthesis and Opportunities ( http://arxiv.org/abs/2407.12982v1 )

ライセンス: Link先を確認
To Eun Kim, Alireza Salemi, Andrew Drozdov, Fernando Diaz, Hamed Zamani, (参考訳) 言語モデリングの分野では、自然言語処理(NLP)分野で直面するいくつかの課題に対処するために、検索コンポーネントで拡張されたモデルが有望なソリューションとして登場した。 NLPに主眼を置いているにもかかわらず、検索・エンハンスメントのパラダイムはコンピュータビジョン、時系列予測、計算生物学など幅広い機械学習(ML)に拡張できると仮定する。 そこで本研究では,このパラダイムの形式的枠組みであるRetrieval-Enhanced Machine Learning (REML)を導入し,MLの各領域の文献を,現在の文献から欠落している一貫した表記で合成する。 また,多くの研究が検索コンポーネントを用いてモデルを強化する一方で,基礎的情報検索(IR)研究との連携が欠如していることが判明した。 我々は、REMLフレームワークを構成する各コンポーネントを調査することで、セミナルIR研究と現代のREML研究のギャップを埋める。 究極的には、この研究の目的は、様々な分野の研究者に、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。

In the field of language modeling, models augmented with retrieval components have emerged as a promising solution to address several challenges faced in the natural language processing (NLP) field, including knowledge grounding, interpretability, and scalability. Despite the primary focus on NLP, we posit that the paradigm of retrieval-enhancement can be extended to a broader spectrum of machine learning (ML) such as computer vision, time series prediction, and computational biology. Therefore, this work introduces a formal framework of this paradigm, Retrieval-Enhanced Machine Learning (REML), by synthesizing the literature in various domains in ML with consistent notations which is missing from the current literature. Also, we found that while a number of studies employ retrieval components to augment their models, there is a lack of integration with foundational Information Retrieval (IR) research. We bridge this gap between the seminal IR research and contemporary REML studies by investigating each component that comprises the REML framework. Ultimately, the goal of this work is to equip researchers across various disciplines with a comprehensive, formally structured framework of retrieval-enhanced models, thereby fostering interdisciplinary future research.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# ActionSwitch: ストリーミングビデオにおける同時アクションのクラス非依存検出

ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Streaming Videos ( http://arxiv.org/abs/2407.12987v1 )

ライセンス: Link先を確認
Hyolim Kang, Jeongseok Hyun, Joungbin An, Youngjae Yu, Seon Joo Kim, (参考訳) オンライン・テンポラル・アクション・ローカライゼーション(On-TAL)は、フレームベースのオンライン・アクション・インテクション(OAD)の大きな飛躍である、アクションが終了するとすぐに、アントリミングされたストリーミングビデオ内のアクション・インスタンスを即時に識別することを目的とした重要なタスクである。 しかし、重なり合うアクションを検出するという課題は、ストリーミングビデオではよくあるシナリオであるにもかかわらず、しばしば見過ごされる。 並列アクションに対処できる現在のメソッドは、クラス情報に大きく依存し、柔軟性を制限します。 本稿では、重なり合うアクションを検出することができる最初のクラスに依存しないOn-TALフレームワークであるActionSwitchを紹介する。 クラス情報への依存をなくすことで、ActionSwitchは、同じクラスのオーバーラップアクションや、クラス情報が利用できないシナリオなど、さまざまな状況に幅広い適用性を提供します。 このアプローチは、保守的な意思決定原則を直接オンメタルの損失関数に組み込む「保守性損失」によって補完される。 私たちのActionSwitchは、Epic-Kitchens 100を含む複雑なデータセットで最先端のパフォーマンスを実現しています。

Online Temporal Action Localization (On-TAL) is a critical task that aims to instantaneously identify action instances in untrimmed streaming videos as soon as an action concludes -- a major leap from frame-based Online Action Detection (OAD). Yet, the challenge of detecting overlapping actions is often overlooked even though it is a common scenario in streaming videos. Current methods that can address concurrent actions depend heavily on class information, limiting their flexibility. This paper introduces ActionSwitch, the first class-agnostic On-TAL framework capable of detecting overlapping actions. By obviating the reliance on class information, ActionSwitch provides wider applicability to various situations, including overlapping actions of the same class or scenarios where class information is unavailable. This approach is complemented by the proposed "conservativeness loss", which directly embeds a conservative decision-making principle into the loss function for On-TAL. Our ActionSwitch achieves state-of-the-art performance in complex datasets, including Epic-Kitchens 100 targeting the challenging egocentric view and FineAction consisting of fine-grained actions.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# SAMの改善は最適化の定式化を再考する必要がある

Improving SAM Requires Rethinking its Optimization Formulation ( http://arxiv.org/abs/2407.12993v1 )

ライセンス: Link先を確認
Wanyun Xie, Fabian Latorre, Kimon Antonakopoulos, Thomas Pethick, Volkan Cevher, (参考訳) 本稿では,ネットワークの重み付けと有界摂動がそれぞれ同じ差分損失を最小化/最大化しようとするゼロサムゲームとして当初定式化されたシャープネス・アウェア最小化(SAM)を再考する。 この設計を根本的に改善するために、SAM は 0-1 の損失を用いて再設計されるべきである、と論じる。 連続緩和として、最小化(最大化)プレイヤーが0-1損失に対して上界(より下界)を代理する単純なアプローチに従う。 これにより、BiSAMと呼ばれる二段階最適化問題としてSAMの新たな定式化がもたらされる。 新しく設計された低いサロゲート損失を持つBiSAMは、確かに強い摂動を構成する。 数値的なエビデンスから、BiSAMはオリジナルのSAMや変種と比較して、同様の計算複雑性を享受しながら、常に性能が向上することを示した。 私たちのコードはhttps://github.com/LIONS-EPFL/BiSAM.comから入手可能です。

This paper rethinks Sharpness-Aware Minimization (SAM), which is originally formulated as a zero-sum game where the weights of a network and a bounded perturbation try to minimize/maximize, respectively, the same differentiable loss. To fundamentally improve this design, we argue that SAM should instead be reformulated using the 0-1 loss. As a continuous relaxation, we follow the simple conventional approach where the minimizing (maximizing) player uses an upper bound (lower bound) surrogate to the 0-1 loss. This leads to a novel formulation of SAM as a bilevel optimization problem, dubbed as BiSAM. BiSAM with newly designed lower-bound surrogate loss indeed constructs stronger perturbation. Through numerical evidence, we show that BiSAM consistently results in improved performance when compared to the original SAM and variants, while enjoying similar computational complexity. Our code is available at https://github.com/LIONS-EPFL/BiSAM.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# 異なるNLPタスクのための大規模言語モデルにおけるプロンプト工学手法の検討

A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks ( http://arxiv.org/abs/2407.12994v1 )

ライセンス: Link先を確認
Shubham Vatsal, Harsh Dubey, (参考訳) 大規模言語モデル(LLM)は多くの異なる自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを示している。 プロンプトエンジニアリングは、様々なNLPタスクにおいて大きなパフォーマンス向上を達成するために、既に存在するLLMの能力に追加する上で重要な役割を担っている。 プロンプトエンジニアリングは、構造化された方法でLLMから知識を引き出すプロンプトと呼ばれる自然言語命令を構成する必要がある。 従来の最先端(SoTA)モデルとは異なり、プロンプトエンジニアリングでは与えられたNLPタスクに基づいてパラメータの再訓練や微調整を必要とせず、LLMの組込み知識のみで動作する。 加えて、LLM愛好家はLLMの知識を基本的な自然言語の会話交換やエンジニアリングを通じて知的に抽出することができ、より深い数学的機械学習のバックグラウンドがなくてもLLMを試すことができる。 過去2年間に急激なエンジニアリングが人気を博し、LLMから情報抽出の精度を向上させるためにプロンプトを設計する多くの技術が考案された。 本稿では、異なるプロンプト手法を要約し、それらが用いた異なるNLPタスクに基づいてそれらをまとめる。 さらに、NLPタスクに属する各種データセットにおけるこれらのプロンプト戦略の性能を強調し、使用するLCMについて語り、分類図を示し、特定のデータセットに対して可能なSoTAについて議論する。 本研究は,29の異なるNLPタスクに対して39の異なるプロンプト手法を論じる44の論文を総括して紹介し,そのほとんどが過去2年間に発表されている。

Large language models (LLMs) have shown remarkable performance on many different Natural Language Processing (NLP) tasks. Prompt engineering plays a key role in adding more to the already existing abilities of LLMs to achieve significant performance gains on various NLP tasks. Prompt engineering requires composing natural language instructions called prompts to elicit knowledge from LLMs in a structured way. Unlike previous state-of-the-art (SoTA) models, prompt engineering does not require extensive parameter re-training or fine-tuning based on the given NLP task and thus solely operates on the embedded knowledge of LLMs. Additionally, LLM enthusiasts can intelligently extract LLMs' knowledge through a basic natural language conversational exchange or prompt engineering, allowing more and more people even without deep mathematical machine learning background to experiment with LLMs. With prompt engineering gaining popularity in the last two years, researchers have come up with numerous engineering techniques around designing prompts to improve accuracy of information extraction from the LLMs. In this paper, we summarize different prompting techniques and club them together based on different NLP tasks that they have been used for. We further granularly highlight the performance of these prompting strategies on various datasets belonging to that NLP task, talk about the corresponding LLMs used, present a taxonomy diagram and discuss the possible SoTA for specific datasets. In total, we read and present a survey of 44 research papers which talk about 39 different prompting methods on 29 different NLP tasks of which most of them have been published in the last two years.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# シャープネスと多様性のトレードオフ:SharpBalanceによるフラットアンサンブルの改善

Sharpness-diversity tradeoff: improving flat ensembles with SharpBalance ( http://arxiv.org/abs/2407.12996v1 )

ライセンス: Link先を確認
Haiquan Lu, Xiaotian Liu, Yefan Zhou, Qunli Li, Kurt Keutzer, Michael W. Mahoney, Yujun Yan, Huanrui Yang, Yaoqing Yang, (参考訳) 近年の深層アンサンブル研究は,個々の学習者の局所的なミニマのシャープさと,アンサンブルメンバーの多様性をテスト時間性能向上の鍵要因として挙げている。 本研究は, 深層アンサンブルにおけるシャープネスと多様性の相互作用を考察し, 分布内(ID)データと分布外(OOD)データの両方に対するロバストな一般化における重要な役割について考察した。 ロスランドスケープにおけるシャープネスの最小化は、アンサンブル内の個々のメンバーの多様性を減少させ、アンサンブルの改善に悪影響を及ぼす傾向がある。 トレードオフは理論解析によって正当化され、広範な実験を通じて実証的に検証される。 多様性の低減という課題に対処するため,アンサンブル内でのシャープネスと多様性のバランスをとる新しいトレーニング手法であるSharpBalanceを紹介した。 理論的には、我々のトレーニング戦略がよりシャープな多様性のトレードオフを達成することを示す。 実験により,各種データセット(CIFAR-10, CIFAR-100, TinyImageNet)で総合的な評価を行い, SharpBalanceはシャープネスと多様性のトレードオフを効果的に改善するだけでなく, IDおよびOODシナリオにおけるアンサンブル性能を大幅に改善することを示した。

Recent studies on deep ensembles have identified the sharpness of the local minima of individual learners and the diversity of the ensemble members as key factors in improving test-time performance. Building on this, our study investigates the interplay between sharpness and diversity within deep ensembles, illustrating their crucial role in robust generalization to both in-distribution (ID) and out-of-distribution (OOD) data. We discover a trade-off between sharpness and diversity: minimizing the sharpness in the loss landscape tends to diminish the diversity of individual members within the ensemble, adversely affecting the ensemble's improvement. The trade-off is justified through our theoretical analysis and verified empirically through extensive experiments. To address the issue of reduced diversity, we introduce SharpBalance, a novel training approach that balances sharpness and diversity within ensembles. Theoretically, we show that our training strategy achieves a better sharpness-diversity trade-off. Empirically, we conducted comprehensive evaluations in various data sets (CIFAR-10, CIFAR-100, TinyImageNet) and showed that SharpBalance not only effectively improves the sharpness-diversity trade-off, but also significantly improves ensemble performance in ID and OOD scenarios.
翻訳日:2024-07-19 19:33:23 公開日:2024-07-17
# データレス評価のための新しいDeep Neural Network Classifierキャラクタリゼーションメトリクス

Novel Deep Neural Network Classifier Characterization Metrics with Applications to Dataless Evaluation ( http://arxiv.org/abs/2407.13000v1 )

ライセンス: Link先を確認
Nathaniel Dean, Dilip Sarkar, (参考訳) 主流のAIコミュニティでは、大規模なオープンソース分類器が増加しており、多くの場合、膨大なデータセットで事前トレーニングされ、標準ベンチマークでテストされている。 Deep Neural Network(DNN)分類器は、サンプルデータセットを使用してトレーニング、検証、テストフェーズを実行する。 本研究では,サンプルデータセットを使わずにDNN分類器のトレーニング品質を評価する。 DNNは特徴抽出器と最小の完全連結層である分類器の合成であると仮定する。 分類器の品質は、その重みベクトルを用いて推定される。 合成データを入力として供給する際に発生する特徴ベクトルを利用する2つの指標を用いて特徴抽出器を特徴付ける。 これらの合成入力ベクトルは、分類器の所望の出力をバックプロパゲートすることによって生成される。 CAFIR10およびCAFIR100データセットを用いて学習したResNet18の手法に関する実証的研究により、DNN分類器のデータレス評価が実際に可能であることを確認した。

The mainstream AI community has seen a rise in large-scale open-source classifiers, often pre-trained on vast datasets and tested on standard benchmarks; however, users facing diverse needs and limited, expensive test data may be overwhelmed by available choices. Deep Neural Network (DNN) classifiers undergo training, validation, and testing phases using example dataset, with the testing phase focused on determining the classification accuracy of test examples without delving into the inner working of the classifier. In this work, we evaluate a DNN classifier's training quality without any example dataset. It is assumed that a DNN is a composition of a feature extractor and a classifier which is the penultimate completely connected layer. The quality of a classifier is estimated using its weight vectors. The feature extractor is characterized using two metrics that utilize feature vectors it produces when synthetic data is fed as input. These synthetic input vectors are produced by backpropagating desired outputs of the classifier. Our empirical study of the proposed method for ResNet18, trained with CAFIR10 and CAFIR100 datasets, confirms that data-less evaluation of DNN classifiers is indeed possible.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# Automated Gateways: ブロックチェーン間の相互運用性のためのスマートコントラクト駆動ソリューション

Automated Gateways: A Smart Contract-Powered Solution for Interoperability Across Blockchains ( http://arxiv.org/abs/2407.13001v1 )

ライセンス: Link先を確認
Koosha Esmaeilzadeh Khorasani, Sara Rouhani, Rui Pan, Vahid Pourheidari, (参考訳) 相互運用性はブロックチェーン技術において重要な課題であり、さまざまなブロックチェーンネットワーク間のシームレスなデータとサービス共有を妨げる。 本稿では、スマートコントラクトを活用して相互運用性を促進する新しいフレームワークとして、‘textit {Automated Gateways’を紹介した。 新しいテクノロジの採用や外部サービスへの依存を必要とする既存のソリューションとは異なり、Automated Gatewaysフレームワークはブロックチェーンのコアインフラストラクチャと直接統合されて、組み込みの相互運用性機能を備えたシステムを強化する。 きめ細かいアクセス制御機構を実装することで、このフレームワーク内のスマートコントラクトは、クロスチェーンインタラクションのアクセシビリティと承認を管理し、ブロックチェーン間のサービス選択の共有の合理化を容易にする。 我々の評価では、ブロックチェーン間のインタラクションを効率的に処理し、運用上の複雑さを大幅に低減し、さまざまなブロックチェーンネットワーク間のトランザクションの整合性とセキュリティを維持できるフレームワークの能力を実証しています。 ユーザフレンドリさ、セルフマネージドのパーミッション、外部プラットフォームからの独立性を重視したこのフレームワークは、ブロックチェーンコミュニティ内で広く採用されるように設計されている。

Interoperability is a significant challenge in blockchain technology, hindering seamless data and service sharing across diverse blockchain networks. This study introduces \textit {Automated Gateways} as a novel framework leveraging smart contracts to facilitate interoperability. Unlike existing solutions, which often require adopting new technologies or relying on external services, Automated Gateways framework is integrated directly with a blockchain's core infrastructure to enhance systems with built-in interoperability features. By implementing fine-grained access control mechanisms, smart contracts within this framework manage accessibility and authorization for cross-chain interactions and facilitate streamlining the selective sharing of services between blockchains. Our evaluation demonstrates the framework's capability to handle cross-chain interactions efficiently, significantly reduce operational complexities, and uphold transactional integrity and security across different blockchain networks. With its focus on user-friendliness, self-managed permissions, and independence from external platforms, this framework is designed to achieve broader adoption within the blockchain community.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# 制約付きオフライン強化学習のためのスポーサリティに基づく安全保守

Sparsity-based Safety Conservatism for Constrained Offline Reinforcement Learning ( http://arxiv.org/abs/2407.13006v1 )

ライセンス: Link先を確認
Minjae Cho, Chuangchuang Sun, (参考訳) 強化学習(Reinforcement Learning, RL)は、自律運転やロボット操作といった意思決定分野で大きな成功を収めている。 しかし、リアルタイムフィードバックへの依存は、コストのかかる、あるいは危険な環境での課題を引き起こす。 さらに、"オン・ポリティクス"サンプリングを中心としたRLのトレーニングアプローチでは、データを完全に活用できない。 したがって、Offline RLは魅力的な代替手段として現れており、特に追加の実験は非現実的であり、豊富なデータセットが利用可能である。 しかし、データ分散と学習ポリシーの相違を示す分散シフト(抽出)の課題は、オフラインのRLにもリスクをもたらし、推定エラー(補間)による重大な安全違反につながる可能性がある。 この懸念は、現実世界の問題が一般的である安全クリティカルな領域において特に顕著である。 補間エラーと補間エラーの両方に対処するため、多くの研究が政策行動の解明にさらなる制約を導入し、より慎重な意思決定に向けてきた。 多くの研究が補間エラーに対処しているが、補間エラーに対処するための効果的な解決策を提供することに重点を置いているものは少ない。 例えば、オリジナルのデータセットを摂動させることで、潜在的なコスト最適化を組み込むことでこの問題に対処する研究もある。 しかし、これは二段階最適化構造を伴い、高次元タスクにおいて重大な不安定性や複雑な問題解決をもたらす可能性がある。 このことは、制約されたオフラインRLに関する重要な洞察を提供することで、利用可能なデータの範囲に基づいて、当初予測されていたよりも危険がより多い可能性がある領域をピンポイントする動機付けになります。 本稿では,2段階のコスト対最大化を用いた場合と比較して,任意の手法や有効性に対して高い一般化性を示す,データの分散度に基づく保守的な指標を提案する。

Reinforcement Learning (RL) has made notable success in decision-making fields like autonomous driving and robotic manipulation. Yet, its reliance on real-time feedback poses challenges in costly or hazardous settings. Furthermore, RL's training approach, centered on "on-policy" sampling, doesn't fully capitalize on data. Hence, Offline RL has emerged as a compelling alternative, particularly in conducting additional experiments is impractical, and abundant datasets are available. However, the challenge of distributional shift (extrapolation), indicating the disparity between data distributions and learning policies, also poses a risk in offline RL, potentially leading to significant safety breaches due to estimation errors (interpolation). This concern is particularly pronounced in safety-critical domains, where real-world problems are prevalent. To address both extrapolation and interpolation errors, numerous studies have introduced additional constraints to confine policy behavior, steering it towards more cautious decision-making. While many studies have addressed extrapolation errors, fewer have focused on providing effective solutions for tackling interpolation errors. For example, some works tackle this issue by incorporating potential cost-maximizing optimization by perturbing the original dataset. However, this, involving a bi-level optimization structure, may introduce significant instability or complicate problem-solving in high-dimensional tasks. This motivates us to pinpoint areas where hazards may be more prevalent than initially estimated based on the sparsity of available data by providing significant insight into constrained offline RL. In this paper, we present conservative metrics based on data sparsity that demonstrate the high generalizability to any methods and efficacy compared to using bi-level cost-ub-maximization.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# Fighting Smpling Bias: クレジットスコアモデルのトレーニングと評価のためのフレームワーク

Fighting Sampling Bias: A Framework for Training and Evaluating Credit Scoring Models ( http://arxiv.org/abs/2407.13009v1 )

ライセンス: Link先を確認
Nikita Kozodoi, Stefan Lessmann, Morteza Alamgir, Luis Moreira-Matias, Konstantinos Papakonstantinou, (参考訳) Scoring Modelは金融機関の意思決定を支援する。 評価と評価は、既定の返済行動の既知の申請者のデータに基づいて行われる。 利用可能なラベル付きデータは、モデルがスコアするはずの候補借主の分布の部分的な図を提供する。 モデル学習と評価におけるサンプリングバイアスの悪影響について検討した。 スコアカード学習を改善するために,選択された拒否アプリケーションに対してラベルを推測することでバイアス付きトレーニングデータを増大させる,バイアス対応型自己学習(reject-aware self-learning)を提案する。 スコアカード評価には,標準精度尺度をバイアス設定に拡張し,将来のスコアカード性能を推定するベイズフレームワークを提案する。 合成および実世界のデータに対する大規模な実験により、予測性能と収益性において、様々なベンチマークよりも提案が優れていることが確認された。 感度解析により,その性能に影響を及ぼす境界条件も同定する。 特に、ランダムに制御された試行錯誤から得られた実世界のデータを利用して、真の借主人口を表すホールドアウトデータに基づいて、新しい手法を評価する。 以上の結果から,リジェクション推論は,スコアカードの性能向上に欠かせない問題であることが明らかとなった。 スコアカード評価中にサンプリングバイアスに対処することは、スコアリングプラクティスを改善するためのずっと有望な方法です。 例えば,ベイズ評価を用いて受入率を決定する場合,利益率が約8%向上することが示唆された。

Scoring models support decision-making in financial institutions. Their estimation and evaluation are based on the data of previously accepted applicants with known repayment behavior. This creates sampling bias: the available labeled data offers a partial picture of the distribution of candidate borrowers, which the model is supposed to score. The paper addresses the adverse effect of sampling bias on model training and evaluation. To improve scorecard training, we propose bias-aware self-learning - a reject inference framework that augments the biased training data by inferring labels for selected rejected applications. For scorecard evaluation, we propose a Bayesian framework that extends standard accuracy measures to the biased setting and provides a reliable estimate of future scorecard performance. Extensive experiments on synthetic and real-world data confirm the superiority of our propositions over various benchmarks in predictive performance and profitability. By sensitivity analysis, we also identify boundary conditions affecting their performance. Notably, we leverage real-world data from a randomized controlled trial to assess the novel methodologies on holdout data that represent the true borrower population. Our findings confirm that reject inference is a difficult problem with modest potential to improve scorecard performance. Addressing sampling bias during scorecard evaluation is a much more promising route to improve scoring practices. For example, our results suggest a profit improvement of about eight percent, when using Bayesian evaluation to decide on acceptance rates.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# 分解能独立型ニューラル演算子

A Resolution Independent Neural Operator ( http://arxiv.org/abs/2407.13010v1 )

ライセンス: Link先を確認
Bahador Bahmani, Somdatta Goswami, Ioannis G. Kevrekidis, Michael D. Shields, (参考訳) Deep operator Network(ディープ・オペレータ・ネットワーク、DeepONet)は、無限次元関数空間間のマッピングを学習するために2つのディープ・ニューラルネットワークを利用する、強力で単純なニューラル・オペレーター・アーキテクチャである。 このアーキテクチャは非常に柔軟であり、所望の領域内の任意の場所における解場の評価を可能にする。 しかし、入力空間に厳密な制約を課し、全ての入力関数を同じ場所で離散化する必要がある。 本研究では,DeepONetの分解能を独立にするためのフレームワークであるResolvion Independent Neural Operator (RINO)を導入し,任意だが十分な精度で離散化された入力関数を処理できるようにする。 そこで本研究では,入力データから暗黙的ニューラル表現(INR)としてパラメータ化された,適切な連続基底関数の集合を適応的に学習する辞書学習アルゴリズムを提案する。 これらの基底関数は任意の入力関数データを点クラウドとして埋め込み空間(つまり有限次元のベクトル空間)に射影し、ディメンタリティは辞書のサイズに等しい。 特に、トレーニング可能なINR基底関数として正弦波表現ネットワーク(SIREN)を利用する。 本稿では,RINOの任意の(しかし十分にリッチな)サンプル入力関数の学習および推論における頑健さと適用性について,いくつかの数値例を通して示す。

The Deep operator network (DeepONet) is a powerful yet simple neural operator architecture that utilizes two deep neural networks to learn mappings between infinite-dimensional function spaces. This architecture is highly flexible, allowing the evaluation of the solution field at any location within the desired domain. However, it imposes a strict constraint on the input space, requiring all input functions to be discretized at the same locations; this limits its practical applications. In this work, we introduce a Resolution Independent Neural Operator (RINO) that provides a framework to make DeepONet resolution-independent, enabling it to handle input functions that are arbitrarily, but sufficiently finely, discretized. To this end, we propose a dictionary learning algorithm to adaptively learn a set of appropriate continuous basis functions, parameterized as implicit neural representations (INRs), from the input data. These basis functions are then used to project arbitrary input function data as a point cloud onto an embedding space (i.e., a vector space of finite dimensions) with dimensionality equal to the dictionary size, which can be directly used by DeepONet without any architectural changes. In particular, we utilize sinusoidal representation networks (SIRENs) as our trainable INR basis functions. We demonstrate the robustness and applicability of RINO in handling arbitrarily (but sufficiently richly) sampled input functions during both training and inference through several numerical examples.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# 計測デバイス非依存量子トモグラフィー

Measurement-device agnostic quantum tomography ( http://arxiv.org/abs/2407.13011v1 )

ライセンス: Link先を確認
Robert Stárek, Martin Bielak, Miroslav Ježek, (参考訳) 量子状態と装置のキャラクタリゼーションは、量子科学と技術にとって最重要課題である。 キャラクタリゼーションは個々の測定値から成り、正確に知る必要がある。 実測値と推定値のミスマッチは、この特徴の精度を制限する。 ここでは、このようなミスマッチが量子状態トモグラフィーにおける再構成アーティファクトを導入することを示す。 これらのアーティファクトを使用して、ミスマッチを検出し、定量化し、実際の測定演算子に関する情報を得る。 これにより、量子測定と状態準備における系統的なエラーを緩和することができる。

Characterization of quantum states and devices is paramount to quantum science and technology. The characterization consists of individual measurements, which are required to be precisely known. A mismatch between actual and assumed constituent measurements limits the accuracy of this characterization. Here, we show that such a mismatch introduces reconstruction artifacts in quantum state tomography. We use these artifacts to detect and quantify the mismatch and gain information about the actual measurement operators. It consequently allows the mitigation of systematic errors in quantum measurement and state preparation.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# CUAOA:QAOAのための新しいCUDA加速シミュレーションフレームワーク

CUAOA: A Novel CUDA-Accelerated Simulation Framework for the QAOA ( http://arxiv.org/abs/2407.13012v1 )

ライセンス: Link先を確認
Jonas Stein, Jonas Blenninger, David Bucher, Josef Peter Eder, Elif Çetiner, Maximilian Zorn, Claudia Linnhoff-Popien, (参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm、QAOA)は、古典的なコンピュータでは難しい組合せ最適化問題の近似解を見つけるために設計された、卓越した量子アルゴリズムである。 量子ハードウェアがノイズや量子ビットの可用性に制約されている現代では、QAOAをシミュレートすることが研究に不可欠である。 しかし、既存の最先端のシミュレーションフレームワークは、長い実行時間や包括的な機能、ユーザビリティ、汎用性を欠いているため、ユーザ自身が必須の機能を実装する必要がしばしばあります。 さらに、これらのフレームワークは主にPythonに限定されており、Rustのような高度な並列化機能を提供する安全で高速な言語での使用を制限する。 本稿ではNVIDIA CUDAツールキットを用いたGPU高速化QAOAシミュレーションフレームワークを開発する。 このフレームワークはQAOAシミュレーションのための完全なインタフェースを提供し、予測値の計算、状態ベクトルへの直接アクセス、高速サンプリング、最先端の勾配計算技術を用いた高性能最適化を可能にする。 このフレームワークはPythonとRustでの使用用に設計されており、コアでQAOAを活用する高速なアルゴリズム実装を必要とするものなど、幅広いアプリケーションに統合するための柔軟性を提供する。 新しいフレームワークのパフォーマンスはMaxCut問題に対して厳格にベンチマークされ、現在最先端の汎用量子回路シミュレーションフレームワークであるQiskitとPennylaneと、特別なQAOAシミュレーションツールであるQOKitと比較される。 評価の結果,提案手法は,実行時から最大で複数桁まで,既存の最先端のソリューションよりも優れていることがわかった。 我々の実装はhttps://github.com/JFLXB/cuaoaとZenodoで公開されています。

The Quantum Approximate Optimization Algorithm (QAOA) is a prominent quantum algorithm designed to find approximate solutions to combinatorial optimization problems, which are challenging for classical computers. In the current era, where quantum hardware is constrained by noise and limited qubit availability, simulating the QAOA remains essential for research. However, existing state-of-the-art simulation frameworks suffer from long execution times or lack comprehensive functionality, usability, and versatility, often requiring users to implement essential features themselves. Additionally, these frameworks are primarily restricted to Python, limiting their use in safer and faster languages like Rust, which offer, e.g., advanced parallelization capabilities. In this paper, we develop a GPU accelerated QAOA simulation framework utilizing the NVIDIA CUDA toolkit. This framework offers a complete interface for QAOA simulations, enabling the calculation of (exact) expectation values, direct access to the statevector, fast sampling, and high-performance optimization methods using an advanced state-of-the-art gradient calculation technique. The framework is designed for use in Python and Rust, providing flexibility for integration into a wide range of applications, including those requiring fast algorithm implementations leveraging QAOA at its core. The new framework's performance is rigorously benchmarked on the MaxCut problem and compared against the current state-of-the-art general-purpose quantum circuit simulation frameworks Qiskit and Pennylane as well as the specialized QAOA simulation tool QOKit. Our evaluation shows that our approach outperforms the existing state-of-the-art solutions in terms of runtime up to multiple orders of magnitude. Our implementation is publicly available at https://github.com/JFLXB/cuaoa and Zenodo.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# ポストセレクトVAEを用いた高品質タブラルデータ生成

High-Quality Tabular Data Generation using Post-Selected VAE ( http://arxiv.org/abs/2407.13016v1 )

ライセンス: Link先を確認
Volodymyr Shulakov, (参考訳) データのプライバシーに関する懸念が高まる中、合成表データの必要性が高まっている。 タブラリデータは、様々なシステムのテスト、実際のデータのシミュレート、データ自体の分析、予測モデルの構築に有用である。 残念ながら、機密性の問題のため、そのようなデータは利用できないかもしれない。 TVAE (Xu et al , 2019) や OCTGAN (Kim et al , 2021) といった従来の技術は、特に複雑なデータセットを扱えないか、それ自体が複雑で、実行時のパフォーマンスが劣る。 本稿では,より少ない実行時間で高品質な合成データを生成できるPSVAEを紹介する。 PSVAEにはロス最適化とポストセレクションという2つの主要なアイデアが組み込まれている。 これらのアイデアとともに、提案されたモデルは、表現不足のカテゴリを補償し、現代のアクティベーション関数であるMish(Misra, 2019)を使用する。

Synthetic tabular data is becoming a necessity as concerns about data privacy intensify in the world. Tabular data can be useful for testing various systems, simulating real data, analyzing the data itself or building predictive models. Unfortunately, such data may not be available due to confidentiality issues. Previous techniques, such as TVAE (Xu et al., 2019) or OCTGAN (Kim et al., 2021), are either unable to handle particularly complex datasets, or are complex in themselves, resulting in inferior run time performance. This paper introduces PSVAE, a new simple model that is capable of producing high-quality synthetic data in less run time. PSVAE incorporates two key ideas: loss optimization and post-selection. Along with these ideas, the proposed model compensates for underrepresented categories and uses a modern activation function, Mish (Misra, 2019).
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# 協調学習の証明:多自由度フェデレーション・ラーニング・コンセンサス・アルゴリズム

Proof-of-Collaborative-Learning: A Multi-winner Federated Learning Consensus Algorithm ( http://arxiv.org/abs/2407.13018v1 )

ライセンス: Link先を確認
Amirreza Sokhankhosh, Sara Rouhani, (参考訳) これらのバリエーションにかかわらず、ブロックチェーンには、トランザクションの検証、追加ブロックの監視、ネットワークセキュリティの維持、ネットワーク状態の同期、インセンティブの分散といった、コンセンサスメカニズムが必要だ。 合意機構の最も影響力のある実装の一つであるProof-of-Work (PoW) は、直接生産的な出力を欠くタスクに対して、非常に多くのエネルギーを消費する。 本稿では,ブロックチェーンの計算能力に振り返り,フェデレーション学習モデルを訓練する多自由度学習検証コンセンサス機構であるProof-of-Collaborative-Learning(PoCL)を提案する。 また,採掘者の局所的に訓練されたモデルの効率性を確保するための新しい評価機構を提案する。 予測可能な攻撃の導入と実施により,評価機構の安全性を評価した。 さらに、入場者に対して公平にインセンティブを与えるための新たな報奨分配機構を提案し、この報奨制度が全ラウンド中および全ラウンドにわたって公平であることを示す。

Regardless of their variations, blockchains require a consensus mechanism to validate transactions, supervise added blocks, maintain network security, synchronize the network state, and distribute incentives. Proof-of-Work (PoW), one of the most influential implementations of consensus mechanisms, consumes an extraordinary amount of energy for a task that lacks direct productive output. In this paper, we propose Proof-of-Collaborative-Learning (PoCL), a multi-winner federated learning validated consensus mechanism that redirects the computation power of blockchains to train federated learning models. In addition, we present a novel evaluation mechanism to ensure the efficiency of the locally trained models of miners. We evaluated the security of our evaluation mechanism by introducing and conducting probable attacks. Moreover, we present a novel reward distribution mechanism to incentivize winning miners fairly, and demonstrate that our reward system is fair both within and across all rounds.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# 人工及び実遺伝子列上の最接近文字列問題に対する3段階アルゴリズム

A Three-Stage Algorithm for the Closest String Problem on Artificial and Real Gene Sequences ( http://arxiv.org/abs/2407.13023v1 )

ライセンス: Link先を確認
Alireza Abdi, Marko Djukanovic, Hesam Tahmasebi Boldaji, Hadis Salehi, Aleksandar Kartelj, (参考訳) 最も近い文字列問題 (Closest String problem) は、与えられた文字列の集合に属するすべての列から最小距離の文字列を見つけることを目的としたNPハード問題である。 その応用は、符号化理論、計算生物学、デジェネレーションプライマーの設計などに見ることができる。 二進数列に対する高品質な解に到達した効率的な正確なアルゴリズムがある。 しかし、DNAとタンパク質配列に対する解の質に関してはまだ改善の余地がある。 本稿では,次の3段階のアルゴリズムを提案する。まず,検索領域を効果的に見つけるために,検索空間を削減するために,新しいアルファベットプルーニング手法を適用する。 第二に、ヒューリスティックな解を見つけるためにビームサーチの変種を用いる。 本手法は, 部分解の期待距離ヒューリスティックスコアに基づいて, 新たに開発された誘導関数を利用する。 最後に,ビームサーチから得られる解の質を向上させるために,局所探索を導入する。 さらに、実世界のベンチマークが欠如しているため、この手法の堅牢性を検証するために、2つの実世界のデータセットが導入された。 実験結果から,提案手法が従来の手法よりも優れていたことが示唆された。

The Closest String Problem is an NP-hard problem that aims to find a string that has the minimum distance from all sequences that belong to the given set of strings. Its applications can be found in coding theory, computational biology, and designing degenerated primers, among others. There are efficient exact algorithms that have reached high-quality solutions for binary sequences. However, there is still room for improvement concerning the quality of solutions over DNA and protein sequences. In this paper, we introduce a three-stage algorithm that comprises the following process: first, we apply a novel alphabet pruning method to reduce the search space for effectively finding promising search regions. Second, a variant of beam search to find a heuristic solution is employed. This method utilizes a newly developed guiding function based on an expected distance heuristic score of partial solutions. Last, we introduce a local search to improve the quality of the solution obtained from the beam search. Furthermore, due to the lack of real-world benchmarks, two real-world datasets are introduced to verify the robustness of the method. The extensive experimental results show that the proposed method outperforms the previous approaches from the literature.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# 原則から実践へ:AI(PAI)合成メディアフレームワークのパートナシップから学ぶ11のユースケース

From Principles to Practices: Lessons Learned from Applying Partnership on AI's (PAI) Synthetic Media Framework to 11 Use Cases ( http://arxiv.org/abs/2407.13025v1 )

ライセンス: Link先を確認
Claire R. Leibowicz, Christian H. Cardona, (参考訳) 2023年は世界が生成的AIに目覚めた年であり、2024年は政策立案者がより強く反応する年だ。 重要なことに、この政策の勢いは、合成メディアの現実的な創造と流通と共に起こっている。 ソーシャルメディアプラットフォーム、ニュース組織、デートアプリ、画像生成会社などはすでにAIによる視覚と音の世界を旅しており、政策立案者が追いつこうとしているように、すでに心と心を変えている。 では、どのようにしてAIガバナンスは、合成メディアの複雑さを捉えることができるのか? ストーリーテリングからプライバシ保護まで、詐欺、詐欺、非難まで、その開発、創造、流通に関わる多くのステークホルダーを考慮に入れながら、合成メディアの無数の用途にどのように対応できるだろうか? そして、表現の自由を高めつつ、真実を守りながら合成メディアを統治することの意味は何だろうか? 以下に示すのは、これらの質問に答える合成メディアガバナンスの実装のさまざまな例の最初の例である。特に2023年2月にローンチされた、AI(PAI) Responsible Practices for Synthetic Media – 自発的で規範的な、合成メディアのための技術の作成、配布、構築のためのフレームワークであるPartners on AI(PAI) Responsible Practices for Synthetic Media(リンク)を通じてである。 本稿では,フレームワークを運用する上で有効な実世界の事例のケースバンクとして,合成メディアガバナンスの適用,拡張,拡張,そして実際に使用するために改良された領域を取り上げる。 AI政策の異なる要素と、透明性、安全性、表現、デジタル尊厳をサポートする7つの創発的なベストプラクティス(同意、開示、有害なユースケースと創造的なユースケースの区別)を強調している。

2023 was the year the world woke up to generative AI, and 2024 is the year policymakers are responding more firmly. Importantly, this policy momentum is taking place alongside real world creation and distribution of synthetic media. Social media platforms, news organizations, dating apps, image generation companies, and more are already navigating a world of AI-generated visuals and sounds, already changing hearts and minds, as policymakers try to catch up. How, then, can AI governance capture the complexity of the synthetic media landscape? How can it attend to synthetic media's myriad uses, ranging from storytelling to privacy preservation, to deception, fraud, and defamation, taking into account the many stakeholders involved in its development, creation, and distribution? And what might it mean to govern synthetic media in a manner that upholds the truth while bolstering freedom of expression? What follows is the first known collection of diverse examples of the implementation of synthetic media governance that responds to these questions, specifically through Partnership on AI's (PAI) Responsible Practices for Synthetic Media - a voluntary, normative Framework for creating, distributing, and building technology for synthetic media responsibly, launched in February 2023. In this paper, we present a case bank of real world examples that help operationalize the Framework - highlighting areas synthetic media governance can be applied, augmented, expanded, and refined for use, in practice. Read together, the cases emphasize distinct elements of AI policymaking and seven emergent best practices supporting transparency, safety, expression, and digital dignity online: consent, disclosure, and differentiation between harmful and creative use cases.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# 空間的トランスクリプトミクス補完による組織像からの遺伝子発現予測の強化

Enhancing Gene Expression Prediction from Histology Images with Spatial Transcriptomics Completion ( http://arxiv.org/abs/2407.13027v1 )

ライセンス: Link先を確認
Gabriel Mejia, Daniela Ruiz, Paula Cárdenas, Leonardo Manrique, Daniela Vega, Pablo Arbeláez, (参考訳) 空間トランスクリプトミクス(Spatial Transcriptomics)は、組織像と空間的に解決された遺伝子発現プロファイルを整合させる新しい技術である。 画期的ではあるが、取得したデータに高い腐敗をもたらす遺伝子捕獲に苦慮している。 潜在的な応用を考えると、最近の研究は、組織像からのみトランスクリプトームプロファイルを予測することに重点を置いている。 しかし、データベース、前処理技術、トレーニングハイパーパラメータの違いは、メソッド間の公正な比較を妨げている。 これらの課題に対処するために,26の公開資料から収集した体系的キュレートおよび処理されたデータベースを提案する。 さらに、欠落した遺伝子発現を推定するための最先端のトランスフォーマーベースの補完手法を提案し、全てのデータセットにおける転写プロファイル予測の性能を大幅に向上させる。 我々の貢献は、現在までの組織像からの遺伝子発現予測の最も包括的なベンチマークであり、空間転写学の今後の研究の足掛かりとなっている。

Spatial Transcriptomics is a novel technology that aligns histology images with spatially resolved gene expression profiles. Although groundbreaking, it struggles with gene capture yielding high corruption in acquired data. Given potential applications, recent efforts have focused on predicting transcriptomic profiles solely from histology images. However, differences in databases, preprocessing techniques, and training hyperparameters hinder a fair comparison between methods. To address these challenges, we present a systematically curated and processed database collected from 26 public sources, representing an 8.6-fold increase compared to previous works. Additionally, we propose a state-of-the-art transformer based completion technique for inferring missing gene expression, which significantly boosts the performance of transcriptomic profile predictions across all datasets. Altogether, our contributions constitute the most comprehensive benchmark of gene expression prediction from histology images to date and a stepping stone for future research on spatial transcriptomics.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# セクシュアルヘルスにおける社会的援助型ロボット:開示・学習・肯定的態度を促進するグループと個人学生ロボットインタラクション活動

Socially Assistive Robot in Sexual Health: Group and Individual Student-Robot Interaction Activities Promoting Disclosure, Learning and Positive Attitudes ( http://arxiv.org/abs/2407.13030v1 )

ライセンス: Link先を確認
Anna-Maria Velentza, Efthymia Kefalouka, Nikolaos Fachantidis, (参考訳) 包括性教育(SE)は、特に小学生の性的健康と責任ある行動を促進するために重要である。 その重要性にもかかわらず、SEを教えることは学生の態度、恥ずかしさ、感情的な障壁のために困難である。 社会支援ロボット(SAR)は、しばしば人間よりも信頼性が高いと判断される。 これらのエビデンスにインスパイアされた本研究は,小学校のSE授業のファシリテーターとしてのSARの成功を評価することを目的としている。 本研究は,小学生を対象としたSE教育におけるSARの有効性を評価するための2つの実験を行った。 2つの実験を行った。 イ 直ロボットがSE講義を行った学校教室における集団活動であって、学生が講義から取得した情報量を評価し、 b) 学生がロボットと1対1で対話し,SEの主題に対する態度を評価し,SEに関連する質問をロボットに質問することを快く感じているかを検討した。 調査前後から収集したデータとビデオアノテーションにより,SARはSEに対する学生の態度を著しく改善した。 さらに、学生は人間の教師よりも、SE関連の質問をロボットに尋ねることにオープンであった。 本研究は, 学校における性教育への革新的かつ効果的なアプローチの道を開いた上で, SE教育を支援する上での有効性に寄与する要因として, 実施形態や非判断行動などの特定のSAR特性を強調した。

Comprehensive sex education (SE) is crucial in promoting sexual health and responsible behavior among students, particularly in elementary schools. Despite its significance, teaching SE can be challenging due to students' attitudes, shyness, and emotional barriers. Socially assistive robots (SARs) sometimes are perceived as more trustworthy than humans, based on research showing that they are not anticipated as judgmental. Inspired by those evidences, this study aims to assess the success of a SAR as a facilitator for SE lessons for elementary school students. This study conducted two experiments to assess the effectiveness of a SAR in facilitating SE education for elementary school students. We conducted two experiments, a) a group activity in the school classroom where the Nao robot gave a SE lecture, and we evaluated how much information the students acquired from the lecture, and b) an individual activity where the students interacted 1:1 with the robot, and we evaluated their attitudes towards the subject of SE, and if they felt comfortable to ask SE related questions to the robot. Data collected from pre- and post-questionnaires, as well as video annotations, revealed that the SAR significantly improved students' attitudes toward SE. Furthermore, students were more open to asking SE-related questions to the robot than their human teacher. The study emphasized specific SAR characteristics, such as embodiment and non-judgmental behavior, as key factors contributing to their effectiveness in supporting SE education, paving the way for innovative and effective approaches to sexual education in schools.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# Agent-E: 自律型Webナビゲーションからエージェントシステムの基本設計原理へ

Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems ( http://arxiv.org/abs/2407.13032v1 )

ライセンス: Link先を確認
Tamer Abuelsaad, Deepak Akkil, Prasenjit Dey, Ashish Jagmohan, Aditya Vempaty, Ravi Kokku, (参考訳) AIエージェントは、コンシューマードメインとエンタープライズドメインの両方で、仕事の仕方を変えています。 しかし、高度に能力のあるエージェントやマルチエージェントシステムを構築するための設計パターンやアーキテクチャはいまだ発展途上であり、様々な設計選択やアルゴリズムの意味を理解することはいまだ発展途上である。 本稿では,新しいWebエージェントである Agent-E \footnote{Our code is available at \url{https://github.com/EmergenceAI/Agent-E}} について述べる。 Agent-Eは、階層型アーキテクチャ、フレキシブルDOM蒸留および復調法、そしてエージェントをより正確なパフォーマンスに導くための‘textit{change Observation}’の概念といった、最先端のWebエージェントよりも多くのアーキテクチャ改善を導入している。 まず、WebVoyagerベンチマークデータセット上でAgent-Eの評価結果を示し、多くのカテゴリにおいて、Agent-Eが他のSOTAテキストやマルチモーダルWebエージェントを10~30倍に上回っていることを示す。 次にエージェント-Eの開発から学んだことを,エージェントシステム開発のための一般的な設計原則に合成する。 これには、ドメイン固有の原始的スキルの使用、環境観測の蒸留と脱ノイズの重要性、階層的アーキテクチャの利点、エージェントが経験を集めるにつれて、エージェントの効率性と有効性を高めるためのエージェント的自己改善の役割が含まれる。

AI Agents are changing the way work gets done, both in consumer and enterprise domains. However, the design patterns and architectures to build highly capable agents or multi-agent systems are still developing, and the understanding of the implication of various design choices and algorithms is still evolving. In this paper, we present our work on building a novel web agent, Agent-E \footnote{Our code is available at \url{https://github.com/EmergenceAI/Agent-E}}. Agent-E introduces numerous architectural improvements over prior state-of-the-art web agents such as hierarchical architecture, flexible DOM distillation and denoising method, and the concept of \textit{change observation} to guide the agent towards more accurate performance. We first present the results of an evaluation of Agent-E on WebVoyager benchmark dataset and show that Agent-E beats other SOTA text and multi-modal web agents on this benchmark in most categories by 10-30\%. We then synthesize our learnings from the development of Agent-E into general design principles for developing agentic systems. These include the use of domain-specific primitive skills, the importance of distillation and de-noising of environmental observations, the advantages of a hierarchical architecture, and the role of agentic self-improvement to enhance agent efficiency and efficacy as the agent gathers experience.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# 音声の発声パターンを明らかにするための事前学習基礎モデル表現

Pre-Trained Foundation Model representations to uncover Breathing patterns in Speech ( http://arxiv.org/abs/2407.13035v1 )

ライセンス: Link先を確認
Vikramjit Mitra, Anirban Chatterjee, Ke Zhai, Helen Weng, Ayuko Hill, Nicole Hay, Christopher Webb, Jamie Cheng, Erdrin Azemi, (参考訳) 人間の音声生成の過程は、音響音声信号を引き出すための協調的な呼吸行動を含む。 通常は、空気が肺から押し出され、声道によって調節されるときに発せられるが、そのような作用は空気中の呼吸の瞬間(吸入)によって拡散され、再び肺を補充する。 呼吸速度(英: respiratory rate, RR)は、個人の健康、フィットネス、健康全般を評価するために用いられる重要な指標である。 RR(1分間に1回の呼吸数)を測定するための既存のアプローチは、特殊装備や訓練を用いて実施されている。 機械学習アルゴリズムは、バイオセンサー信号を入力としてRRを推定できることを示した。 RRの音声に基づく推定は、特別な機器やセンサーを必要とせずに、バイタルメトリックを測定する効果的なアプローチを提供することができる。 本研究は,話者から発声した音声区間からRRを推定する機械学習に基づく手法について検討する。 N=26個体からデータを収集し, 市販の胸部ベルトを用いて基礎RRを採取し, エラーを手動で修正した。 音声信号から呼吸時間時系列データを推定するために,畳み込み長短記憶ネットワーク(Conv-LSTM)を提案する。 本稿では,Wav2Vec2などの基礎モデルから得られた事前学習表現を用いて,根平均二乗誤差と高い相関係数で呼吸時間列を推定できることを示す。 モデル駆動の時系列は、最低平均絶対誤差(MAE)~1.6呼吸/分で$RR$を推定するのに使うことができる。

The process of human speech production involves coordinated respiratory action to elicit acoustic speech signals. Typically, speech is produced when air is forced from the lungs and is modulated by the vocal tract, where such actions are interspersed by moments of breathing in air (inhalation) to refill the lungs again. Respiratory rate (RR) is a vital metric that is used to assess the overall health, fitness, and general well-being of an individual. Existing approaches to measure RR (number of breaths one takes in a minute) are performed using specialized equipment or training. Studies have demonstrated that machine learning algorithms can be used to estimate RR using bio-sensor signals as input. Speech-based estimation of RR can offer an effective approach to measure the vital metric without requiring any specialized equipment or sensors. This work investigates a machine learning based approach to estimate RR from speech segments obtained from subjects speaking to a close-talking microphone device. Data were collected from N=26 individuals, where the groundtruth RR was obtained through commercial grade chest-belts and then manually corrected for any errors. A convolutional long-short term memory network (Conv-LSTM) is proposed to estimate respiration time-series data from the speech signal. We demonstrate that the use of pre-trained representations obtained from a foundation model, such as Wav2Vec2, can be used to estimate respiration-time-series with low root-mean-squared error and high correlation coefficient, when compared with the baseline. The model-driven time series can be used to estimate $RR$ with a low mean absolute error (MAE) ~ 1.6 breaths/min.
翻訳日:2024-07-19 19:23:28 公開日:2024-07-17
# ColorMAE: Masked AutoEncodersにおけるデータ非依存のマスキング戦略を探る

ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders ( http://arxiv.org/abs/2407.13036v1 )

ライセンス: Link先を確認
Carlos Hinojosa, Shuming Liu, Bernard Ghanem, (参考訳) Masked AutoEncoders (MAE)は、幅広いダウンストリームタスクで優れたパフォーマンスを提供する、堅牢なセルフ教師付きフレームワークとして登場した。 プレテキストタスクの難易度を高め、よりリッチな視覚表現を学習するために、既存の研究は、標準的なランダムマスキングを、対人誘導や教師誘導マスキングのようなより洗練された戦略に置き換えることに重点を置いている。 しかし、これらの戦略は入力データに依存するため、一般的にモデルの複雑さを増大させ、マスクパターンを生成するために追加の計算を必要とする。 入力データや追加の計算コストに頼ることなく、ランダムマスキングを超えてMAE性能を向上できるか? そこで本研究では、ランダムノイズをフィルタすることで、異なる二元マスクパターンを生成する、ColorMAEと呼ばれる、シンプルで効果的なデータ非依存手法を提案する。 画像処理における色ノイズから着想を得た4種類のフィルタを探索し,空間や意味の異なるマスクパターンを生成する。 ColorMAEは、ネットワーク内で学習可能なパラメータや計算オーバーヘッドを必要としないが、学習した表現を大幅に強化する。 我々は、ランダムマスキングと比較して、下流タスクにおける戦略の優位性を示す総合的な経験的評価を提供する。 特に,mIoUにおけるmIoUの2.72の改善について報告する。

Masked AutoEncoders (MAE) have emerged as a robust self-supervised framework, offering remarkable performance across a wide range of downstream tasks. To increase the difficulty of the pretext task and learn richer visual representations, existing works have focused on replacing standard random masking with more sophisticated strategies, such as adversarial-guided and teacher-guided masking. However, these strategies depend on the input data thus commonly increasing the model complexity and requiring additional calculations to generate the mask patterns. This raises the question: Can we enhance MAE performance beyond random masking without relying on input data or incurring additional computational costs? In this work, we introduce a simple yet effective data-independent method, termed ColorMAE, which generates different binary mask patterns by filtering random noise. Drawing inspiration from color noise in image processing, we explore four types of filters to yield mask patterns with different spatial and semantic priors. ColorMAE requires no additional learnable parameters or computational overhead in the network, yet it significantly enhances the learned representations. We provide a comprehensive empirical evaluation, demonstrating our strategy's superiority in downstream tasks compared to random masking. Notably, we report an improvement of 2.72 in mIoU in semantic segmentation tasks relative to baseline MAE implementations.
翻訳日:2024-07-19 19:13:43 公開日:2024-07-17
# VRヘッドセットからのコーデックアバターの普遍的顔符号化

Universal Facial Encoding of Codec Avatars from VR Headsets ( http://arxiv.org/abs/2407.13038v1 )

ライセンス: Link先を確認
Shaojie Bai, Te-Li Wang, Chenghui Li, Akshay Venkatesh, Tomas Simon, Chen Cao, Gabriel Schwartz, Ryan Wrench, Jason Saragih, Yaser Sheikh, Shih-En Wei, (参考訳) アバターを介するバーチャルリアリティ(VR)のテレプレゼンスには、忠実なリアルタイム顔アニメーションが不可欠である。 アバターアニメーションは、数ミリ秒以内に極端な表現と微妙な表現の両方をキャプチャして、自然な会話のリズムを維持することができる。 顔の斜めと不完全な視界、ヘッドセットのドッキングにおける可変性、環境による照明の変動は、目に見えない顔への一般化においてユニークな課題である。 本稿では,消費者向けVRヘッドセットのヘッドマウントカメラ(HMC)を用いて,リアルアバターをリアルタイムにアニメーションする手法を提案する。 本稿では,クロスビューな再構築目標に基づく自己指導型学習手法を提案する。 本稿では,実行時の効率向上に最小限のコストで精度を高める軽量な式キャリブレーション機構を提案する。 本研究では, 環境変動に対するロバスト性を実現するために, 精密な地中構造生成のためのパラメータ化を改良した。 このシステムは、VRヘッドセットを装着した未確認ユーザに対して、リアルタイムに正確な顔アニメーションを生成する。 我々は,従来の顔符号化手法と比較し,定量的な測定値と定性的な結果の両方において有意な改善が示された。

Faithful real-time facial animation is essential for avatar-mediated telepresence in Virtual Reality (VR). To emulate authentic communication, avatar animation needs to be efficient and accurate: able to capture both extreme and subtle expressions within a few milliseconds to sustain the rhythm of natural conversations. The oblique and incomplete views of the face, variability in the donning of headsets, and illumination variation due to the environment are some of the unique challenges in generalization to unseen faces. In this paper, we present a method that can animate a photorealistic avatar in realtime from head-mounted cameras (HMCs) on a consumer VR headset. We present a self-supervised learning approach, based on a cross-view reconstruction objective, that enables generalization to unseen users. We present a lightweight expression calibration mechanism that increases accuracy with minimal additional cost to run-time efficiency. We present an improved parameterization for precise ground-truth generation that provides robustness to environmental variation. The resulting system produces accurate facial animation for unseen users wearing VR headsets in realtime. We compare our approach to prior face-encoding methods demonstrating significant improvements in both quantitative metrics and qualitative results.
翻訳日:2024-07-19 19:13:43 公開日:2024-07-17
# トルコの悲喜:トルコのエプヘミズムに関するデータセット

Turkish Delights: a Dataset on Turkish Euphemisms ( http://arxiv.org/abs/2407.13040v1 )

ライセンス: Link先を確認
Hasan Can Biyik, Patrick Lee, Anna Feldman, (参考訳) ユーフェミズム(英: Euphemisms)は、自然言語処理において比較的研究されている図形言語の一種である。 この研究は、潜在的至上主義用語(PET)に関する現在の計算作業をトルコ語に拡張する。 本稿では,トルコのPETデータセットについて紹介する。 トルコ語でエウヘミズムのリストを作成し、例の文脈を収集し、それらに注釈を付けることにより、トルコ語でエウヘミズムと非エウヘミズムの両方のPETの例を提供する。 本稿では,このデータセットと手法について述べるとともに,2進分類のためのデータセットを用いてトルコのエウヘミズム検出のトランスフォーマーモデルを用いた実験を行った。 評価指標として、F1、精度、精度を用いてモデル間での性能を比較する。

Euphemisms are a form of figurative language relatively understudied in natural language processing. This research extends the current computational work on potentially euphemistic terms (PETs) to Turkish. We introduce the Turkish PET dataset, the first available of its kind in the field. By creating a list of euphemisms in Turkish, collecting example contexts, and annotating them, we provide both euphemistic and non-euphemistic examples of PETs in Turkish. We describe the dataset and methodologies, and also experiment with transformer-based models on Turkish euphemism detection by using our dataset for binary classification. We compare performances across models using F1, accuracy, and precision as evaluation metrics.
翻訳日:2024-07-19 19:13:43 公開日:2024-07-17
# INTELLECT:サイバー脅威検出を異種コンピューティング環境に適用する

INTELLECT: Adapting Cyber Threat Detection to Heterogeneous Computing Environments ( http://arxiv.org/abs/2407.13043v1 )

ライセンス: Link先を確認
Simone Magnani, Liubov Nedoshivina, Roberto Doriguzzi-Corin, Stefano Braghin, Domenico Siracusa, (参考訳) クラウドコンピューティング、エッジ、IoTの普及により、サイバー脅威に対する攻撃面が拡大した。 これは、ハードウェアとソフトウェア構成の異なる、しばしば安全でない異種デバイスが大規模にデプロイされているためである。 これらのデバイスの多様性は、様々な潜在的な攻撃方法を引き付け、個々の組織があらゆる脅威に関する包括的な知識を持つことを困難にしている。 この文脈では、フェデレートラーニングを用いて、異なるパーティのデータを組み合わせることで、強力な異常検出モデルを開発することができる。 FLはMLベースのIDSの協調開発を可能にするため、ネットワークトラフィックやセンサ読み取りといった機密性の高いトレーニングデータを公開する必要がなくなる。 しかし、結果のモデルのデプロイは、限られた容量のターゲットデバイスで利用可能なものや、すでに他の操作に割り当てられているものよりも多くの計算リソースを必要とする可能性があるため、難しい場合がある。 トレーニングデータの大部分は、FLプロセスの他の参加者にプライベートであるため、トレーニングデバイス固有のモデルは、組織にとって実現不可能である。 これらの課題に対処するため,本論文では,特徴選択,モデルプルーニング,微調整技術を統合した新しいソリューションであるINTELLECTを導入し,事前学習したMLモデルとIDSの構成を動的に適応する結合型パイプラインを提案する。 実験的な評価を通じて,MLモデルを組織デバイスの特定のリソース制約に合わせることによるINTELLECTのアプローチの利点を分析し,特徴選択,プルーニング,微調整操作による交通分類精度の変動を測定する。 さらに, 知識蒸留技術を微調整中に組み込むことの利点を実証し, 歴史的知識を保存しつつ, ローカルネットワークパターンに一貫した適応を可能にする。

The widespread adoption of cloud computing, edge, and IoT has increased the attack surface for cyber threats. This is due to the large-scale deployment of often unsecured, heterogeneous devices with varying hardware and software configurations. The diversity of these devices attracts a wide array of potential attack methods, making it challenging for individual organizations to have comprehensive knowledge of all possible threats. In this context, powerful anomaly detection models can be developed by combining data from different parties using Federated Learning. FL enables the collaborative development of ML-based IDSs without requiring the parties to disclose sensitive training data, such as network traffic or sensor readings. However, deploying the resulting models can be challenging, as they may require more computational resources than those available on target devices with limited capacity or already allocated for other operations. Training device-specific models is not feasible for an organization because a significant portion of the training data is private to other participants in the FL process. To address these challenges, this paper introduces INTELLECT, a novel solution that integrates feature selection, model pruning, and fine-tuning techniques into a cohesive pipeline for the dynamic adaptation of pre-trained ML models and configurations for IDSs. Through empirical evaluation, we analyze the benefits of INTELLECT's approach in tailoring ML models to the specific resource constraints of an organization's devices and measure variations in traffic classification accuracy resulting from feature selection, pruning, and fine-tuning operations. Additionally, we demonstrate the advantages of incorporating knowledge distillation techniques while fine-tuning, enabling the ML model to consistently adapt to local network patterns while preserving historical knowledge.
翻訳日:2024-07-19 19:13:43 公開日:2024-07-17
# DropKan: ポストアクティベーションのマスキングによるカンの正規化

DropKAN: Regularizing KANs by masking post-activations ( http://arxiv.org/abs/2407.13044v1 )

ライセンス: Link先を確認
Mohammed Ghaith Altarabichi, (参考訳) そこで我々はDropKAN(Drop Kolmogorov-Arnold Networks)を提案する。 DropKanは、Kans計算グラフ内のポストアクティベーションの一部をランダムにマスキングし、保持されたポストアクティベーションをスケールアップする。 最小限のコーディング作業を必要とするこの単純な手順は、正規化効果を持ち、一貫してkansのより優れた一般化につながることを示す。 我々は、標準Dropout with Kansの適応を分析し、Kansのニューロンに適用されたDropoutがフィードフォワードパスにおいて予測不可能な性能をもたらすことを示した。 実世界の機械学習データセットを用いて実証的研究を行い、その結果を検証する。 その結果,DropKANは一貫してDropoutの代替品であり,Kansの一般化性能を向上させることが示唆された。

We propose DropKAN (Drop Kolmogorov-Arnold Networks) a regularization method that prevents co-adaptation of activation function weights in Kolmogorov-Arnold Networks (KANs). DropKAN operates by randomly masking some of the post-activations within the KANs computation graph, while scaling-up the retained post-activations. We show that this simple procedure that require minimal coding effort has a regularizing effect and consistently lead to better generalization of KANs. We analyze the adaptation of the standard Dropout with KANs and demonstrate that Dropout applied to KANs' neurons can lead to unpredictable performance in the feedforward pass. We carry an empirical study with real world Machine Learning datasets to validate our findings. Our results suggest that DropKAN is consistently a better alternative to Dropout, and improves the generalization performance of KANs.
翻訳日:2024-07-19 19:13:43 公開日:2024-07-17
# 短時間使用予測のための限定語彙データ拡張のための新しいGANアプローチ

A Novel GAN Approach to Augment Limited Tabular Data for Short-Term Substance Use Prediction ( http://arxiv.org/abs/2407.13047v1 )

ライセンス: Link先を確認
Nguyen Thach, Patrick Habecker, Bergen Johnston, Lillianna Cervantes, Anika Eisenbraun, Alex Mason, Kimberly Tyler, Bilal Khan, Hau Chan, (参考訳) 物質使用は、何百万人もの薬物使用者(PWUD)に悪影響を及ぼす世界的な問題である。 実際に、適切なリソースを効率的に割り当てるための脆弱なPWUDを特定することは、複雑な使用パターン(例えば、数ヶ月で使用量を変える傾向)と、PWUDに焦点を当てた物質使用データを収集するための高い取得コストのために困難である。 したがって、PWUDの短期的物質使用行動の正確な予測には、機械学習モデルが多用されている。 本稿では,米国大平原で収集された258個のPWUDの経時的調査データを用いて,高次元の低サンプルサイズの表型データを扱う新しいGANを設計し,既存のデータを拡張して,PWUDが使用量を増加させるかどうか,および,今後12ヶ月以内に特定の薬物を使用する経時的頻度の予測を改善する。 評価の結果,提案したGANの強化データを用いてトレーニングすると,マリファナ,メス,アンフェタミン,コカインを用いて,予測性能(A)が最大13.4%向上し,問題(B)が最大15.8%向上した。

Substance use is a global issue that negatively impacts millions of persons who use drugs (PWUDs). In practice, identifying vulnerable PWUDs for efficient allocation of appropriate resources is challenging due to their complex use patterns (e.g., their tendency to change usage within months) and the high acquisition costs for collecting PWUD-focused substance use data. Thus, there has been a paucity of machine learning models for accurately predicting short-term substance use behaviors of PWUDs. In this paper, using longitudinal survey data of 258 PWUDs in the U.S. Great Plains collected by our team, we design a novel GAN that deals with high-dimensional low-sample-size tabular data and survey skip logic to augment existing data to improve classification models' prediction on (A) whether the PWUDs would increase usage and (B) at which ordinal frequency they would use a particular drug within the next 12 months. Our evaluation results show that, when trained on augmented data from our proposed GAN, the classification models improve their predictive performance (AUROC) by up to 13.4% in Problem (A) and 15.8% in Problem (B) for usage of marijuana, meth, amphetamines, and cocaine, which outperform state-of-the-art generative models.
翻訳日:2024-07-19 19:13:43 公開日:2024-07-17
# 言語モデルにおける知識嗜好の確立

Establishing Knowledge Preference in Language Models ( http://arxiv.org/abs/2407.13048v1 )

ライセンス: Link先を確認
Sizhe Zhou, Sha Li, Yu Meng, Yizhu Jiao, Heng Ji, Jiawei Han, (参考訳) 言語モデルは事前学習を通じて大量の事実知識を符号化することが知られている。 しかし、そのような知識はユーザーからの要求を満たすには不十分であり、モデルが外部の知識ソースを統合し、ユーザーが提供する仕様に従う必要がある。 進行中のイベントに関する質問に答える場合、モデルは、最新のニュース記事を使って、その反応を更新する;レコメンデーションを提供する; モデルは、検索された製品レビューよりも、ユーザー仕様を優先する; ある事実がモデルで編集されると、更新された事実は、たとえ矛盾しているとしても、モデルによって学習されたすべての事前知識をオーバーライドする。 上記のすべてのケースにおいて、モデルは、自身のパラメトリック知識、(検索された)文脈知識、およびユーザー教育知識の間の決定に直面します。 本稿では,(1)そのような設定を知識嗜好の問題に統一し,これらの知識ソースに対して3段階の嗜好階層を定義し,(2)既存のデータセットのコレクションであるifQA,MQuAKE,MRQAをコンパイルして,意図した知識嗜好にどのように順応するかを体系的に評価する。 提案手法によって自動生成される数千個のサンプルを微調整した 7B モデルが,所望の知識嗜好階層に適応する上で,より優れた性能(全評価ベンチマークにおいて18%以上の改善)を効果的に達成できることを実証した。

Language models are known to encode a great amount of factual knowledge through pretraining. However, such knowledge might be insufficient to cater to user requests, requiring the model to integrate external knowledge sources and adhere to user-provided specifications. When answering questions about ongoing events, the model should use recent news articles to update its response; when asked to provide recommendations, the model should prioritize user specifications over retrieved product reviews; when some facts are edited in the model, the updated facts should override all prior knowledge learned by the model even if they are conflicting. In all of the cases above, the model faces a decision between its own parametric knowledge, (retrieved) contextual knowledge, and user instruction knowledge. In this paper, we (1) unify such settings into the problem of knowledge preference and define a three-level preference hierarchy over these knowledge sources; (2) compile a collection of existing datasets IfQA, MQuAKE, and MRQA covering a combination of settings (with/without user specifications, with/without context documents) to systematically evaluate how well models obey the intended knowledge preference; and (3) propose a dataset synthesis method that composes diverse question-answer pairs with user assumptions and related context to directly fine-tune LMs for instilling the hierarchy of knowledge. We demonstrate that a 7B model, fine-tuned on only a few thousand examples automatically generated by our proposed method, effectively achieves superior performance (more than 18% improvement across all evaluation benchmarks) in adhering to the desired knowledge preference hierarchy.
翻訳日:2024-07-19 19:13:43 公開日:2024-07-17
# カーコムの新規4次格子

Emerging Quadrature Lattices of Kerr Combs ( http://arxiv.org/abs/2407.13049v1 )

ライセンス: Link先を確認
Eran Lustig, Melissa A. Guidry, Daniil M. Lukin, Shanhui Fan, Jelena Vuckovic, (参考訳) 二次格子は、多重モード光[1-3]の量子的性質を形作る新しい方法を提供する、圧縮された真空場二次体の結合配列である。 このような格子は非エルミート的、非散逸的な物理学の枠組みの中で記述され、格子の例外点、エッジ状態、絡み合い、非エルミート的皮膚効果などの興味深い格子現象を示し、量子ゆらぎを制御するための基本的な新しい方法を提供する[1, 4]。 非線形共振器は, \chi(2)および \chi(3) 材料 [5-12] において非散逸性である多モード対生成過程やスクイーズ法の研究に適していたが, フォトニック二次格子における非エルミート格子現象の観察は達成されなかった。 顕著なことに、フォトニック技術に革命をもたらした散逸性Kerrマイクロコム[13]では、このような格子が出現して、コンブ形成につながる量子ノイズが支配される。 したがって、彼らは二次格子を実現し、あらゆる量子技術に不可欠なマルチモード量子ノイズを研究・操作するユニークな機会を提供する。 ここでは、フォトニック二次格子における非エルミート格子効果を初めて実験的に研究する。 我々のフォトニック二次格子はKerrマイクロコム遷移で出現し、分散対称性、周波数依存性の圧縮されたスーパーモデム、および非エルミート格子物理学の基本的な関係を統合的に観測することができる。 我々の研究は、量子非エルミート物理学とカーコムの2つの主要な分野を統一し、散逸的カーコムを利用するための扉を開き、量子状態における豊富な非エルミート物理学を実験的に探索し、量子光を工学し、量子ノイズとカーコムの形成を研究するための新しいツールを開発する。

A quadrature lattice is a coupled array of squeezed vacuum field quadratures that offers new avenues in shaping the quantum properties of multimode light [1-3]. Such lattices are described within the framework of non-Hermitian, non-dissipative physics and exhibit intriguing lattice phenomena such as lattice exceptional points, edge-states, entanglement and non-Hermitian skin effect, offering fundamentally new methods for controlling quantum fluctuations [1, 4]. Nonlinear resonators are suitable for studying multimode pair-generation processes and squeezing which are non-dissipative in \chi(2) and \chi(3) materials [5-12], but observing non-Hermitian lattice phenomena in photonic quadrature lattices was not achieved. Remarkably, in dissipative Kerr microcombs [13], which have revolutionized photonic technology, such lattices emerge and govern the quantum noise that leads to comb formation. Thus, they offer a unique opportunity to realize quadrature lattices, and to study and manipulate multimode quantum noise which is essential for any quantum technology. Here, we experimentally study non-Hermitian lattice effects in photonic quadrature lattices for the first time. Our photonic quadrature lattices emerge at Kerr microcomb transitions, allowing us to observe fundamental connections between dispersion symmetry, frequency-dependent squeezed supermodes, and non-Hermitian lattice physics in an integrated setup. Our work unifies two major fields, quantum non-Hermitian physics and Kerr combs, and opens the door to utilizing dissipative Kerr combs to experimentally explore rich non-Hermitian physics in the quantum regime, engineer quantum light, and develop new tools to study the quantum noise and formation of Kerr combs.
翻訳日:2024-07-19 19:13:43 公開日:2024-07-17
# 数値データのための因果探索アルゴリズムの総合的検証と実証評価

Comprehensive Review and Empirical Evaluation of Causal Discovery Algorithms for Numerical Data ( http://arxiv.org/abs/2407.13054v1 )

ライセンス: Link先を確認
Wenjin Niu, Zijun Gao, Liyan Song, Lingbo Li, (参考訳) 因果解析は、様々な分野における現象の根本原因を理解する上で不可欠な要素となっている。 その重要性にもかかわらず、因果発見アルゴリズムに関する既存の文献は断片化されており、矛盾する方法論と包括的評価の欠如がある。 本研究では,数値データに対する因果発見手法の徹底的な検討と実証的な評価を行うことにより,これらのギャップに対処する。 私たちの研究は10年以上にわたる総合的な文献レビューから始まり、既存の調査は、さまざまな因果発見の進展をカバーできないことが判明した。 我々は200以上の学術論文を慎重に分析し、24の異なるアルゴリズムを特定した。 この広範な分析により、因果発見の複雑さに合わせた新しい分類法が開発され、方法が6つの主要なタイプに分類された。 包括的評価の欠如に対処するため,本研究では,合成および実世界のデータセット上で20以上の因果探索アルゴリズムを広範囲に評価する。 我々は,5つの評価指標を用いて,サイズ,線形性,雑音分布に基づく合成データセットを分類し,異なるデータシナリオを対象としたトップ3のアルゴリズムレコメンデーションを要約した。 このレコメンデーションは、2つの現実世界のデータセットで検証されている。 この結果から,データセット特性がアルゴリズム性能に与える影響が明らかとなった。 さらに,未知のデータセット上でのアルゴリズム選択を支援するメタデータ抽出戦略を開発した。 メタデータを推定する精度は80%以上である。 これらの知見に基づいて、特定のデータセットのニーズに対して最も適切な因果発見方法を選択するための専門的かつ実践的な勧告を提供する。

Causal analysis has become an essential component in understanding the underlying causes of phenomena across various fields. Despite its significance, the existing literature on causal discovery algorithms is fragmented, with inconsistent methodologies and a lack of comprehensive evaluations. This study addresses these gaps by conducting an exhaustive review and empirical evaluation of causal discovery methods for numerical data, aiming to provide a clearer and more structured understanding of the field. Our research began with a comprehensive literature review spanning over a decade, revealing that existing surveys fall short in covering the vast array of causal discovery advancements. We meticulously analyzed over 200 scholarly articles to identify 24 distinct algorithms. This extensive analysis led to the development of a novel taxonomy tailored to the complexities of causal discovery, categorizing methods into six main types. Addressing the lack of comprehensive evaluations, our study conducts an extensive empirical assessment of more than 20 causal discovery algorithms on synthetic and real-world datasets. We categorize synthetic datasets based on size, linearity, and noise distribution, employing 5 evaluation metrics, and summarized the top-3 algorithm recommendations for different data scenarios. The recommendations have been validated on 2 real-world datasets. Our results highlight the significant impact of dataset characteristics on algorithm performance. Moreover, a metadata extraction strategy was developed to assist users in algorithm selection on unknown datasets. The accuracy of estimating metadata is higher than 80%. Based on these insights, we offer professional and practical recommendations to help users choose the most suitable causal discovery methods for their specific dataset needs.
翻訳日:2024-07-19 19:13:43 公開日:2024-07-17
# Cheddar: CUDA GPU用のSwift完全同型暗号化ライブラリ

Cheddar: A Swift Fully Homomorphic Encryption Library for CUDA GPUs ( http://arxiv.org/abs/2407.13055v1 )

ライセンス: Link先を確認
Jongmin Kim, Wonseok Choi, Jung Ho Ahn, (参考訳) FHE(Fully homomorphic encryption)は、クラウドコンピューティングにおけるセキュリティとプライバシの問題を解決するための暗号化技術である。 しかし、FHEは暗号化されたデータを処理するための膨大な計算オーバーヘッドを導入し、FHEワークロードは暗号化されていないワークロードよりも2~6桁遅くなりました。 オーバヘッドを軽減するために,CUDA GPUのFHEライブラリであるCheddarを提案する。 我々は、効率的な低レベルプリミティブから合理化された高レベル操作シーケンスまで、様々な実装レベルで最適化された機能を開発する。 特に、32ビットの小さなワードサイズを用いた効率的なカーネル設計に基づいて、数理論変換や基底変換を含む主要なFHE演算を改善する。 これらの方法により、Cheddarは、従来のGPU実装と比較して、代表的FHEワークロードの2.9から25.6倍のパフォーマンスを示している。

Fully homomorphic encryption (FHE) is a cryptographic technology capable of resolving security and privacy problems in cloud computing by encrypting data in use. However, FHE introduces tremendous computational overhead for processing encrypted data, causing FHE workloads to become 2-6 orders of magnitude slower than their unencrypted counterparts. To mitigate the overhead, we propose Cheddar, an FHE library for CUDA GPUs, which demonstrates significantly faster performance compared to prior GPU implementations. We develop optimized functionalities at various implementation levels ranging from efficient low-level primitives to streamlined high-level operational sequences. Especially, we improve major FHE operations, including number-theoretic transform and base conversion, based on efficient kernel designs using a small word size of 32 bits. By these means, Cheddar demonstrates 2.9 to 25.6 times higher performance for representative FHE workloads compared to prior GPU implementations.
翻訳日:2024-07-19 19:13:43 公開日:2024-07-17
# 信頼されたサーバのないプライベートな不均一なフェデレーション学習:凸損失に対する誤り最適かつコミュニケーション効率のアルゴリズム

Private Heterogeneous Federated Learning Without a Trusted Server Revisited: Error-Optimal and Communication-Efficient Algorithms for Convex Losses ( http://arxiv.org/abs/2407.09690v2 )

ライセンス: Link先を確認
Changyu Gao, Andrew Lowy, Xingyu Zhou, Stephen J. Wright, (参考訳) 我々は,サーバやサイロ/クライアントを信頼していない人たちの個人データを用いて,連邦学習(FL)の問題を再考する。 この文脈では、すべてのサイロ(例えば病院)は、複数の人(例えば患者)からのデータを持ち、サーバーや他のサイロがデータを発見しようとする場合でも、各人のデータ(例えば健康記録)のプライバシーを保護する必要がある。 Inter-Silo Record-Level Differential Privacy (ISRL-DP) は、各サイロのデータ漏洩を防止し、サイロ i の通信がアイテムレベルの差分プライバシーを満たすように要求する。 以前の研究 arXiv:2106.09779 では、同種(d.d.)のサイロデータと凸損失関数を持つ ISRL-DP アルゴリズムの最適超過リスク境界が特徴づけられた。 しかし、(1)同じ過剰なリスク境界を不均一な(非i.d.)サイロデータで達成できるのか? 2)コミュニケーションラウンドを減らして最適なリスク境界を達成できるのか? 本稿では,両質問に対して肯定的な回答を与える。 異種サイロデータの存在下で最適な過大なリスク境界を実現する新しいISRL-DP FLアルゴリズムを提案する。 さらに、我々のアルゴリズムは従来の最先端技術よりも通信効率が高い。 スムーズな損失関数に対して、我々のアルゴリズムは最適余剰リスクバウンドを達成し、非プライベートな下位バウンドと一致する通信複雑性を持つ。 さらに、我々のアルゴリズムは以前の最先端技術よりも計算効率が良い。

We revisit the problem of federated learning (FL) with private data from people who do not trust the server or other silos/clients. In this context, every silo (e.g. hospital) has data from several people (e.g. patients) and needs to protect the privacy of each person's data (e.g. health records), even if the server and/or other silos try to uncover this data. Inter-Silo Record-Level Differential Privacy (ISRL-DP) prevents each silo's data from being leaked, by requiring that silo i's communications satisfy item-level differential privacy. Prior work arXiv:2106.09779 characterized the optimal excess risk bounds for ISRL-DP algorithms with homogeneous (i.i.d.) silo data and convex loss functions. However, two important questions were left open: (1) Can the same excess risk bounds be achieved with heterogeneous (non-i.i.d.) silo data? (2) Can the optimal risk bounds be achieved with fewer communication rounds? In this paper, we give positive answers to both questions. We provide novel ISRL-DP FL algorithms that achieve the optimal excess risk bounds in the presence of heterogeneous silo data. Moreover, our algorithms are more communication-efficient than the prior state-of-the-art. For smooth loss functions, our algorithm achieves the optimal excess risk bound and has communication complexity that matches the non-private lower bound. Additionally, our algorithms are more computationally efficient than the previous state-of-the-art.
翻訳日:2024-07-19 11:38:46 公開日:2024-07-17
# FarsInstruct:ペルシャ語指導理解のための大規模言語モデル

FarsInstruct: Empowering Large Language Models for Persian Instruction Understanding ( http://arxiv.org/abs/2407.11186v2 )

ライセンス: Link先を確認
Hojjat Mokhtarabadi, Ziba Zamani, Abbas Maazallahi, Hossein Manshaei, (参考訳) T0のような命令調整型大規模言語モデルは、様々な領域にまたがる命令に従う際、顕著な能力を示している。 しかし、その習熟度は多くの低リソース言語で顕著に不足している。 この課題に対処するために、我々は、ペルシャ語に特化した大規模言語モデルの命令追従能力を高めるために設計された包括的な命令データセットであるFarsInstructを紹介した。 FarsInstructには幅広いタスクタイプとデータセットが含まれており、それぞれが単純で複雑な手書きの命令と、Promptsの公開プールからの翻訳を混在させ、豊かな言語的・文化的表現を保証する。 さらに,LoRA設計モデルのマルチタスク適応性向上を目的としたフレームワークであるCo-CoLAを紹介する。 本研究では,Co-CoLAフレームワークによるトレーニングと組み合わせたFarsInstructデータセットの有効性について検討し,ペルシャの文脈における大規模言語モデルの性能向上について検討した。 現在の執筆時点で、FarsInstructは21の異なるデータセットに200以上のテンプレートで構成されています。

Instruction-tuned large language models, such as T0, have demonstrated remarkable capabilities in following instructions across various domains. However, their proficiency remains notably deficient in many low-resource languages. To address this challenge, we introduce FarsInstruct: a comprehensive instruction dataset designed to enhance the instruction-following ability of large language models specifically for the Persian language, a significant yet underrepresented language globally. FarsInstruct encompasses a wide range of task types and datasets, each containing a mix of straightforward to complex manual written instructions, as well as translations from Public Pool of Prompts, ensuring a rich linguistic and cultural representation. Furthermore, we introduce Co-CoLA, a framework designed to enhance the multi-task adaptability of LoRA-tuned models. Through extensive experimental analyses, our study showcases the effectiveness of FarsInstruct dataset coupled with training by Co-CoLA framework, in improving the performance of large language models within the Persian context. As of the current writing, FarsInstruct comprises more than 200 templates across 21 distinct datasets, and we intend to update it consistently, thus augmenting its applicability.
翻訳日:2024-07-19 11:38:46 公開日:2024-07-17
# 制約なしオープン語彙画像分類:CLIPインバージョンによるテキストから画像へのゼロショット転送

Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion ( http://arxiv.org/abs/2407.11211v2 )

ライセンス: Link先を確認
Philipp Allgeuer, Kyra Ahrens, Stefan Wermter, (参考訳) 我々は、自動回帰変換器を用いて言語として分類ラベルを生成出力する、革新的なuNconstrained Open Vocabulary Image ClassifierであるNOVICを紹介する。 CLIPモデルの広範な知識を活用して、NOVICは埋め込みスペースを活用して、純粋なテキストからイメージへのゼロショット転送を可能にする。 従来のCLIPモデルは、オープン語彙分類の能力にもかかわらず、潜在的なクラスラベルの徹底的なプロンプトを必要とし、既知のコンテンツやコンテキストの画像への適用を制限する。 そこで本研究では,テンプレート付きオブジェクト名詞セットの大規模92MターゲットデータセットとLCM生成キャプションを用いて学習し,常に対象名詞を出力するオブジェクトデコーダモデルを提案する。 これはCLIPテキストエンコーダを効果的に反転させ、画像の潜在的な内容に関する事前知識を必要とせずに、画像由来の埋め込みベクトルから直接テキストオブジェクトラベルを生成することができる。 トレーニングされたデコーダは、手動とWebで計算されたデータセットと、標準的な画像分類ベンチマークの混合でテストされ、87.5%の詳細なプロンプトフリー予測スコアを達成している。

We introduce NOVIC, an innovative uNconstrained Open Vocabulary Image Classifier that uses an autoregressive transformer to generatively output classification labels as language. Leveraging the extensive knowledge of CLIP models, NOVIC harnesses the embedding space to enable zero-shot transfer from pure text to images. Traditional CLIP models, despite their ability for open vocabulary classification, require an exhaustive prompt of potential class labels, restricting their application to images of known content or context. To address this, we propose an "object decoder" model that is trained on a large-scale 92M-target dataset of templated object noun sets and LLM-generated captions to always output the object noun in question. This effectively inverts the CLIP text encoder and allows textual object labels to be generated directly from image-derived embedding vectors, without requiring any a priori knowledge of the potential content of an image. The trained decoders are tested on a mix of manually and web-curated datasets, as well as standard image classification benchmarks, and achieve fine-grained prompt-free prediction scores of up to 87.5%, a strong result considering the model must work for any conceivable image and without any contextual clues.
翻訳日:2024-07-19 11:38:46 公開日:2024-07-17
# コードベース暗号に関する調査

A Survey on Code-Based Cryptography ( http://arxiv.org/abs/2201.07119v5 )

ライセンス: Link先を確認
Violetta Weger, Niklas Gassner, Joachim Rosenthal, (参考訳) 量子技術の改良は、私たちの日々のサイバーセキュリティを脅かしている。 量子時代の準備として、国家標準技術研究所(NIST)は2016年に公開鍵暗号(PKE)、鍵カプセル化機構(KEM)、デジタル署名方式の標準化プロセスを開始した。 2023年、NISTはポストクォータム署名を新たに要求した。 この章では、PKEとシグネチャスキームに焦点を当てた、コードベースの暗号に関する調査の提供を目指しています。 コードベースの暗号で導入された主要なフレームワークをカバーし、セキュリティの前提を分析します。 より広い読者にリーチすることを意図した講義ノート形式の数学的背景を提供する。

The improvements on quantum technology are threatening our daily cybersecurity, as a capable quantum computer can break all currently employed asymmetric cryptosystems. In preparation for the quantum-era the National Institute of Standards and Technology (NIST) has initiated in 2016 a standardization process for public-key encryption (PKE) schemes, key-encapsulation mechanisms (KEM) and digital signature schemes. In 2023, NIST made an additional call for post-quantum signatures. With this chapter we aim at providing a survey on code-based cryptography, focusing on PKEs and signature schemes. We cover the main frameworks introduced in code-based cryptography and analyze their security assumptions. We provide the mathematical background in a lecture notes style, with the intention of reaching a wider audience.
翻訳日:2024-07-19 03:58:48 公開日:2024-07-17
# クラウド環境におけるHoneypotの実装

Honeypot Implementation in a Cloud Environment ( http://arxiv.org/abs/2301.00710v2 )

ライセンス: Link先を確認
Stefan Machmeier, (参考訳) デジタル化の時代、インターネットサービスはこれまでになく多くの攻撃に直面している。 攻撃者の目的は、システムを悪用し、悪意のある目的に使用することである。 脆弱性のあるシステムは、インターネット全体のスキャンによって発見され、侵害されるため、このような取り組みは増加している。 従来のセキュリティレバレッジ以外の既知の方法論のひとつは、それを攻撃した人たちから学ぶことだ。 ハニーポットは、脆弱な標的のふりをして攻撃者に関する情報を集めるのに役立つ。 したがって、ミツバチがより安全なインフラにどのように貢献できるかは興味深い研究のトピックとなっている。 この論文は、HeiCLOUDの悪意ある活動を調査するためのハニーポットソリューションを示し、攻撃が著しく増加したことを示すものである。 ハイデルベルク大学の制限されたネットワークゾーンで攻撃者を検出するために、ファイアウォールの漏れを検出する新しい概念が生み出される。 さらに、攻撃者の視点を考慮し、輸送レベルでハニーポットを検出する方法を導入する。 最後に、仲介インスタンスとして動作するカスタマイズされたOpenSSHサーバが、これらの取り組みを緩和するために提示される。

In this age of digitalization, Internet services face more attacks than ever. An attacker's objective is to exploit systems and use them for malicious purposes. Such efforts are rising as vulnerable systems can be discovered and compromised through Internet-wide scanning. One known methodology besides traditional security leverages is to learn from those who attack it. A honeypot helps to collect information about an attacker by pretending to be a vulnerable target. Thus, how honeypots can contribute to a more secure infrastructure makes an interesting topic of research. This thesis will present a honeypot solution to investigate malicious activities in heiCLOUD and show that attacks have increased significantly. To detect attackers in restricted network zones at Heidelberg University, a new concept to discover leaks in the firewall will be created. Furthermore, to consider an attacker's point of view, a method for detecting honeypots at the transport level will be introduced. Lastly, a customized OpenSSH server that works as an intermediary instance will be presented to mitigate these efforts.
翻訳日:2024-07-19 03:58:48 公開日:2024-07-17
# 動的環境におけるディジタル双対V2X通信を可能にするマルチモーダルシミュレーションフレームワーク

A Multi-Modal Simulation Framework to Enable Digital Twin-based V2X Communications in Dynamic Environments ( http://arxiv.org/abs/2303.06947v3 )

ライセンス: Link先を確認
Lorenzo Cazzella, Francesco Linsalata, Maurizio Magarini, Matteo Matteucci, Umberto Spagnolini, (参考訳) 近年,物理無線環境のためのDigital Twins (DT) が,物理通信機器における多層決定を可能にする伝搬環境の正確な仮想表現として提案されている。 高周波帯では、DTは車体環境を特徴とする高移動環境において生じる課題を克服するのに役立つ。 本稿では,V2X通信シナリオのDT作成のための新しいデータ駆動ワークフローと,現実的なセンサデータと正確なmmWave/sub-THz無線チャネルを生成するためのマルチモーダルシミュレーションフレームワークを提案する。 提案手法は,自動車シミュレーション・テストフレームワークと正確なレイトレーシングチャネルシミュレータを利用する。 都市シナリオのシミュレーションでは、達成可能な現実的なセンサーと、インフラとエゴ車の両方でのチャネルモデリングが示される。 本稿では,V2Xリンク復元のためのDT支援ブロックハンドオーバタスクに関するフレームワークについて紹介し,実際の車両閉塞シミュレーションにフレームワークの動的チャネル生成機能を活用する。

Digital Twins (DTs) for physical wireless environments have been recently proposed as accurate virtual representations of the propagation environment that can enable multi-layer decisions at the physical communication equipment. At high-frequency bands, DTs can help to overcome the challenges emerging in high mobility conditions featuring vehicular environments. In this paper, we propose a novel data-driven workflow for the creation of the DT of a Vehicle-to-Everything (V2X) communication scenario and a multi-modal simulation framework for the generation of realistic sensor data and accurate mmWave/sub-THz wireless channels. The proposed method leverages an automotive simulation and testing framework and an accurate ray-tracing channel simulator. Simulations over an urban scenario show the achievable realistic sensor and channel modelling both at the infrastructure and at ego-vehicles. We showcase the proposed framework on the DT-aided blockage handover task for V2X link restoration, leveraging the framework's dynamic channel generation capabilities for realistic vehicular blockage simulation.
翻訳日:2024-07-19 03:58:48 公開日:2024-07-17
# ジェネリックフロケットシステムの長時間特性は駆動周期とほぼ周期的である

Long-time properties of generic Floquet systems are approximately periodic with the driving period ( http://arxiv.org/abs/2309.05641v2 )

ライセンス: Link先を確認
Yichen Huang, (参考訳) フロッケ量子系は、周期的なハミルトニアンによって支配される。 局所的な(幾何学的に)相互作用を持つ時間的独立なフロケ系の空間を考える。 この空間における測度ゼロの系を除いて、無作為な積状態から始めて、長い時間における多くの性質(観測可能量の期待値やマクロ的に大きなサブシステムの絡み合いエントロピーを含む)は、ハミルトニアンと同じ周期で概して周期的であることを証明している。 したがって、任意の大きさのフロケ系において、離散時間結晶の挙動は厳密に無限の時間に持続しない。

A Floquet quantum system is governed by a Hamiltonian that is periodic in time. Consider the space of piecewise time-independent Floquet systems with (geometrically) local interactions. We prove that for all but a measure zero set of systems in this space, starting from a random product state, many properties (including expectation values of observables and the entanglement entropy of a macroscopically large subsystem) at long times are approximately periodic with the same period as the Hamiltonian. Thus, in almost every Floquet system of arbitrarily large but finite size, discrete time-crystalline behavior does not persist to strictly infinite time.
翻訳日:2024-07-19 03:58:48 公開日:2024-07-17
# 対話型エージェントベースシステムにおける位相遷移の同定のための機械学習:Desai-Zwanzig の例

Machine Learning for the identification of phase-transitions in interacting agent-based systems: a Desai-Zwanzig example ( http://arxiv.org/abs/2310.19039v2 )

ライセンス: Link先を確認
Nikolaos Evangelou, Dimitrios G. Giovanis, George A. Kevrekidis, Grigorios A. Pavliotis, Ioannis G. Kevrekidis, (参考訳) 縮小次数モデルに対する閉形式、解析的表現の導出、そしてそれにつながるクロージャの選択は、長い間、エージェントベースモデル(ABM)の位相および雑音誘起遷移を研究するための戦略として選択されてきた。 本稿では,従来の閉形式モデルよりも少数の変数を用いて,ABM-デザイ・ズワンツィヒモデルの平均場限界の位相遷移をピンポイントするデータ駆動型フレームワークを提案する。 この目的のために、多様体学習アルゴリズムであるDiffusion Mapsを用いて、データ駆動潜在変数の相似集合を同定し、それらがABMの期待する理論的順序パラメータと1対1で対応していることを示す。 次に、深層学習フレームワークを用いて、データ駆動座標の共形再パラメータ化を行い、例えば、これらの座標における1つのパラメータ依存ODEの同定を容易にする。 数値積分スキーム(前方オイラー)にインスパイアされた残差ニューラルネットワークを用いて、このODEを同定する。 次に、奇妙な対称性変換によって実現された識別されたODEを用いて、相転移を示す分岐図を構築する。

Deriving closed-form, analytical expressions for reduced-order models, and judiciously choosing the closures leading to them, has long been the strategy of choice for studying phase- and noise-induced transitions for agent-based models (ABMs). In this paper, we propose a data-driven framework that pinpoints phase transitions for an ABM- the Desai-Zwanzig model in its mean-field limit, using a smaller number of variables than traditional closed-form models. To this end, we use the manifold learning algorithm Diffusion Maps to identify a parsimonious set of data-driven latent variables, and show that they are in one-to-one correspondence with the expected theoretical order parameter of the ABM. We then utilize a deep learning framework to obtain a conformal reparametrization of the data-driven coordinates that facilitates, in our example, the identification of a single parameter-dependent ODE in these coordinates. We identify this ODE through a residual neural network inspired by a numerical integration scheme (forward Euler). We then use the identified ODE - enabled through an odd symmetry transformation - to construct the bifurcation diagram exhibiting the phase transition.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# 軌道サンプリングによる連系自動車のマルチエージェント確率アンサンブル

Multi-Agent Probabilistic Ensembles with Trajectory Sampling for Connected Autonomous Vehicles ( http://arxiv.org/abs/2312.13910v3 )

ライセンス: Link先を確認
Ruoqi Wen, Jiahao Huang, Rongpeng Li, Guoru Ding, Zhifeng Zhao, (参考訳) 近年、自律走行車(AV)が注目されており、強化学習(RL)は自動車の自律性向上に顕著な業績を示している。 その点において、広く採用されているMFRL(Model-Free RL)は、コネクテッドAV(CAV)における意思決定タスクの解決を約束している。 それでも、実際には実現不可能であり、おそらく不安定な学習につながるかもしれない。 対照的に、モデルベースRL(MBRL)は、サンプル効率のよい学習で現れているが、MBRLの漸近性能は最先端のMFRLアルゴリズムより遅れる可能性がある。 さらに、CAVのほとんどの研究は単一のAVのみの意思決定に限られており、通信の欠如により性能が低下している。 本研究では,複数のCAVを限られた通信で決定する問題に対処し,トラジェクティブサンプリングアルゴリズムMA-PETSを用いた分散マルチエージェント確率アンサンブルを提案する。 特に、未知の環境の不確実性をより正確に把握するために、MA-PETSは確率的アンサンブル(PE)ニューラルネットワークを活用して、近隣のCAV間の通信サンプルから学習する。 その後、MA-PETSは、意思決定のためのトラジェクトリサンプリング(TS)ベースのモデル予測制御を開発する。 本研究では,コミュニケーション範囲内のエージェント数に影響されたマルチエージェント群の後悔を導出し,エージェント間の効果的な情報交換を多エージェント学習方式に組み込むことが,最悪の場合におけるグループ後悔の軽減に寄与することを数学的に検証する。 最後に,MFBLに匹敵する試料効率でMA-PETSの優位性を実証的に示す。

Autonomous Vehicles (AVs) have attracted significant attention in recent years and Reinforcement Learning (RL) has shown remarkable performance in improving the autonomy of vehicles. In that regard, the widely adopted Model-Free RL (MFRL) promises to solve decision-making tasks in connected AVs (CAVs), contingent on the readiness of a significant amount of data samples for training. Nevertheless, it might be infeasible in practice and possibly lead to learning instability. In contrast, Model-Based RL (MBRL) manifests itself in sample-efficient learning, but the asymptotic performance of MBRL might lag behind the state-of-the-art MFRL algorithms. Furthermore, most studies for CAVs are limited to the decision-making of a single AV only, thus underscoring the performance due to the absence of communications. In this study, we try to address the decision-making problem of multiple CAVs with limited communications and propose a decentralized Multi-Agent Probabilistic Ensembles with Trajectory Sampling algorithm MA-PETS. In particular, in order to better capture the uncertainty of the unknown environment, MA-PETS leverages Probabilistic Ensemble (PE) neural networks to learn from communicated samples among neighboring CAVs. Afterwards, MA-PETS capably develops Trajectory Sampling (TS)-based model-predictive control for decision-making. On this basis, we derive the multi-agent group regret bound affected by the number of agents within the communication range and mathematically validate that incorporating effective information exchange among agents into the multi-agent learning scheme contributes to reducing the group regret bound in the worst case. Finally, we empirically demonstrate the superiority of MA-PETS in terms of the sample efficiency comparable to MFBL.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# 学習支援確率的容量拡張計画:ベイズ最適化アプローチ

Learning-assisted Stochastic Capacity Expansion Planning: A Bayesian Optimization Approach ( http://arxiv.org/abs/2401.10451v4 )

ライセンス: Link先を確認
Aron Brenner, Rahman Khorramfar, Dharik Mallapragada, Saurabh Amin, (参考訳) 大規模容量拡大問題(CEP)の解決は、地域規模のエネルギーシステムのコスト効率の高い脱炭の中心である。 CEPの意図した結果を保証するため、気象に依存した可変再生可能エネルギー(VRE)の供給とエネルギー需要による不確実性をモデル化することが重要である。 しかし、結果として生じる確率的最適化モデルは、決定論的モデルよりも計算能力が低いことが多い。 本稿では,2段階確率CEPを抽出可能な学習支援近似解法を提案する。 提案手法は, トラクタブルな時間的集約型サロゲート問題の列を構築し, 解決することで, 低コストな計画決定を導出する。 我々は、時系列集約ハイパーパラメータの空間を探索するベイズ最適化手法を採用し、供給需要予測の検証セットにおけるコストを最小限に抑える近似解を計算する。 重要なことは、テスト予測の保留セットにおいて、解決された計画結果を評価することである。 我々は,ニューイングランドにまたがるジョイントパワーガスシステムの発電・送電拡張計画に,我々のアプローチを適用した。 提案手法では,ベンチマーク時系列集計手法と比較して最大3.8%のコスト削減が期待できる。

Solving large-scale capacity expansion problems (CEPs) is central to cost-effective decarbonization of regional-scale energy systems. To ensure the intended outcomes of CEPs, modeling uncertainty due to weather-dependent variable renewable energy (VRE) supply and energy demand becomes crucially important. However, the resulting stochastic optimization models are often less computationally tractable than their deterministic counterparts. Here, we propose a learning-assisted approximate solution method to tractably solve two-stage stochastic CEPs. Our method identifies low-cost planning decisions by constructing and solving a sequence of tractable temporally aggregated surrogate problems. We adopt a Bayesian optimization approach to searching the space of time series aggregation hyperparameters and compute approximate solutions that minimize costs on a validation set of supply-demand projections. Importantly, we evaluate solved planning outcomes on a held-out set of test projections. We apply our approach to generation and transmission expansion planning for a joint power-gas system spanning New England. We show that our approach yields an estimated cost savings of up to 3.8% in comparison to benchmark time series aggregation approaches.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# Bribe & Fork: 偽造の脅威による盗難事件

Bribe & Fork: Cheap Bribing Attacks via Forking Threat ( http://arxiv.org/abs/2402.01363v2 )

ライセンス: Link先を確認
Zeta Avarikioti, Paweł Kędzior, Tomasz Lizurej, Tomasz Michalak, (参考訳) そこでは,ブロックチェーンマイナに対して,特定のトランザクションを意図的に無視してPCNの罰則を損なうように促す攻撃に対して,ペイメントチャネルネットワーク(PCN)の脆弱性を再検討する。 これまでの研究では、このような攻撃の禁止費用が提案されているが、このコストは劇的に削減される可能性がある(約125ドル)。 この目的のために、我々はBrib & Forkを導入し、これはいわゆる羽のフォークの脅威を利用して、フォークによるマイニングゲームのための新しいフォーマルモデルを用いて分析するブリビング攻撃である。 このコスト削減の規模を評価するために、実世界のブロックチェーン実装の履歴データを実証的に分析する。 われわれの調査結果は、PCNの潜在的な脆弱性に光を当て、堅牢なソリューションの必要性を強調した。

In this work, we reexamine the vulnerability of Payment Channel Networks (PCNs) to bribing attacks, where an adversary incentivizes blockchain miners to deliberately ignore a specific transaction to undermine the punishment mechanism of PCNs. While previous studies have posited a prohibitive cost for such attacks, we show that this cost may be dramatically reduced (to approximately \$125), thereby increasing the likelihood of these attacks. To this end, we introduce Bribe & Fork, a modified bribing attack that leverages the threat of a so-called feather fork which we analyze with a novel formal model for the mining game with forking. We empirically analyze historical data of some real-world blockchain implementations to evaluate the scale of this cost reduction. Our findings shed more light on the potential vulnerability of PCNs and highlight the need for robust solutions.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# Robust-Wide: インストラクション駆動画像編集に対するロバストなウォーターマーキング

Robust-Wide: Robust Watermarking against Instruction-driven Image Editing ( http://arxiv.org/abs/2402.12688v3 )

ライセンス: Link先を確認
Runyi Hu, Jie Zhang, Ting Xu, Jiwei Li, Tianwei Zhang, (参考訳) インストラクション駆動の画像編集により、ユーザはフォワードパスでテキスト命令に従って画像を素早く編集できる。 それでも悪意のあるユーザーは、この技術を利用して偽画像を作成することができるため、信頼の危機を招き、元の画像所有者の権利を損なう可能性がある。 ウォーターマーキングはこのような悪意のある行動を辿る一般的な方法である。 残念ながら、命令駆動による画像編集は、意味レベルでウォーターマークされた画像を著しく変更し、現在の最先端のウォーターマーク法を効果的にしない。 そこで本研究では,命令駆動画像編集に対する堅牢な透かし手法であるRobust-Wideを提案する。 具体的には、エンコーダ、ノイズ層、デコーダから構成されるディープロバストな透かしの古典的な構造に従う。 意味歪みに対するロバスト性を実現するために,多種多様なインジェクションインジェクションと,異なる意味レベルにおける画像の実質的な修正を含む,新しい部分命令駆動型Denoising Smpling Guidance (PIDSG) モジュールを導入する。 PIDSGでは、エンコーダはより堅牢でセマンティックな領域に透かしを埋め込む傾向がある。 実験により、ロバスト・ウェイドは64ビットの透かしメッセージに対して2.6%の低ビット誤り率で編集画像から透かしを効果的に抽出できることが示されている。 一方、オリジナル画像の視覚的品質と編集性には無視可能な影響しか生じない。 さらに、Robust-Wideは、異なるサンプリング構成や、ControlNet-InstructPix2Pix、MagicBrush、Inpainting、DDIM Inversionといった一般的な画像編集方法に対して、一般的な堅牢性を持っている。 コードとモデルはhttps://github.com/hurunyi/Robust-Wide.comで公開されている。

Instruction-driven image editing allows users to quickly edit an image according to text instructions in a forward pass. Nevertheless, malicious users can easily exploit this technique to create fake images, which could cause a crisis of trust and harm the rights of the original image owners. Watermarking is a common solution to trace such malicious behavior. Unfortunately, instruction-driven image editing can significantly change the watermarked image at the semantic level, making current state-of-the-art watermarking methods ineffective. To remedy it, we propose Robust-Wide, the first robust watermarking methodology against instruction-driven image editing. Specifically, we follow the classic structure of deep robust watermarking, consisting of the encoder, noise layer, and decoder. To achieve robustness against semantic distortions, we introduce a novel Partial Instruction-driven Denoising Sampling Guidance (PIDSG) module, which consists of a large variety of instruction injections and substantial modifications of images at different semantic levels. With PIDSG, the encoder tends to embed the watermark into more robust and semantic-aware areas, which remains in existence even after severe image editing. Experiments demonstrate that Robust-Wide can effectively extract the watermark from the edited image with a low bit error rate of nearly 2.6% for 64-bit watermark messages. Meanwhile, it only induces a neglectable influence on the visual quality and editability of the original images. Moreover, Robust-Wide holds general robustness against different sampling configurations and other popular image editing methods such as ControlNet-InstructPix2Pix, MagicBrush, Inpainting, and DDIM Inversion. Codes and models are available at https://github.com/hurunyi/Robust-Wide.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# L-BFGS-Bアプローチによる$\ell_1$-およびgroup-Lasso正則化に基づく線形および非線形システム同定

An L-BFGS-B approach for linear and nonlinear system identification under $\ell_1$- and group-Lasso regularization ( http://arxiv.org/abs/2403.03827v2 )

ライセンス: Link先を確認
Alberto Bemporad, (参考訳) 本稿では,L-BFGS-Bアルゴリズムを用いて線形および非線形離散時間状態空間モデルを同定する手法を提案する。 線形モデルの同定において、古典線形部分空間法と比較して、この手法はより良い結果を与えることが多く、使用する損失項や正規化項(系の安定性を強制するペナルティなど)に関してより一般的であり、数値的な観点からもより安定であることを示す。 提案手法は,既存の線形システム同定ツールの集合を充実させるだけでなく,繰り返しニューラルネットワークを含むパラメトリック非線形状態空間モデルの非常に広いクラスを同定するためにも適用可能である。 本稿では, 合成および実験用データセットのアプローチを説明し, 非線形多入出力・複数出力システム同定のための産業用ロボットベンチマークの課題を解決するために応用する。 提案された識別メソッドのPython実装は、jax-sysidパッケージで利用可能であり、https://github.com/bemporad/jax-sysidで入手できる。

In this paper, we propose a very efficient numerical method based on the L-BFGS-B algorithm for identifying linear and nonlinear discrete-time state-space models, possibly under $\ell_1$- and group-Lasso regularization for reducing model complexity. For the identification of linear models, we show that, compared to classical linear subspace methods, the approach often provides better results, is much more general in terms of the loss and regularization terms used (such as penalties for enforcing system stability), and is also more stable from a numerical point of view. The proposed method not only enriches the existing set of linear system identification tools but can also be applied to identifying a very broad class of parametric nonlinear state-space models, including recurrent neural networks. We illustrate the approach on synthetic and experimental datasets and apply it to solve a challenging industrial robot benchmark for nonlinear multi-input/multi-output system identification. A Python implementation of the proposed identification method is available in the package jax-sysid, available at https://github.com/bemporad/jax-sysid.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# 高臨場感無線画像伝送のための拡散支援ジョイントソースチャネル符号化

Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission ( http://arxiv.org/abs/2404.17736v2 )

ライセンス: Link先を確認
Mingyu Yang, Bowen Liu, Boyang Wang, Hun-Seok Kim, (参考訳) 深層学習に基づくジョイントソースチャネル符号化(ディープJSCC)は,無線画像伝送に有効な手法であることが示されている。 しかしながら、既存のほとんどの研究では、Mean Squared Error(MSE)やStructure similarity Index(SSIM)といった、再構成画像の知覚品質を維持するのに十分でない従来の基準を最適化するオートエンコーダフレームワークを採用している。 このような問題は、厳密な帯域制限や低信号対雑音比(SNR)条件下でより顕著である。 DiffJSCCは,事前学習した統計拡散モデルの事前知識を利用して,条件付き拡散復調プロセスを通じて高現実性画像を生成する新しいフレームワークである。 我々のDiffJSCCは、生成フェーズにおけるノイズチャネルシンボルから、まずマルチモーダルな空間的特徴とテキスト的特徴を抽出する。 そして、ロバストな特徴抽出と安定した訓練プロセスを支援するために、中間表現として初期再構成画像を生成する。 次の拡散ステップでは、DiffJSCCは、導出したマルチモーダル特徴と、信号対雑音比(SNR)などのチャネル状態情報とを、初期ランダムノイズを最終再構成に変換する復調拡散過程の導出条件として利用する。 DiffJSCCは、安定拡散モデルを微調整し、マルチモーダル条件に調整するために、新しい制御モジュールを使用している。 多様なデータセットに対する広範囲な実験により,本手法は知覚的メトリクスと下流タスク性能の両方において,従来のJSCCアプローチをはるかに上回り,元の送信画像のセマンティクスを保存できることが判明した。 特に、DiffJSCCは、768x512ピクセルのKodak画像に対して、1dB SNRチャネル下で3072のシンボル(<0.008のシンボル)しか持たない非常に現実的な再構成を行うことができる。

Deep learning-based joint source-channel coding (deep JSCC) has been demonstrated to be an effective approach for wireless image transmission. Nevertheless, most existing work adopts an autoencoder framework to optimize conventional criteria such as Mean Squared Error (MSE) and Structural Similarity Index (SSIM) which do not suffice to maintain the perceptual quality of reconstructed images. Such an issue is more prominent under stringent bandwidth constraints or low signal-to-noise ratio (SNR) conditions. To tackle this challenge, we propose DiffJSCC, a novel framework that leverages the prior knowledge of the pre-trained Statble Diffusion model to produce high-realism images via the conditional diffusion denoising process. Our DiffJSCC first extracts multimodal spatial and textual features from the noisy channel symbols in the generation phase. Then, it produces an initial reconstructed image as an intermediate representation to aid robust feature extraction and a stable training process. In the following diffusion step, DiffJSCC uses the derived multimodal features, together with channel state information such as the signal-to-noise ratio (SNR), as conditions to guide the denoising diffusion process, which converts the initial random noise to the final reconstruction. DiffJSCC employs a novel control module to fine-tune the Stable Diffusion model and adjust it to the multimodal conditions. Extensive experiments on diverse datasets reveal that our method significantly surpasses prior deep JSCC approaches on both perceptual metrics and downstream task performance, showcasing its ability to preserve the semantics of the original transmitted images. Notably, DiffJSCC can achieve highly realistic reconstructions for 768x512 pixel Kodak images with only 3072 symbols (<0.008 symbols per pixel) under 1dB SNR channels.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# 原子冷却用全繊維近赤外780nmレーザーシステム

All-fiber, near-infrared, laser system at 780nm for atom cooling ( http://arxiv.org/abs/2405.12770v2 )

ライセンス: Link先を確認
Matteo Marchesini, Michelangelo Dondi, Leonardo Rossi, Gabriele Bolognini, Marco Prevedelli, Francesco Minardi, (参考訳) 量子技術の顕著なプラットフォームの一つとして、コールド原子は信頼できるレーザーシステムを必要とする。 本報告では, 繊維部品をベースとした, 単純でコンパクトで経済的なレーザシステムの設計, 実装, 特性を780nmで示す。 1560nmの2つの半導体レーザーは、1つのエルビウムドープファイバ増幅器で増幅され、周期的に置換されたニオブ酸リチウム結晶で周波数が倍になる。 レーザの振幅雑音と直線幅とSHG効率を特徴付ける。 1MHz以下で3$\times$10$^{-4}$の相対振幅雑音で、Rb原子の冷却とトラップに適している。

One of the prominent platforms for quantum technologies, cold atoms require reliable laser systems. We present the design, implementation, and characterization of a simple, compact, and economical laser system at 780 nm, entirely based on fiber components. Two semiconductor lasers at 1560 nm are amplified in a single Erbium-doped fiber amplifier and frequency-doubled in a periodically-poled lithium niobate crystal. We characterize the amplitude noise and the linewidths of the lasers, as well as the SHG efficiency. With a rms relative amplitude noise of 3$\times$10$^{-4}$ at 1 s and linewidths below 1 MHz, our system is suitable for cooling and trapping of Rb atoms.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# BISON:ステートレススクラップ擬似語を用いたブラインド同定

BISON: Blind Identification with Stateless scOped pseudoNyms ( http://arxiv.org/abs/2406.01518v2 )

ライセンス: Link先を確認
Jakob Heher, Stefan More, Lena Heimberger, (参考訳) GoogleやFacebookのような認証プロバイダに認証を委譲することは便利だが、ユーザーのプライバシーを侵害する。 これらのIDプロバイダは、ユーザのすべての動きを記録することができる。 Oblivious Pseudorandom関数にインスパイアされたBISONの仮称派生プロトコルを提示することで、どちらも必要悪ではないことを示す。 サービスプロバイダのIDをIDプロバイダから隠しますが、信頼され、スコープ化され、不変の偽名を生成します。 協調サービスプロバイダは、BISONの匿名をリンクできない。 BISONはユーザーデバイスに長期間の状態を必要とせず、認証プロセスにアクターを追加する必要はない。 BISONは実用的です。 理解、実装、推論が容易で、既存の認証プロトコルに統合するように設計されています。 これを示すために,OIDC の PPID を BISON を用いて導出する OpenID Connect 拡張を提供する。 さらに、BISONは軽量暗号を使用している。 擬似関数の導出には、楕円曲線のスカラー点乗算と4つのハッシュ関数の評価が必要である。 したがって、BISONのプライバシー保証は実際に実現できる。 これにより、BISONは明日のプライバシーを守るインターネットへの重要な一歩となる。

Delegating authentication to identity providers like Google or Facebook, while convenient, compromises user privacy. These identity providers can record users' every move; the global identifiers they provide also enable internet-wide tracking. We show that neither is a necessary evil by presenting the BISON pseudonym derivation protocol, inspired by Oblivious Pseudorandom Functions. It hides the service provider's identity from the identity provider yet produces a trusted, scoped, immutable pseudonym. Colluding service providers cannot link BISON pseudonyms; this prevents user tracking. BISON does not require a long-lived state on the user device and does not add additional actors to the authentication process. BISON is practical. It is easy to understand, implement, and reason about, and is designed to integrate into existing authentication protocols. To demonstrate this, we provide an OpenID Connect extension that allows OIDC's PPID pseudonyms to be derived using BISON. Additionally, BISON uses lightweight cryptography. Pseudonym derivation requires a total of four elliptic curve scalar-point multiplications and four hash function evaluations, taking ~3 ms in our proof of concept implementation. Thus, BISON's privacy guarantees can be realized in practice. This makes BISON a crucial stepping stone towards the privacy-preserving internet of tomorrow.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# オープンバウンダリ駆動量子回路の積分性

Integrability of open boundary driven quantum circuits ( http://arxiv.org/abs/2406.12695v2 )

ライセンス: Link先を確認
Chiara Paletta, Tomaž Prosen, (参考訳) 本稿では,2つの回路レプリカが左右境界でのみ結合される開放境界条件で,量子ビット(スピン1/2)の二重量子回路のヤン・バクスター積分性の問題に対処する。 バルクが自由フェルミオンXX型と相互作用するXXZ型のいずれかの6頂点ユニタリゲートによって与えられる場合について検討した。 スクリアニンの反射代数の構成を用いることで、そのようなセットアップのために境界ヤン・バクスター方程式の最も一般的な解を得る。 この解を用いて、2ステップの離散時間Floquet(いわゆるブリックワーク)ダイナミクスを持つ変換行列形式から積分可能な回路を構築する。 バルクが自由モデルである場合に限って、境界行列は一般には非分解可能であり、自由パラメータの選択は2つの鎖間の境界相互作用を持つ非自明なユニタリダイナミクスをもたらすことを証明している。 そして、連続時間進化の極限を考察し、リンドブラディアン設定における境界項の制限された集合の解釈を与える。 具体的には、自由パラメータの特定の選択に対して、解はスピン鎖の境界から粒子を注入または除去する元項を表す開量子系力学に対応する。

In this paper, we address the problem of Yang-Baxter integrability of doubled quantum circuit of qubits (spins 1/2) with open boundary conditions where the two circuit replicas are only coupled at the left or right boundary. We investigate the cases where the bulk is given by elementary six vertex unitary gates of either the free fermionic XX type or interacting XXZ type. By using the Sklyanin's construction of reflection algebra, we obtain the most general solutions of the boundary Yang-Baxter equation for such a setup. We use this solution to build, from the transfer matrix formalism, integrable circuits with two step discrete time Floquet (aka brickwork) dynamics. We prove that, only if the bulk is a free-model, the boundary matrices are in general non-factorizable, and for particular choice of free parameters yield non-trivial unitary dynamics with boundary interaction between the two chains. Then, we consider the limit of continuous time evolution and we give the interpretation of a restricted set of the boundary terms in the Lindbladian setting. Specifically, for a particular choice of free parameters, the solutions correspond to an open quantum system dynamics with the source terms representing injecting or removing particles from the boundary of the spin chain.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# KESIC: スマート,IoT,CPSデバイス用のKerberosエクステンション

KESIC: Kerberos Extensions for Smart, IoT and CPS Devices ( http://arxiv.org/abs/2407.04880v2 )

ライセンス: Link先を確認
Renascence Tarafder Prapty, Sashidhar Jakkamsetti, Gene Tsudik, (参考訳) セキュアで効率的なマルチユーザアクセスメカニズムは、今日のIoT(Internet of Things)デバイスの増加にとってますます重要になっている。 Kerberosは、分散システムのセキュリティ認証とアクセス制御システムとしてよく知られており、多くのユーザが様々な分散サービスに安全にアクセスしている。 伝統的に、これらのサービスはプリンタのようなソフトウェアアプリケーションやデバイスである。 しかし、Kerberosは比較的重いプロトコルとリソース制約のあるデバイスの性質のため、IoTデバイスに直接適していない。 本稿では,IoTデバイスのマルチユーザアクセスを効率的かつセキュアにするためのシステムであるKESICを提案する。 KESICは、Kerberosを通じてIoTデバイスとユーザの相互認証を容易にすることを目的としており、後者のプロトコルを変更することはない。 これを容易にするため、KESICにはIoTデバイスへのアクセスを管理するIoT Serverと呼ばれる特別なKerberizedサービスが含まれている。 KESICは2種類のIoTデバイスに対して、セキュアで包括的なマルチユーザアクセスシステムのための2つのプロトコルを提供する。 パフォーマンス面では、KESICは、$\approx~47$のメモリを仮定し、$\approx~135$のランタイムオーバーヘッドをKerberosより低くする。

Secure and efficient multi-user access mechanisms are increasingly important for the growing number of Internet of Things (IoT) devices being used today. Kerberos is a well-known and time-tried security authentication and access control system for distributed systems wherein many users securely access various distributed services. Traditionally, these services are software applications or devices, such as printers. However, Kerberos is not directly suitable for IoT devices due to its relatively heavy-weight protocols and the resource-constrained nature of the devices. This paper presents KESIC, a system that enables efficient and secure multi-user access for IoT devices. KESIC aims to facilitate mutual authentication of IoT devices and users via Kerberos without modifying the latter's protocols. To facilitate that, KESIC includes a special Kerberized service, called IoT Server, that manages access to IoT devices. KESIC presents two protocols for secure and comprehensive multi-user access system for two types of IoT devices: general and severely power constrained. In terms of performance, KESIC onsumes $\approx~47$ times less memory, and incurs $\approx~135$ times lower run-time overhead than Kerberos.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# 機械学習による金属-有機系のプロトン伝導率予測

Machine Learning Based Prediction of Proton Conductivity in Metal-Organic Frameworks ( http://arxiv.org/abs/2407.09514v2 )

ライセンス: Link先を確認
Seunghee Han, Byeong Gwan Lee, Dae Woon Lim, Jihan Kim, (参考訳) 近年, 金属-有機組織(MOF)は, プロトン交換膜燃料電池の固体電解質としての可能性を示している。 しかし、プロトン伝導性を示すと報告されたMOFの数は限られており、この現象のメカニズムは完全に解明されておらず、プロトン伝導性MOFの設計を複雑にしている。 そこで我々は,プロトン導電性MOFの包括的なデータベースを構築し,そのプロトン導電性を予測するために機械学習技術を適用した。 私たちのアプローチには、ディスクリプタベースとトランスフォーマーベースの両方のモデルの構築が含まれています。 特に,変圧器を用いた伝達学習(Freeze)モデルでは平均絶対誤差(MAE)が0.91であり,MOFの陽子伝導率を1桁以内で推定できることが示唆された。 さらに, プロトン伝導率に影響を与える因子を探索するために, 特徴重要度と主成分分析を用いた。 我々のデータベースと機械学習モデルから得られた知見は、プロトン伝導型MOFのターゲット設計を促進することが期待されている。

Recently, metal-organic frameworks (MOFs) have demonstrated their potential as solid-state electrolytes in proton exchange membrane fuel cells. However, the number of MOFs reported to exhibit proton conductivity remains limited, and the mechanisms underlying this phenomenon are not fully elucidated, complicating the design of proton-conductive MOFs. In response, we developed a comprehensive database of proton-conductive MOFs and applied machine learning techniques to predict their proton conductivity. Our approach included the construction of both descriptor-based and transformer-based models. Notably, the transformer-based transfer learning (Freeze) model performed the best with a mean absolute error (MAE) of 0.91, suggesting that the proton conductivity of MOFs can be estimated within one order of magnitude using this model. Additionally, we employed feature importance and principal component analysis to explore the factors influencing proton conductivity. The insights gained from our database and machine learning model are expected to facilitate the targeted design of proton-conductive MOFs.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# 低レイテンシ推論における知識向上

Knowledge boosting during low-latency inference ( http://arxiv.org/abs/2407.11055v2 )

ライセンス: Link先を確認
Vidya Srinivas, Malek Itani, Tuochao Chen, Emre Sefik Eskimez, Takuya Yoshioka, Shyamnath Gollakota, (参考訳) 低レイテンシのストリーミングアプリケーションは、より大きなモデルの知識能力の恩恵を受けることができるが、エッジデバイスはリソース制約のためにこれらのモデルを実行できない。 可能な解決策は、リモートで実行される大きなモデルからデバイス上で実行される小さなモデルへの推論中にヒントを転送することである。 しかし、これはリアルタイムの要求を破る通信遅延を引き起こし、両方のモデルが同時に同じデータ上で動作することを保証しない。 提案手法は,大規模モデルを推論中に時間遅延入力で動作させながら,小型モデルの性能を向上する新しい手法であるナレッジ・ブーイングを提案する。 8msのチャンクを処理するストリーミングニューラルネットワークを用いて、最大6チャンクまたは48msの通信遅延を伴う異なる音声分離および強化タスクを評価し、この結果から、小型モデルと大規模モデルのパフォーマンスギャップが広くなる大きなゲインを示し、低レイテンシアプリケーションのための大規模モデルコラボレーションのための有望な方法を示す。 コード、データセット、オーディオサンプルはhttps://knowledgeboosting.cs.washington.edu/で公開されている。

Models for low-latency, streaming applications could benefit from the knowledge capacity of larger models, but edge devices cannot run these models due to resource constraints. A possible solution is to transfer hints during inference from a large model running remotely to a small model running on-device. However, this incurs a communication delay that breaks real-time requirements and does not guarantee that both models will operate on the same data at the same time. We propose knowledge boosting, a novel technique that allows a large model to operate on time-delayed input during inference, while still boosting small model performance. Using a streaming neural network that processes 8 ms chunks, we evaluate different speech separation and enhancement tasks with communication delays of up to six chunks or 48 ms. Our results show larger gains where the performance gap between the small and large models is wide, demonstrating a promising method for large-small model collaboration for low-latency applications. Code, dataset, and audio samples available at https://knowledgeboosting.cs.washington.edu/.
翻訳日:2024-07-19 03:51:44 公開日:2024-07-17
# Pack and Detect:Rerea-of-interest Packingを用いたビデオにおける高速物体検出

Pack and Detect: Fast Object Detection in Videos Using Region-of-Interest Packing ( http://arxiv.org/abs/1809.01701v5 )

ライセンス: Link先を確認
Athindran Ramesh Kumar, Balaraman Ravindran, Anand Raghunathan, (参考訳) ビデオにおけるオブジェクト検出は、オブジェクト追跡、ビデオ要約、ビデオ検索などの様々なアプリケーションにおいて、コンピュータビジョンにおいて重要なタスクである。 近年、ディープニューラルネットワークの出現により、物体検出の精度が向上しているにもかかわらず、最先端のアルゴリズムは非常に計算集約的である。 この課題に対処するために、ビデオの文脈で2つの重要な観察を行う。 i) オブジェクトは、各ビデオフレーム内の領域のごく一部しか占有せず、 (II)連続フレーム間の強い時間相関の可能性が高い。 これらの観測に基づいて,ビデオにおける物体検出の計算要求を低減させるPaD(Pack and Detect)を提案する。 PaDでは、アンカーフレームと呼ばれる選択されたビデオフレームのみがフルサイズで処理される。 アンカーフレーム間(アンカーフレーム間)にあるフレームでは、前フレームの検知に基づいて関心領域(ROI)を特定する。 本稿では,各アンカーフレームのROIを縮小サイズフレームにまとめるアルゴリズムを提案する。 検出器の計算要求は、入力のサイズが小さくなるため減少する。 オブジェクト検出の精度を維持するため、提案アルゴリズムはROIを優しく拡張し、各オブジェクトの周囲に追加の背景を提供する。 PaDは、基盤となるニューラルネットワークアーキテクチャを使用して、フルサイズおよび縮小サイズのフレームを処理することができる。 ImageNetのビデオオブジェクト検出データセットを使用した実験は、PaDがフレームに必要なFLOPSの数を4\times$で削減できることを示している。 これにより、NVIDIA Titan X GPUを搭載した2.1GHzのIntel Xeonサーバでは、スループットが1.25\times$1.25\times$で、精度は1.1\%低下する。

Object detection in videos is an important task in computer vision for various applications such as object tracking, video summarization and video search. Although great progress has been made in improving the accuracy of object detection in recent years due to the rise of deep neural networks, the state-of-the-art algorithms are highly computationally intensive. In order to address this challenge, we make two important observations in the context of videos: (i) Objects often occupy only a small fraction of the area in each video frame, and (ii) There is a high likelihood of strong temporal correlation between consecutive frames. Based on these observations, we propose Pack and Detect (PaD), an approach to reduce the computational requirements of object detection in videos. In PaD, only selected video frames called anchor frames are processed at full size. In the frames that lie between anchor frames (inter-anchor frames), regions of interest (ROIs) are identified based on the detections in the previous frame. We propose an algorithm to pack the ROIs of each inter-anchor frame together into a reduced-size frame. The computational requirements of the detector are reduced due to the lower size of the input. In order to maintain the accuracy of object detection, the proposed algorithm expands the ROIs greedily to provide additional background around each object to the detector. PaD can use any underlying neural network architecture to process the full-size and reduced-size frames. Experiments using the ImageNet video object detection dataset indicate that PaD can potentially reduce the number of FLOPS required for a frame by $4\times$. This leads to an overall increase in throughput of $1.25\times$ on a 2.1 GHz Intel Xeon server with a NVIDIA Titan X GPU at the cost of $1.1\%$ drop in accuracy.
翻訳日:2024-07-19 00:05:30 公開日:2024-07-17
# $k$-NNレグレッションにおける$k$の選択のための最小不一致原理戦略

Minimum discrepancy principle strategy for choosing $k$ in $k$-NN regression ( http://arxiv.org/abs/2008.08718v8 )

ライセンス: Link先を確認
Yaroslav Averyanov, Alain Celisse, (参考訳) ホールドアウトデータを使わずに、$k$-NN回帰推定器でハイパーパラメータ$k$を選択するための新しいデータ駆動戦略を提案する。 我々は,ハイパーパラメータを反復的手順 ($k$以上) として選択する問題を扱い,早期停止の考え方と最小差分原理に基づく実践的戦略を用いて提案する。 このモデル選択戦略は、いくつかの滑らかな函数クラス、例えば有界領域上のリプシッツ函数クラスに対してミニマックス最適であることが証明されている。 この手法は、ホールドアウト法や5倍のクロスバリデーション、AIC基準など、他のモデル選択手法と比較して、人工的および実世界のデータセットの統計性能を向上することが多い。 戦略の新規性は、モデル選択手順の計算時間を減少させ、結果の推定器の統計的(最小限)最適性を保存することから生じる。 より正確には、サイズ$n$のサンプルとして$k$を$\left\{ 1, \ldots, n \right\}$と$\left\{ f^1, \ldots, f^n \right\}$の中から選ぶとすれば、最小の離散性原理は回帰関数の近似器であり、最小の離散性原理は推定器の分数の計算を必要とする。

We present a novel data-driven strategy to choose the hyperparameter $k$ in the $k$-NN regression estimator without using any hold-out data. We treat the problem of choosing the hyperparameter as an iterative procedure (over $k$) and propose using an easily implemented in practice strategy based on the idea of early stopping and the minimum discrepancy principle. This model selection strategy is proven to be minimax-optimal over some smoothness function classes, for instance, the Lipschitz functions class on a bounded domain. The novel method often improves statistical performance on artificial and real-world data sets in comparison to other model selection strategies, such as the Hold-out method, 5-fold cross-validation, and AIC criterion. The novelty of the strategy comes from reducing the computational time of the model selection procedure while preserving the statistical (minimax) optimality of the resulting estimator. More precisely, given a sample of size $n$, if one should choose $k$ among $\left\{ 1, \ldots, n \right\}$, and $\left\{ f^1, \ldots, f^n \right\}$ are the estimators of the regression function, the minimum discrepancy principle requires the calculation of a fraction of the estimators, while this is not the case for the generalized cross-validation, Akaike's AIC criteria, or Lepskii principle.
翻訳日:2024-07-19 00:05:30 公開日:2024-07-17
# WildDeepfake: ディープフェイク検出のためのリアルタイムデータセット

WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection ( http://arxiv.org/abs/2101.01456v2 )

ライセンス: Link先を確認
Bojia Zi, Minghao Chang, Jingjing Chen, Xingjun Ma, Yu-Gang Jiang, (参考訳) 近年、ディープフェイクと呼ばれるフェイススワップ技術が乱用され、公衆の懸念が高まっている。 これまで多くのディープフェイクビデオ(ディープフェイクとして知られる)が制作され、インターネットにアップロードされ、効果的な対策が求められてきた。 ディープフェイク対策の1つはディープフェイク検出である。 DeepfakeDetectionやFaceForensics++といったディープフェイク検出のトレーニングとテストをサポートするために、いくつかのディープフェイクデータセットがリリースされた。 これはディープフェイク検出を大幅に進歩させたものだが、これらのデータセットの実際のビデオのほとんどは、限られたシーンで一部のボランティアアクターと撮影され、偽のビデオは、人気のあるディープフェイクソフトウェアを使って研究者によって制作されている。 これらのデータセット上で開発された検出器は、インターネット上の現実世界のディープフェイクに対して効果が低下する可能性がある。 本稿では,実世界のディープフェイク検出を支援するために,インターネットから完全に収集した707個のディープフェイクビデオから抽出した7,314個の顔シーケンスからなる新しいデータセットWildDeepfakeを提案する。 WildDeepfakeは、既存のデータセットに加えて、現実世界のディープフェイクに対するディープフェイク検出の有効性の開発とテストに使用できる小さなデータセットである。 既存のWildDeepfakeデータセットと我々のWildDeepfakeデータセットのベースライン検出ネットワークを体系的に評価し、WildDeepfakeが実際により困難なデータセットであることを示す。 また,2つの注意型Deepfake Detection Networks (ADDNets) を提案する。 ADDNetsが既存のデータセットとWildDeepfakeの両方に与える影響を実証的に検証する。 データセットは、https://github.com/OpenTAI/wild-deepfake.comで公開されている。

In recent years, the abuse of a face swap technique called deepfake has raised enormous public concerns. So far, a large number of deepfake videos (known as "deepfakes") have been crafted and uploaded to the internet, calling for effective countermeasures. One promising countermeasure against deepfakes is deepfake detection. Several deepfake datasets have been released to support the training and testing of deepfake detectors, such as DeepfakeDetection and FaceForensics++. While this has greatly advanced deepfake detection, most of the real videos in these datasets are filmed with a few volunteer actors in limited scenes, and the fake videos are crafted by researchers using a few popular deepfake softwares. Detectors developed on these datasets may become less effective against real-world deepfakes on the internet. To better support detection against real-world deepfakes, in this paper, we introduce a new dataset WildDeepfake which consists of 7,314 face sequences extracted from 707 deepfake videos collected completely from the internet. WildDeepfake is a small dataset that can be used, in addition to existing datasets, to develop and test the effectiveness of deepfake detectors against real-world deepfakes. We conduct a systematic evaluation of a set of baseline detection networks on both existing and our WildDeepfake datasets, and show that WildDeepfake is indeed a more challenging dataset, where the detection performance can decrease drastically. We also propose two (eg. 2D and 3D) Attention-based Deepfake Detection Networks (ADDNets) to leverage the attention masks on real/fake faces for improved detection. We empirically verify the effectiveness of ADDNets on both existing datasets and WildDeepfake. The dataset is available at: https://github.com/OpenTAI/wild-deepfake.
翻訳日:2024-07-19 00:05:30 公開日:2024-07-17
# 実最大流計算のためのReLUニューラルネット

ReLU Neural Networks of Polynomial Size for Exact Maximum Flow Computation ( http://arxiv.org/abs/2102.06635v5 )

ライセンス: Link先を確認
Christoph Hertrich, Leon Sering, (参考訳) 本稿では,線形整流ユニットを用いたニューラルネットワークの表現力について検討する。 実数値計算のモデルとして研究するために,Max-Affine Arithmetic Programsの概念を導入し,自然複雑性測定に関するニューラルネットワークとの等価性を示す。 この結果を用いて、多項式サイズのニューラルネットワークで2つの基本組合せ最適化問題を解くことができることを示す。 まず、$n$のノードを持つ任意の非方向グラフに対して、エッジウェイトを入力として取り、グラフの最小スパンニングツリーの値を計算する大きさ$\mathcal{O}(n^3)$のニューラルネットワーク(固定重みとバイアス)が存在することを示す。 第二に、$n$ノードと$m$アークを持つ任意の有向グラフに対して、最大フローを計算し、入力としてアーク容量を取る大きさの$\mathcal{O}(m^2n^2)$のニューラルネットワークが存在することを示す。 この結果は,アフィン変換と最大計算のみを用いる強い多項式時間アルゴリズムを用いて,これらの2つの問題を解くことができるが,比較に基づく分岐は行わないことを示唆している。

This paper studies the expressive power of artificial neural networks with rectified linear units. In order to study them as a model of real-valued computation, we introduce the concept of Max-Affine Arithmetic Programs and show equivalence between them and neural networks concerning natural complexity measures. We then use this result to show that two fundamental combinatorial optimization problems can be solved with polynomial-size neural networks. First, we show that for any undirected graph with $n$ nodes, there is a neural network (with fixed weights and biases) of size $\mathcal{O}(n^3)$ that takes the edge weights as input and computes the value of a minimum spanning tree of the graph. Second, we show that for any directed graph with $n$ nodes and $m$ arcs, there is a neural network of size $\mathcal{O}(m^2n^2)$ that takes the arc capacities as input and computes a maximum flow. Our results imply that these two problems can be solved with strongly polynomial time algorithms that solely use affine transformations and maxima computations, but no comparison-based branchings.
翻訳日:2024-07-19 00:00:34 公開日:2024-07-17
# Jaynes-Cummings相互作用の混合圧縮コヒーレント状態バージョンにおける原子と絡み合いのダイナミクス

Atomic and entanglement dynamics in the mixed squeezed coherent state version of the Jaynes-Cummings interaction ( http://arxiv.org/abs/2110.14165v2 )

ライセンス: Link先を確認
Koushik Mandal, Pooja Jethwani, M. Venkata Satyanarayana, (参考訳) 放射場の混合状態における圧縮ノイズを含むコヒーレント信号は、通常よく知られた圧縮コヒーレント状態とは対照的に、コヒーレント状態密度演算子と圧縮状態密度演算子の非ガウス混合とみなす。 これら2つの状態は 'quantum' ノイズを含む信号状態である。 コヒーレントな状態にスクイーズを加える2つの異なる方法の効果を比較し、対比する。 本研究の目的は、圧縮真空とコヒーレント状態の混合場状態と相互作用する2レベル原子の文脈において、Jaynes-Cummingsモデルの混合状態バージョンを研究することである。 放射場の状態として、純粋な圧縮コヒーレント状態(PSCS)と混合圧縮コヒーレント状態(MSCS)を用いる。 光子計数分布 (PCD) , 原子インバージョン, 原子-磁場相互作用のエンタングルメントダイナミクスについて検討し, 比較した。 フィールドの状態によって、スクイージングはコヒーレント光子に非常に異なる効果を持つ。 コヒーレント光子の軽視はPSCSのPCDを強く局所化させるが、MSCSではそのような局在化は見られず、代わりにPCDの振動としてMSCSに現れている。 スクイーズ処理がMSCSの原子インバージョンおよびエンタングルメントダイナミクスに及ぼす影響はPSCSと対応する量と対比される。 PSCSでは、スクイージングの増加は原子インバージョンにおけるよく知られたリングのリバイバルを増大させ、また絡み合いのダイナミクスにおける不規則性を高めることが文献でよく知られている。 しかし,MSCSにおけるスキューズ化の増加は,原子インバージョンにおける崩壊・復活パターンとJaynes-Cummingsモデルの絡み合いのダイナミクスを著しく変化させる。

Coherent signal containing squeezed noise in a mixed state of radiation field is considered here as a non-Gaussian mixture of a coherent state density operator and a squeezed state density operator, as opposed to the usual well known squeezed coherent state. Both these states are `quantum' noise-included signal states. Effects of these two distinct ways of adding squeezing to a coherent state are compared and contrasted. The main objective of this work is to study the mixed state version of the Jaynes-Cummings model in the context of a two-level atom interacting with a mixed field state of a squeezed vacuum and a coherent state. The pure squeezed coherent state (PSCS) and the mixed squeezed coherent state (MSCS) are used as the states of the radiation field. The photon-counting distribution (PCD), the atomic inversion and the entanglement dynamics of atom-field interaction for both the radiation fields are investigated and compared with each other. We observe that depending on the state of the field, squeezing has very different effects on coherent photons. Mild squeezing on the coherent photons strongly localizes the PCD for PSCS; however, for MSCS there is no such localization observed - instead squeezing manifests for MSCS as oscillations in the PCD. The effects of squeezing on the atomic inversion and the entanglement dynamics for MSCS are contrasting in comparison with the corresponding quantities associated with PSCS. It is well known in the literature that for PSCS, increasing the squeezing increases the well-known ringing revivals in the atomic inversion, and also increases irregularity in the entanglement dynamics. However, increasing the squeezing in MSCS very significantly alters the collapse-revival pattern in the atomic inversion and the entanglement dynamics of the Jaynes-Cummings model.
翻訳日:2024-07-19 00:00:34 公開日:2024-07-17
# CatchBackdoor: 臨界トロイの木馬神経経路ファズリングによるバックドア検出

CatchBackdoor: Backdoor Detection via Critical Trojan Neural Path Fuzzing ( http://arxiv.org/abs/2112.13064v3 )

ライセンス: Link先を確認
Haibo Jin, Ruoxi Chen, Jinyin Chen, Haibin Zheng, Yang Zhang, Haohan Wang, (参考訳) 現実世界のアプリケーションにおけるディープニューラルネットワーク(DNN)の成功は、豊富な事前学習モデルの恩恵を受けている。 しかし、バックドアで事前訓練されたモデルは、下流DNNの展開に重大なトロイの木馬の脅威をもたらす可能性がある。 多数のバックドア検出法が提案されているが,(1)トリガーサイズに対する高い感度,特にステルス攻撃(ブレンディング攻撃と防御適応攻撃),(2)リバースエンジニアリングの良質な例に大きく依存する2つの側面に限られている。 これらの課題に対処するために、様々なトロイの木馬攻撃によって引き起こされるトロイの木馬の行動は、トロイの木馬経路に起因しうることを実証的に観察した。 そこで我々は,トロイの木馬攻撃に対する検出手法であるCatchBackdoorを提案する。 CatchBackdoorは、トロイの木馬の行動とトロイの木馬の経路の密接な接続に基づいて、良性パスから始まり、差分ファズリングを通じて徐々にトロイの木馬の道を近似する。 次に、トロイの木道からのトリガーを反転させ、多様なトロイの木道攻撃によるエラーを発生させる。 MINST、CIFAR-10、およびa-ImageNetデータセットと7つのモデル(LeNet、ResNet、VGG)に関する大規模な実験は、(1) \emph{ Effective} - 特にステルス攻撃(平均$\sim$$\times$2)において、CatchBackdoorが最先端のメソッドよりも優れていることを実証している。

The success of deep neural networks (DNNs) in real-world applications has benefited from abundant pre-trained models. However, the backdoored pre-trained models can pose a significant trojan threat to the deployment of downstream DNNs. Numerous backdoor detection methods have been proposed but are limited to two aspects: (1) high sensitivity on trigger size, especially on stealthy attacks (i.e., blending attacks and defense adaptive attacks); (2) rely heavily on benign examples for reverse engineering. To address these challenges, we empirically observed that trojaned behaviors triggered by various trojan attacks can be attributed to the trojan path, composed of top-$k$ critical neurons with more significant contributions to model prediction changes. Motivated by it, we propose CatchBackdoor, a detection method against trojan attacks. Based on the close connection between trojaned behaviors and trojan path to trigger errors, CatchBackdoor starts from the benign path and gradually approximates the trojan path through differential fuzzing. We then reverse triggers from the trojan path, to trigger errors caused by diverse trojaned attacks. Extensive experiments on MINST, CIFAR-10, and a-ImageNet datasets and 7 models (LeNet, ResNet, and VGG) demonstrate the superiority of CatchBackdoor over the state-of-the-art methods, in terms of (1) \emph{effective} - it shows better detection performance, especially on stealthy attacks ($\sim$ $\times$ 2 on average); (2) \emph{extensible} - it is robust to trigger size and can conduct detection without benign examples.
翻訳日:2024-07-19 00:00:34 公開日:2024-07-17
# 反復積分とニューラルネットワークによるカオスヘッジ

Chaotic Hedging with Iterated Integrals and Neural Networks ( http://arxiv.org/abs/2209.10166v3 )

ライセンス: Link先を確認
Ariel Neufeld, Philipp Schmocker, (参考訳) 本稿では、Wiener-Itoカオス分解を指数積分可能な連続半行列のクラスに拡張し、特にアフィンおよびいくつかの多項式拡散過程を含む。 拡張における直交性を省略することにより、半マルティンゲールのすべての$p$-可積分函数が、$p \in [1,\infty)$に対して、その反復積分の和として表されることを示すことができる。 この拡張の有限項と、機械学習環境でパラメータを学習するインテグレードに対する(おそらくランダムな)ニューラルネットワークを用いて、すべての金融デリバティブが$L^p$-センスで任意に近似可能であることを示す。 特に、$p = 2$の場合、二次ヘッジの意味で最適ヘッジ戦略を回復する。 さらに、近似オプションのヘッジ戦略をクローズドな形で計算できるので、短時間で十分に積分可能な金融デリバティブをほぼ再現する効率的なアルゴリズムを得る。

In this paper, we extend the Wiener-Ito chaos decomposition to the class of continuous semimartingales that are exponentially integrable, which includes in particular affine and some polynomial diffusion processes. By omitting the orthogonality in the expansion, we are able to show that every $p$-integrable functional of the semimartingale, for $p \in [1,\infty)$, can be represented as a sum of iterated integrals thereof. Using finitely many terms of this expansion and (possibly random) neural networks for the integrands, whose parameters are learned in a machine learning setting, we show that every financial derivative can be approximated arbitrarily well in the $L^p$-sense. In particular, for $p = 2$, we recover the optimal hedging strategy in the sense of quadratic hedging. Moreover, since the hedging strategy of the approximating option can be computed in closed form, we obtain an efficient algorithm to approximately replicate any sufficiently integrable financial derivative within short runtime.
翻訳日:2024-07-19 00:00:34 公開日:2024-07-17
# 逆攻撃伝達性を用いたニューラルネットワークの類似性

Similarity of Neural Architectures using Adversarial Attack Transferability ( http://arxiv.org/abs/2210.11407v4 )

ライセンス: Link先を確認
Jaehui Hwang, Dongyoon Han, Byeongho Heo, Song Park, Sanghyuk Chun, Jong-Seok Lee, (参考訳) 近年,画像分類のためのディープ・ニューラル・アーキテクチャが数多く開発されている。 それらが似ているか異なるか、どの要因がそれらの(異なる)相似性に寄与するかは、いまだに疑問である。 この問題に対処するために,我々は,ニューラルネットワーク間の定量的かつスケーラブルな類似度尺度を設計することを目指している。 本稿では, モデル動作の理解に広く用いられている入力勾配や決定境界に関する情報を含む, 敵攻撃伝達可能性(SAT)の類似性について述べる。 提案した類似度関数を用いて69の最先端画像ネット分類器を大規模に解析し,その問題に答える。 さらに,モデルの多様性がモデルアンサンブルおよび特定の条件下での知識蒸留の性能を向上させることができるモデル類似性を用いて,ニューラルネットワーク関連現象を観察する。 我々の結果は、異なるコンポーネントを持つ多様なニューラルアーキテクチャの開発がなぜ必要かについての洞察を提供する。

In recent years, many deep neural architectures have been developed for image classification. Whether they are similar or dissimilar and what factors contribute to their (dis)similarities remains curious. To address this question, we aim to design a quantitative and scalable similarity measure between neural architectures. We propose Similarity by Attack Transferability (SAT) from the observation that adversarial attack transferability contains information related to input gradients and decision boundaries widely used to understand model behaviors. We conduct a large-scale analysis on 69 state-of-the-art ImageNet classifiers using our proposed similarity function to answer the question. Moreover, we observe neural architecture-related phenomena using model similarity that model diversity can lead to better performance on model ensembles and knowledge distillation under specific conditions. Our results provide insights into why developing diverse neural architectures with distinct components is necessary.
翻訳日:2024-07-19 00:00:34 公開日:2024-07-17
# tSF:Few-Shot Learningのためのトランスフォーマーベースセマンティックフィルタ

tSF: Transformer-based Semantic Filter for Few-Shot Learning ( http://arxiv.org/abs/2211.00868v2 )

ライセンス: Link先を確認
Jinxiang Lai, Siqian Yang, Wenlong Liu, Yi Zeng, Zhongyi Huang, Wenlong Wu, Jun Liu, Bin-Bin Gao, Chengjie Wang, (参考訳) FSL(Few-Shot Learning)は、多くの(ベース)とほとんど見えない(ノーベル)ラベル付きサンプルの間で差別的ターゲット認識機能を組み込むことによって、データ不足の課題を軽減する。 最近のFSLメソッドのほとんどの機能埋め込みモジュールは、特定の学習タスク(例えば、分類、セグメンテーション、オブジェクト検出)のために特別に設計されている。 そこで本研究では,異なるFSLタスクに適用可能な,トランスフォーマーベースのセマンティックフィルタ (tSF) という軽量で普遍的なモジュールを提案する。 提案した tSF は,ベースセット全体の知識を新しいセットに埋め込むだけでなく,対象カテゴリのセマンティック特徴をフィルタするセマンティックフィルタにより,トランスフォーマベース構造の入力を再設計する。 さらに、tSFのパラメータは標準変圧器ブロック(1M未満)の半分に等しい。 実験では、tSFは様々な古典的な数ショットの学習タスク(約2%の改善)のパフォーマンスを向上させることができ、特に、数ショットの分類タスクにおいて、複数のベンチマークデータセットにおける最先端のパフォーマンスよりも優れています。

Few-Shot Learning (FSL) alleviates the data shortage challenge via embedding discriminative target-aware features among plenty seen (base) and few unseen (novel) labeled samples. Most feature embedding modules in recent FSL methods are specially designed for corresponding learning tasks (e.g., classification, segmentation, and object detection), which limits the utility of embedding features. To this end, we propose a light and universal module named transformer-based Semantic Filter (tSF), which can be applied for different FSL tasks. The proposed tSF redesigns the inputs of a transformer-based structure by a semantic filter, which not only embeds the knowledge from whole base set to novel set but also filters semantic features for target category. Furthermore, the parameters of tSF is equal to half of a standard transformer block (less than 1M). In the experiments, our tSF is able to boost the performances in different classic few-shot learning tasks (about 2% improvement), especially outperforms the state-of-the-arts on multiple benchmark datasets in few-shot classification task.
翻訳日:2024-07-19 00:00:34 公開日:2024-07-17
# テスト時間拡張クロスエントロピーとノイズミクス学習を用いたラベル雑音選択を用いた雑音ラベル分類

Noisy Label Classification using Label Noise Selection with Test-Time Augmentation Cross-Entropy and NoiseMix Learning ( http://arxiv.org/abs/2212.00479v2 )

ライセンス: Link先を確認
Hansang Lee, Haeil Lee, Helen Hong, Junmo Kim, (参考訳) ディープラーニングタスクで使用されるデータセットのサイズが大きくなるにつれて、深層学習を誤ったラベル付きデータに堅牢にするタスクであるノイズラベル問題は重要な課題となっている。 本論文では,テスト時間拡張(TTA)クロスエントロピーを用いたラベルノイズ選択とNossMix法による分類器学習を用いたノイズラベルデータの学習手法を提案する。 ラベルノイズ選択において、テスト時間拡張トレーニングデータを予測するために、クロスエントロピーを測定してTTAクロスエントロピーを提案する。 分類器学習では,ノイズデータとクリーンラベルデータからサンプルを混合し,MixUp と BalancedMix をベースとしたNossMix 法を提案する。 ISIC-18公開皮膚病変診断データセットの実験において,提案したTTAクロスエントロピーは,ラベルノイズ選択過程におけるラベルノイズデータの検出において,従来のクロスエントロピーとTTA不確実性よりも優れていた。 さらに、提案手法は、分類性能において最先端の手法より優れるだけでなく、分類器学習においてラベルノイズに最も頑健であることを示した。

As the size of the dataset used in deep learning tasks increases, the noisy label problem, which is a task of making deep learning robust to the incorrectly labeled data, has become an important task. In this paper, we propose a method of learning noisy label data using the label noise selection with test-time augmentation (TTA) cross-entropy and classifier learning with the NoiseMix method. In the label noise selection, we propose TTA cross-entropy by measuring the cross-entropy to predict the test-time augmented training data. In the classifier learning, we propose the NoiseMix method based on MixUp and BalancedMix methods by mixing the samples from the noisy and the clean label data. In experiments on the ISIC-18 public skin lesion diagnosis dataset, the proposed TTA cross-entropy outperformed the conventional cross-entropy and the TTA uncertainty in detecting label noise data in the label noise selection process. Moreover, the proposed NoiseMix not only outperformed the state-of-the-art methods in the classification performance but also showed the most robustness to the label noise in the classifier learning.
翻訳日:2024-07-19 00:00:34 公開日:2024-07-17
# 位置:大規模公開事前学習による個人差分学習の考察

Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining ( http://arxiv.org/abs/2212.06470v3 )

ライセンス: Link先を確認
Florian Tramèr, Gautam Kamath, Nicholas Carlini, (参考訳) 大規模公開データセットで事前訓練された非プライベートモデルの転送学習能力を活用することで、差分プライベート機械学習の性能を大幅に向上させることができる。 このアプローチを批判的にレビューする。 主に、大規模なWebスクラッドデータセットの使用は、差分プライバシ保存と見なされるべきかどうかを疑問視する。 Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。 公開データの利用に関するプライバシー上の考慮を超えて、このパラダイムの有用性をさらに疑問視する。 我々は、既存の機械学習ベンチマークが、事前訓練されたモデルが機密ドメインに一般化する能力を測定するのに適切かどうかを精査する。 最後に、プレトレーニングは、最も大きな利用可能なモデルに対して特に影響があることに気付きました -- エンドユーザーが自身のデバイスでそれらを実行するのを阻止するのに十分な大きさのモデルです。 このように、今日のそのようなモデルをデプロイすることは、より計算力のあるサードパーティにアウトソースする(プライベートな)データを必要とするため、プライバシの純損失になる可能性がある。 公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。

The performance of differentially private machine learning can be boosted significantly by leveraging the transfer learning capabilities of non-private models pretrained on large public datasets. We critically review this approach. We primarily question whether the use of large Web-scraped datasets should be viewed as differential-privacy-preserving. We caution that publicizing these models pretrained on Web data as "private" could lead to harm and erode the public's trust in differential privacy as a meaningful definition of privacy. Beyond the privacy considerations of using public data, we further question the utility of this paradigm. We scrutinize whether existing machine learning benchmarks are appropriate for measuring the ability of pretrained models to generalize to sensitive domains, which may be poorly represented in public Web data. Finally, we notice that pretraining has been especially impactful for the largest available models -- models sufficiently large to prohibit end users running them on their own devices. Thus, deploying such models today could be a net loss for privacy, as it would require (private) data to be outsourced to a more compute-powerful third party. We conclude by discussing potential paths forward for the field of private learning, as public pretraining becomes more popular and powerful.
翻訳日:2024-07-19 00:00:34 公開日:2024-07-17
# 強化学習技術によるゲノムの革新

Revolutionizing Genomics with Reinforcement Learning Techniques ( http://arxiv.org/abs/2302.13268v3 )

ライセンス: Link先を確認
Mohsen Karami, Roohallah Alizadehsani, Khadijeh, Jahanian, Ahmadreza Argha, Iman Dehzangi, Hamid Alinejad-Rokny, (参考訳) 近年、強化学習(Reinforcement Learning, RL)は、意思決定やゲノム学など、幅広い問題を解決する強力なツールとして出現している。 過去20年間の生ゲノムデータの指数的増加は手動解析の能力を超え、自動データ解析と処理への関心が高まっている。 RLアルゴリズムは、人間の監督を最小限にした経験から学ぶことができ、ゲノムデータ分析と解釈に適している。 RLを使用することの大きな利点の1つは、教師あり学習に必要なラベル付きトレーニングデータ収集に伴うコスト削減である。 ゲノミクスにおける機械学習(ML)の応用について多くの研究がなされているが、本調査は遺伝子制御ネットワーク(GRN)、ゲノム組立、配列アライメントなど、さまざまなゲノム研究分野におけるRLの利用に焦点を当てている。 本稿では,RLのゲノム学への応用に関する既存研究の技術的概要を概観し,これらのアプローチの強みと限界を明らかにする。 次に、RLが報酬関数の精度に大きく依存するため、より洗練された報酬関数の開発、RLと他の機械学習技術の統合、新しいゲノム研究分野へのRLの適用など、将来の探索にふさわしい研究の方向性について論じる。 最後に,本研究の成果を概説し,領域の現況とゲノム学におけるRLの将来展望を要約して結論を導いた。

In recent years, Reinforcement Learning (RL) has emerged as a powerful tool for solving a wide range of problems, including decision-making and genomics. The exponential growth of raw genomic data over the past two decades has exceeded the capacity of manual analysis, leading to a growing interest in automatic data analysis and processing. RL algorithms are capable of learning from experience with minimal human supervision, making them well-suited for genomic data analysis and interpretation. One of the key benefits of using RL is the reduced cost associated with collecting labeled training data, which is required for supervised learning. While there have been numerous studies examining the applications of Machine Learning (ML) in genomics, this survey focuses exclusively on the use of RL in various genomics research fields, including gene regulatory networks (GRNs), genome assembly, and sequence alignment. We present a comprehensive technical overview of existing studies on the application of RL in genomics, highlighting the strengths and limitations of these approaches. We then discuss potential research directions that are worthy of future exploration, including the development of more sophisticated reward functions as RL heavily depends on the accuracy of the reward function, the integration of RL with other machine learning techniques, and the application of RL to new and emerging areas in genomics research. Finally, we present our findings and conclude by summarizing the current state of the field and the future outlook for RL in genomics.
翻訳日:2024-07-19 00:00:34 公開日:2024-07-17
# 量子コンピュータを用いたリアルオプション価格設定

Real Option Pricing using Quantum Computers ( http://arxiv.org/abs/2303.06089v2 )

ライセンス: Link先を確認
Alberto Manzano, Gonzalo Ferro, Álvaro Leitao, Carlos Vázquez, Andrés Gómez, (参考訳) 本稿では、微分価格に適用される標準量子加速モンテカルロ(QAMC)の代替手法を提案する。 我々のパイプラインは、直接符号化と呼ばれる新しい符号化プロトコルと振幅推定アルゴリズム、修正された実量子振幅推定(mRQAE)アルゴリズムの組み合わせの恩恵を受けている。 一方、直接符号化は、期待されるペイオフのサインに関する情報を含む量子状態を作成する。 一方、mRQAEは量子状態に含まれる全ての情報を読むことができる。 私たちが記述する手順は標準と異なるが、メインのビルディングブロックはほぼ同じである。 したがって、現在行われている広範な研究は、すべて適用可能である。 さらに、量子エミュレータを用いた標準QAMCに対する提案手法の性能を実験的に比較し、高速化を保っていることを示す。

In this work we present an alternative methodology to the standard Quantum Accelerated Monte Carlo (QAMC) applied to derivatives pricing. Our pipeline benefits from the combination of a new encoding protocol, referred to as the direct encoding, and a amplitude estimation algorithm, the modified Real Quantum Amplitude Estimation (mRQAE) algorithm. On the one hand, the direct encoding prepares a quantum state which contains the information about the sign of the expected payoff. On the other hand, the mRQAE is able to read all the information contained in the quantum state. Although the procedure we describe is different from the standard one, the main building blocks are almost the same. Thus, all the extensive research that has been performed is still applicable. Moreover, we experimentally compare the performance of the proposed methodology against the standard QAMC employing a quantum emulator and show that we retain the speedups.
翻訳日:2024-07-19 00:00:34 公開日:2024-07-17
# 最適nによるnステップ時間差学習

n-Step Temporal Difference Learning with Optimal n ( http://arxiv.org/abs/2303.07068v5 )

ライセンス: Link先を確認
Lakshmi Mandal, Shalabh Bhatnagar, (参考訳) 我々は,n段階時間差(TD)学習アルゴリズムにおいて,nの最適値を求める問題を考察する。 最適化問題に対する目的関数は平均根平均二乗誤差(RMSE)である。 本研究では,SPSAに基づく一シミュレーション同時摂動確率近似(SPSA)に基づくモデル自由最適化手法を用いて最適nを求める。 SPSAはゼロ階連続最適化法であるのに対し、ランダムプロジェクション演算子を用いて離散最適化に適応する。 我々は、ゼロ階確率勾配探索を用いて得られるn-更新の列が、関連する微分包含の内鎖推移不変集合にほぼ確実に収束することを示し、再帰の漸近収束を証明した。 これにより、n-ステップ TD における離散パラメータ列を最適 n に収束させる。 実験により,任意の初期値に対するSDPSAアルゴリズムを用いて,nの最適値が得られた。 さらに、SDPSAは、ベンチマークRLタスク上でのOCBA(Optimal Computing Budget Allocation)において、最先端の離散パラメータ確率最適化アルゴリズムよりも優れることを示す。

We consider the problem of finding the optimal value of n in the n-step temporal difference (TD) learning algorithm. Our objective function for the optimization problem is the average root mean squared error (RMSE). We find the optimal n by resorting to a model-free optimization technique involving a one-simulation simultaneous perturbation stochastic approximation (SPSA) based procedure. Whereas SPSA is a zeroth-order continuous optimization procedure, we adapt it to the discrete optimization setting by using a random projection operator. We prove the asymptotic convergence of the recursion by showing that the sequence of n-updates obtained using zeroth-order stochastic gradient search converges almost surely to an internally chain transitive invariant set of an associated differential inclusion. This results in convergence of the discrete parameter sequence to the optimal n in n-step TD. Through experiments, we show that the optimal value of n is achieved with our SDPSA algorithm for arbitrary initial values. We further show using numerical evaluations that SDPSA outperforms the state-of-the-art discrete parameter stochastic optimization algorithm Optimal Computing Budget Allocation (OCBA) on benchmark RL tasks.
翻訳日:2024-07-19 00:00:34 公開日:2024-07-17
# 離散変調連続可変量子鍵分布のセキュリティ

Security of discrete-modulated continuous-variable quantum key distribution ( http://arxiv.org/abs/2303.09255v4 )

ライセンス: Link先を確認
Stefan Bäuml, Carlos Pascual-García, Victoria Wright, Omar Fawzi, Antonio Acín, (参考訳) 離散変調による連続可変量子鍵分布は、広く利用可能な光学素子と既存の通信インフラを用いて情報理論のセキュリティを提供する可能性がある。 その実装はガウス変調に基づくプロトコルよりもはるかに単純であるが、コヒーレント攻撃に対する有限サイズのセキュリティを証明することは困難である。 本研究では、4つのコヒーレント状態とヘテロダイン検出を含む離散変調量子鍵分布プロトコルに対するコヒーレント攻撃に対する有限サイズセキュリティを証明する。 そのため、既存のスキームの多くとは対照的に、まずプロトコル中に生成された連続変数を識別する。 これにより、これまで離散変数の設定に用いられてきたエントロピー累積定理を用いて、有限サイズのセキュリティ証明を構築することができる。 次に、半定値プログラミングと光子数カットオフで対応する有限キーレートを計算する。 我々の分析では、1ラウンドあたり0.1-10^{-4}$bitsの範囲で100kmの距離で漸近レートを提供し、一方有限の場合と現実的なパラメータでは、$n\sim10^{11}$ roundsの後に10ドルGbitsの秘密鍵のオーダーと数十kmの距離を得る。

Continuous variable quantum key distribution with discrete modulation has the potential to provide information-theoretic security using widely available optical elements and existing telecom infrastructure. While their implementation is significantly simpler than that for protocols based on Gaussian modulation, proving their finite-size security against coherent attacks poses a challenge. In this work we prove finite-size security against coherent attacks for a discrete-modulated quantum key distribution protocol involving four coherent states and heterodyne detection. To do so, and contrary to most of the existing schemes, we first discretize all the continuous variables generated during the protocol. This allows us to use the entropy accumulation theorem, a tool that has previously been used in the setting of discrete variables, to construct the finite-size security proof. We then compute the corresponding finite-key rates through semi-definite programming and under a photon-number cutoff. Our analysis provides asymptotic rates in the range of $0.1-10^{-4}$ bits per round for distances up to hundred kilometres, while in the finite case and for realistic parameters, we get of the order of $10$ Gbits of secret key after $n\sim10^{11}$ rounds and distances of few tens of kilometres.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# SpaceFormer:Few-Shot Learningのためのセマンティックおよびターゲットアウェアアテンション

SpatialFormer: Semantic and Target Aware Attentions for Few-Shot Learning ( http://arxiv.org/abs/2303.09281v2 )

ライセンス: Link先を確認
Jinxiang Lai, Siqian Yang, Wenlong Wu, Tao Wu, Guannan Jiang, Xi Wang, Jun Liu, Bin-Bin Gao, Wei Zhang, Yuan Xie, Chengjie Wang, (参考訳) 最近のFSL(Few-Shot Learning)手法は,サポートセットとクエリセットの類似性を正確に測定するために,識別的埋め込み機能の生成に重点を置いている。 現在のCNNベースのクロスアテンションアプローチは、サポートとクエリペアの相互意味的な類似領域を強化することによって、識別表現を生成する。 しかし、CNN構造は局所的な特徴に基づいて不正確な注意マップを生成し、相互に類似した背景が混乱を引き起こすという2つの問題に悩まされている。 これらの問題を緩和するために,グローバルな特徴に基づいてより正確な注意領域を生成するための新しいSpatialFormer構造を設計する。 従来のTransformerモデリングのインスタンスレベルの類似性とは違い、SpatialFormerでは、ペア入力間のセマンティックレベルの類似性を調べてパフォーマンスを向上させる。 次に,SpatialFormer Semantic Attention (SFSA) とSpatialFormer Target Attention (SFTA) という2つの特定の注意モジュールを導出した。 特に、SFSAは、ペア特徴間の同じ意味情報を持つ領域を強調し、SFTAは、ベースカテゴリに類似した新しい特徴の潜在的前景オブジェクト領域を見つける。 大規模な実験により,本手法は有効であり,数発の分類ベンチマークで新たな最先端結果が得られた。

Recent Few-Shot Learning (FSL) methods put emphasis on generating a discriminative embedding features to precisely measure the similarity between support and query sets. Current CNN-based cross-attention approaches generate discriminative representations via enhancing the mutually semantic similar regions of support and query pairs. However, it suffers from two problems: CNN structure produces inaccurate attention map based on local features, and mutually similar backgrounds cause distraction. To alleviate these problems, we design a novel SpatialFormer structure to generate more accurate attention regions based on global features. Different from the traditional Transformer modeling intrinsic instance-level similarity which causes accuracy degradation in FSL, our SpatialFormer explores the semantic-level similarity between pair inputs to boost the performance. Then we derive two specific attention modules, named SpatialFormer Semantic Attention (SFSA) and SpatialFormer Target Attention (SFTA), to enhance the target object regions while reduce the background distraction. Particularly, SFSA highlights the regions with same semantic information between pair features, and SFTA finds potential foreground object regions of novel feature that are similar to base categories. Extensive experiments show that our methods are effective and achieve new state-of-the-art results on few-shot classification benchmarks.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# 知識グラフを用いた論理的問合せ回答のための関係パターンのモデル化

Modeling Relational Patterns for Logical Query Answering over Knowledge Graphs ( http://arxiv.org/abs/2303.11858v2 )

ライセンス: Link先を確認
Yunjie He, Mojtaba Nayyeri, Bo Xiong, Yuqicheng Zhu, Evgeny Kharlamov, Steffen Staab, (参考訳) 知識グラフ(KG)上の一階論理(FOL)クエリを答えることは、主にKGの不完全性のために難しい課題である。 クエリ埋め込みは、エンティティ、リレーション、論理クエリの低次元ベクトル表現を計算することでこの問題に対処する。 KGは対称性や構成などの関係パターンを示し、そのパターンをモデル化することで、クエリ埋め込みモデルの性能をさらに向上させることができる。 しかし、クエリ埋め込みモデルによるFOLクエリの応答におけるそのようなパターンの役割はまだ研究されていない。 本稿では,本研究のギャップを埋め,パターン推論を考慮したFOLクエリを学習可能な帰納的バイアスを導入することにより,パターン推論によるFOLクエリの強化を行う。 そこで我々は,複雑な空間における回転により,クエリ領域を幾何学的円錐と代数的クエリ演算子として定義する新しいクエリ埋め込み手法RoConEを開発した。 RoConEは、コーネの利点を、クエリ埋め込みのためのよく特定された幾何学的表現と、パターン推論のための強力な代数演算としての回転演算と組み合わせている。 いくつかのベンチマークデータセットに対する実験結果から,論理的問合せ処理の強化のための関係パターンの利点が確認された。

Answering first-order logical (FOL) queries over knowledge graphs (KG) remains a challenging task mainly due to KG incompleteness. Query embedding approaches this problem by computing the low-dimensional vector representations of entities, relations, and logical queries. KGs exhibit relational patterns such as symmetry and composition and modeling the patterns can further enhance the performance of query embedding models. However, the role of such patterns in answering FOL queries by query embedding models has not been yet studied in the literature. In this paper, we fill in this research gap and empower FOL queries reasoning with pattern inference by introducing an inductive bias that allows for learning relation patterns. To this end, we develop a novel query embedding method, RoConE, that defines query regions as geometric cones and algebraic query operators by rotations in complex space. RoConE combines the advantages of Cone as a well-specified geometric representation for query embedding, and also the rotation operator as a powerful algebraic operation for pattern inference. Our experimental results on several benchmark datasets confirm the advantage of relational patterns for enhancing logical query answering task.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# ファウショット学習のためのクラスタ・パッチ要素接続

Clustered-patch Element Connection for Few-shot Learning ( http://arxiv.org/abs/2304.10093v3 )

ライセンス: Link先を確認
Jinxiang Lai, Siqian Yang, Junhong Zhou, Wenlong Wu, Xiaochen Chen, Jun Liu, Bin-Bin Gao, Chengjie Wang, (参考訳) 弱い特徴表現問題は、長い間、数発の分類タスクの性能に影響を与えてきた。 この問題を軽減するために、最近の研究者は、パッチ機能を埋め込むことで、サポートとクエリインスタンス間の接続を構築し、差別的な表現を生成する。 しかし、対象物の位置と大きさが固定されていないため、これらのローカルパッチには意味的ミスマッチ(地上/背景)が存在する。 さらに悪いことに、これらのミスマッチは信頼できない類似性の信頼性をもたらし、複雑な密接な接続が問題を悪化させる。 そこで本研究では,ミスマッチ問題を修正するために,クラスタ化パッチ要素接続(CEC)層を提案する。 CECレイヤは、Patch ClusterとElement Connectionの操作を活用して、それぞれ高い類似性パッチ機能を備えた信頼性の高い接続を収集および確立する。 さらに,CEC層に基づくアテンションモジュールと距離メートル法を含むCECNetを提案する。 前者はグローバルクラスタ・パッチ特徴から恩恵を受けるより差別的な表現を生成するために利用され、後者はペア・フィーチャー間の類似性を確実に測定するために導入される。 我々のCECNetは、分類ベンチマークで最先端の手法よりも優れています。 さらに、我々のCECアプローチは、いくつかのショットセグメンテーションと検出タスクに拡張することができ、競争性能を実現することができる。

Weak feature representation problem has influenced the performance of few-shot classification task for a long time. To alleviate this problem, recent researchers build connections between support and query instances through embedding patch features to generate discriminative representations. However, we observe that there exists semantic mismatches (foreground/ background) among these local patches, because the location and size of the target object are not fixed. What is worse, these mismatches result in unreliable similarity confidences, and complex dense connection exacerbates the problem. According to this, we propose a novel Clustered-patch Element Connection (CEC) layer to correct the mismatch problem. The CEC layer leverages Patch Cluster and Element Connection operations to collect and establish reliable connections with high similarity patch features, respectively. Moreover, we propose a CECNet, including CEC layer based attention module and distance metric. The former is utilized to generate a more discriminative representation benefiting from the global clustered-patch features, and the latter is introduced to reliably measure the similarity between pair-features. Extensive experiments demonstrate that our CECNet outperforms the state-of-the-art methods on classification benchmark. Furthermore, our CEC approach can be extended into few-shot segmentation and detection tasks, which achieves competitive performances.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# タンパク質配列設計における重み付け期待値の最大化

Importance Weighted Expectation-Maximization for Protein Sequence Design ( http://arxiv.org/abs/2305.00386v3 )

ライセンス: Link先を確認
Zhenqiao Song, Lei Li, (参考訳) 所望の生物学的機能を持つタンパク質配列を設計することは、生物学や化学において重要である。 最近の機械学習手法では、高価なウェットラブ検証を置き換えるために、サロゲートシーケンス関数モデルを使用している。 高度に適合した多種多様な新規タンパク質配列を効率的に生成する方法 本稿では,特定の適合基準に対するタンパク質配列生成手法であるIsEM-Proを提案する。 中心となるIsEM-Proは、独立に学習されたマルコフランダムフィールド(MRF)の組合せ構造特徴によって強化された潜在生成モデルである。 モデル学習のためのモンテカルロ予測最大化法(MCEM)を開発した。 推論中、潜伏空間からのサンプリングは多様性を高め、MDFの特徴は高いフィットネス領域での探索を導く。 8つのタンパク質配列設計タスクの実験により、我々のIsEM-Proは、平均適合度スコアを55%以上上回り、より多様な新しいタンパク質配列を生成する。

Designing protein sequences with desired biological function is crucial in biology and chemistry. Recent machine learning methods use a surrogate sequence-function model to replace the expensive wet-lab validation. How can we efficiently generate diverse and novel protein sequences with high fitness? In this paper, we propose IsEM-Pro, an approach to generate protein sequences towards a given fitness criterion. At its core, IsEM-Pro is a latent generative model, augmented by combinatorial structure features from a separately learned Markov random fields (MRFs). We develop an Monte Carlo Expectation-Maximization method (MCEM) to learn the model. During inference, sampling from its latent space enhances diversity while its MRFs features guide the exploration in high fitness regions. Experiments on eight protein sequence design tasks show that our IsEM-Pro outperforms the previous best methods by at least 55% on average fitness score and generates more diverse and novel protein sequences.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# 関数型学習のための分散Gradient Descent

Distributed Gradient Descent for Functional Learning ( http://arxiv.org/abs/2305.07408v2 )

ライセンス: Link先を確認
Zhan Yu, Jun Fan, Zhongjie Shi, Ding-Xuan Zhou, (参考訳) 近年,大規模データ情報を扱う上での強みとして,分散学習と並列学習の多種多様な手法が注目されている。 情報時代において,関数型データ解析から得られたビッグデータ問題に直面するために,カーネル・ヒルベルト空間を再現するフレームワークにおいて,多数のローカルマシン(プロセッサ)にまたがる関数型データに取り組むために,分散勾配勾配関数型学習(DGDFL)アルゴリズムを提案する。 積分作用素のアプローチに基づいて、DGDFLアルゴリズムを文献の様々な側面において初めて理論的に理解する。 まず、DGDFLを理解するために、データに基づく勾配降下関数学習(GDFL)アルゴリズムを提案し、包括的に研究した。 軽度条件下では、DGDFLの信頼に基づく最適学習速度は、機能回帰における以前の研究で被った正則性指数の飽和境界を伴わずに得られる。 さらに、ローカルマシンの最大数の制限を弱め、最適なレートを確保するための半教師付きDGDFLアプローチを提供する。 我々の知る限り、DGDFLは、内在的に無限次元のランダム関数(関数共変量)のデータサンプルに基づいて関数型学習に最初の分割・連立学習アプローチを提供し、関数型データ解析の方法論を充実させる。

In recent years, different types of distributed and parallel learning schemes have received increasing attention for their strong advantages in handling large-scale data information. In the information era, to face the big data challenges {that} stem from functional data analysis very recently, we propose a novel distributed gradient descent functional learning (DGDFL) algorithm to tackle functional data across numerous local machines (processors) in the framework of reproducing kernel Hilbert space. Based on integral operator approaches, we provide the first theoretical understanding of the DGDFL algorithm in many different aspects of the literature. On the way of understanding DGDFL, firstly, a data-based gradient descent functional learning (GDFL) algorithm associated with a single-machine model is proposed and comprehensively studied. Under mild conditions, confidence-based optimal learning rates of DGDFL are obtained without the saturation boundary on the regularity index suffered in previous works in functional regression. We further provide a semi-supervised DGDFL approach to weaken the restriction on the maximal number of local machines to ensure optimal rates. To our best knowledge, the DGDFL provides the first divide-and-conquer iterative training approach to functional learning based on data samples of intrinsically infinite-dimensional random functions (functional covariates) and enriches the methodologies for functional data analysis.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# ニューラルネットワーク翻訳における知識蒸留の理解と改善に向けて

Towards Understanding and Improving Knowledge Distillation for Neural Machine Translation ( http://arxiv.org/abs/2305.08096v2 )

ライセンス: Link先を確認
Songming Zhang, Yunlong Liang, Shuaibo Wang, Wenjuan Han, Jian Liu, Jinan Xu, Yufeng Chen, (参考訳) 知識蒸留(KD)はニューラルマシン翻訳におけるモデル圧縮の有望な技術である。 しかし、KDの知識がどこに隠されているのかはまだ明らかではないため、KDの発展を妨げる可能性がある。 本研究では、まずこの謎を経験的観点から解き出し、その知識が教師のトップ1の予測から得られることを示し、また、単語とシーケンスレベルのKDの間の潜在的なつながりを構築するのにも役立ちます。 さらに,バニラ語レベルのKDには,この発見に基づく2つの固有の問題点が指摘されている。 第一に、KDの現在の目的は、その焦点を知識を学ぶために全分布に広げるが、最も重要なトップ1情報に対する特別な扱いを欠いている。 第二に、この知識は、教師の上位1人の予測が、KDの可能性をさらに制限する地道なトークンと重複しているという事実から、金の情報によっておおむねカバーされている。 これらの問題に対処するために、新しい方法である \textbf{T}op-1 \textbf{I}nformation \textbf{E}nhanced \textbf{K}nowledge \textbf{D}istillation (TIE-KD)を提案する。 具体的には、教師からトップ1情報の学習を強制するために、階層的なランキングの損失を設計する。 さらに,本手法は,地中目標を満たさずにデータに蒸留することで,さらなる知識を注入する反復的なKD法を開発した。 WMT'14英語-ドイツ語、WMT'14英語-フランス語、WMT'16英語-ルーマニア語の実験では、我々の手法がTransformer$_{base}$ studentsを+1.04, +0.60, +1.11BLEUスコアで向上させ、バニラ語レベルのKDベースラインを著しく上回ることを示した。 さらに,本手法は,既存のKD手法よりも,教師と生徒の容量ギャップの一般化性が高いことを示す。

Knowledge distillation (KD) is a promising technique for model compression in neural machine translation. However, where the knowledge hides in KD is still not clear, which may hinder the development of KD. In this work, we first unravel this mystery from an empirical perspective and show that the knowledge comes from the top-1 predictions of teachers, which also helps us build a potential connection between word- and sequence-level KD. Further, we point out two inherent issues in vanilla word-level KD based on this finding. Firstly, the current objective of KD spreads its focus to whole distributions to learn the knowledge, yet lacks special treatment on the most crucial top-1 information. Secondly, the knowledge is largely covered by the golden information due to the fact that most top-1 predictions of teachers overlap with ground-truth tokens, which further restricts the potential of KD. To address these issues, we propose a novel method named \textbf{T}op-1 \textbf{I}nformation \textbf{E}nhanced \textbf{K}nowledge \textbf{D}istillation (TIE-KD). Specifically, we design a hierarchical ranking loss to enforce the learning of the top-1 information from the teacher. Additionally, we develop an iterative KD procedure to infuse more additional knowledge by distilling on the data without ground-truth targets. Experiments on WMT'14 English-German, WMT'14 English-French and WMT'16 English-Romanian demonstrate that our method can respectively boost Transformer$_{base}$ students by +1.04, +0.60 and +1.11 BLEU scores and significantly outperform the vanilla word-level KD baseline. Besides, our method shows higher generalizability on different teacher-student capacity gaps than existing KD techniques.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# Drag Your GAN: ジェネレーティブ・イメージ・マニフォールドを用いたインタラクティブ・ポイント・ベースの操作

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold ( http://arxiv.org/abs/2305.10973v2 )

ライセンス: Link先を確認
Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt, (参考訳) ユーザのニーズを満たすビジュアルコンテンツを合成するには、しばしば、生成されたオブジェクトのポーズ、形状、表現、レイアウトを柔軟かつ正確に制御する必要がある。 既存のアプローチは、手動でアノテートしたトレーニングデータや、しばしば柔軟性、精度、一般化に欠ける以前の3Dモデルを介して、GAN(Generative Adversarial Network)の制御性を得る。 本研究では、図1に示すように、画像の任意の点を正確に目標点に到達させるために、画像の任意の点を「ドラッグ」する、GANの制御方法について検討する。 そこで本研究では,2つの主要コンポーネントからなるDragGANを提案する。 1)ハンドルポイントを目標位置に向かって移動させる機能ベースの運動監督装置、及び 2) 識別ジェネレータ機能を利用した新たなポイントトラッキング手法により, ハンドル位置のローカライズを継続する。 DragGANを通じて、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。 これらの操作は、GANの学習された生成画像多様体上で実行されるため、排他的内容の幻覚や、物体の剛性に一貫して従う変形形といった挑戦的なシナリオにおいても、現実的な出力を生成する傾向にある。 定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。 また, GANインバージョンによる実画像の操作についても紹介する。

Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D model, which often lack flexibility, precision, and generality. In this work, we study a powerful yet much less explored way of controlling GANs, that is, to "drag" any points of the image to precisely reach target points in a user-interactive manner, as shown in Fig.1. To achieve this, we propose DragGAN, which consists of two main components: 1) a feature-based motion supervision that drives the handle point to move towards the target position, and 2) a new point tracking approach that leverages the discriminative generator features to keep localizing the position of the handle points. Through DragGAN, anyone can deform an image with precise control over where pixels go, thus manipulating the pose, shape, expression, and layout of diverse categories such as animals, cars, humans, landscapes, etc. As these manipulations are performed on the learned generative image manifold of a GAN, they tend to produce realistic outputs even for challenging scenarios such as hallucinating occluded content and deforming shapes that consistently follow the object's rigidity. Both qualitative and quantitative comparisons demonstrate the advantage of DragGAN over prior approaches in the tasks of image manipulation and point tracking. We also showcase the manipulation of real images through GAN inversion.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# オークションデザインにおけるモード接続性

Mode Connectivity in Auction Design ( http://arxiv.org/abs/2305.11005v2 )

ライセンス: Link先を確認
Christoph Hertrich, Yixin Tao, László A. Végh, (参考訳) 最適オークション設計は、アルゴリズムゲーム理論における基本的な問題である。 この問題は、非常に単純な設定ですでに難しいことで知られている。 微分経済学における最近の研究は、ニューラルネットワークが既知の最適なオークション機構を効率的に学習し、興味深い新しいものを発見することができることを示した。 理論的に彼らの経験的成功を正当化するために、最初のネットワークであるRochetNetとアフィン最大値オークションの一般化バージョンに焦点を当てる。 すなわち、局所最適解は、その経路上のすべての解が2つの局所最適解のうちの1つとほぼ等しくなるような、単純かつ断片的な線形経路で連結される。 モード接続性は、最近、予測問題に使用されるニューラルネットワークの興味深い経験的、理論的に妥当な性質として研究されている。 ニューラルネットワークは非凸最適化問題の解法として直接使用される。

Optimal auction design is a fundamental problem in algorithmic game theory. This problem is notoriously difficult already in very simple settings. Recent work in differentiable economics showed that neural networks can efficiently learn known optimal auction mechanisms and discover interesting new ones. In an attempt to theoretically justify their empirical success, we focus on one of the first such networks, RochetNet, and a generalized version for affine maximizer auctions. We prove that they satisfy mode connectivity, i.e., locally optimal solutions are connected by a simple, piecewise linear path such that every solution on the path is almost as good as one of the two local optima. Mode connectivity has been recently investigated as an intriguing empirical and theoretically justifiable property of neural networks used for prediction problems. Our results give the first such analysis in the context of differentiable economics, where neural networks are used directly for solving non-convex optimization problems.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# 大規模言語モデルは構造化テーブルデータを理解することができるか? : ベンチマークと実証的研究

Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study ( http://arxiv.org/abs/2305.13062v5 )

ライセンス: Link先を確認
Yuan Sui, Mengyu Zhou, Mingjie Zhou, Shi Han, Dongmei Zhang, (参考訳) 大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。 しかし、テーブルのような構造化されたデータを処理する能力の理解は、まだ探索されていない領域のままである。 テーブルはLSMの入力としてシリアライズできるが、LSMがこのデータを真に理解しているかどうかに関する包括的な研究は乏しい。 本稿では,LLMの構造的理解能力を評価するためのベンチマークを設計し,セルルックアップ,行検索,サイズ検出などの7つのタスクを通じて評価する。 特に,最新のLCMモデルであるGPT-3.5とGPT-4の一連の評価を行い,テーブル入力形式,コンテンツ順序,ロールプロンプト,パーティションマークなど,異なる入力選択で性能が変化していることを確認する。 評価の結果から,LLMの内部知識を用いた臨界値/範囲識別などの効果的な構造的プロンプトのために,$\textit{self-augmentation}$を提案する。 慎重に選択された入力選択と組み合わせると、これらの構造的プロンプトメソッドは、様々な表のタスク、例えば、TabFact($\uparrow2.31\%$)、HybridQA($\uparrow2.13\%$)、SQA($\uparrow2.72\%$)、Feverous($\uparrow0.84\%$)、ToTTo($\uparrow5.68\%$$)でLLMパフォーマンスを向上させる。 当社のオープンソースベンチマークと提案手法は,今後の研究において,単純かつ汎用的な選択手段として有効であると考えています。 この論文のコードとデータはhttps://anonymous.4open.science/r/StructuredLLM-76F3/README.mdでリリースされ、後にhttps://github.com/microsoft/TableProviderで公式のコードに置き換えられる。

Large language models (LLMs) are becoming attractive as few-shot reasoners to solve Natural Language (NL)-related tasks. However, the understanding of their capability to process structured data like tables remains an under-explored area. While tables can be serialized as input for LLMs, there is a lack of comprehensive studies on whether LLMs genuinely comprehend this data. In this paper, we try to understand this by designing a benchmark to evaluate the structural understanding capabilities of LLMs through seven distinct tasks, e.g., cell lookup, row retrieval and size detection. Specially, we perform a series of evaluations on the recent most advanced LLM models, GPT-3.5 and GPT-4 and observe that performance varied with different input choices, including table input format, content order, role prompting, and partition marks. Drawing from the insights gained through the benchmark evaluations, we propose $\textit{self-augmentation}$ for effective structural prompting, such as critical value / range identification using internal knowledge of LLMs. When combined with carefully chosen input choices, these structural prompting methods lead to promising improvements in LLM performance on a variety of tabular tasks, e.g., TabFact($\uparrow2.31\%$), HybridQA($\uparrow2.13\%$), SQA($\uparrow2.72\%$), Feverous($\uparrow0.84\%$), and ToTTo($\uparrow5.68\%$). We believe that our open source benchmark and proposed prompting methods can serve as a simple yet generic selection for future research. The code and data of this paper will be temporality released at https://anonymous.4open.science/r/StructuredLLM-76F3/README.md and will be replaced with an official one at https://github.com/microsoft/TableProvider later.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# 周波数解析による敵対的脆弱性とインシシットバイアスの調査

Investigating Adversarial Vulnerability and Implicit Bias through Frequency Analysis ( http://arxiv.org/abs/2305.15203v2 )

ライセンス: Link先を確認
Lorenzo Basile, Nikos Karantzas, Alberto D'Onofrio, Luca Bortolussi, Alex Rodriguez, Fabio Anselmi, (参考訳) 分類タスクにおける優れたパフォーマンスにもかかわらず、ニューラルネットワークは、モデルを欺くように設計された入力データの微妙な摂動である敵攻撃に弱いことが知られている。 本研究では,これらの摂動と,勾配に基づくアルゴリズムで学習したニューラルネットワークの暗黙バイアスとの関係について検討する。 この目的のために、フーリエ変換のレンズを通してネットワークの暗黙バイアスを分析する。 具体的には、各入力画像とその逆摂動バージョンに対して、それぞれ正確な分類や誤分類に必要な最小および最も重要な周波数を特定し、それらの相関関係を明らかにする。 そこで本研究では,高次元データセット間の非線形相関を検出できる新しい手法を提案する。 その結果,Fourier空間のネットワークバイアスと敵攻撃の標的周波数は高い相関性を示し,新たな敵防御戦略が示唆された。

Despite their impressive performance in classification tasks, neural networks are known to be vulnerable to adversarial attacks, subtle perturbations of the input data designed to deceive the model. In this work, we investigate the relation between these perturbations and the implicit bias of neural networks trained with gradient-based algorithms. To this end, we analyse the network's implicit bias through the lens of the Fourier transform. Specifically, we identify the minimal and most critical frequencies necessary for accurate classification or misclassification respectively for each input image and its adversarially perturbed version, and uncover the correlation among those. To this end, among other methods, we use a newly introduced technique capable of detecting non-linear correlations between high-dimensional datasets. Our results provide empirical evidence that the network bias in Fourier space and the target frequencies of adversarial attacks are highly correlated and suggest new potential strategies for adversarial defence.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# マルチエージェント・ディベートによる大規模言語モデルにおけるダイバージェント思考の促進

Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate ( http://arxiv.org/abs/2305.19118v3 )

ライセンス: Link先を確認
Tian Liang, Zhiwei He, Wenxiang Jiao, Xing Wang, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi, (参考訳) ChatGPTのような現代の大規模言語モデル(LLM)は、一般的な言語タスクにおいて顕著なパフォーマンスを示したが、複雑な推論タスクに苦戦している。 この方向に沿って、ある代表的な戦略は自己回帰(self-reflection)であり、この戦略はLLMに対して、それ自体が反復的に生成したフィードバックでソリューションを洗練させるよう求めている。 しかし,本研究は,このようなリフレクションスタイルの手法が「脱生(DoT)問題」に悩まされていることを示唆している。 DoT問題に対処するために,複数のエージェントが"tit for tat"の状態で議論を表現し,審査員が議論プロセスを管理して最終解を得る,マルチエージェント議論(MAD)フレームワークを提案する。 明らかに、我々のMADフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励します。 2つの挑戦的データセット(コモンセンス機械翻訳と反直観的算術推論)の実験結果から,我々のMADフレームワークの有効性を実証した。 総合的な分析から,MADが良好な性能を得るためには,議論の適応的断裂と「試行錯誤状態」の質素なレベルが必要であることが示唆された。 さらに,異なるLSMをエージェントとして使用する場合,LSMは公平な判断にはならない可能性がある。 コードはhttps://github.com/Skytliang/Multi-Agents-Debateで入手できる。

Modern large language models (LLMs) like ChatGPT have shown remarkable performance on general language tasks but still struggle on complex reasoning tasks, which drives the research on cognitive behaviors of LLMs to explore human-like problem-solving strategies. Along this direction, one representative strategy is self-reflection, which asks an LLM to refine the solution with the feedback generated by itself iteratively. However, our study shows that such reflection-style methods suffer from the Degeneration-of-Thought (DoT) problem: once the LLM has established confidence in its solutions, it is unable to generate novel thoughts later through reflection even if its initial stance is incorrect. To address the DoT problem, we propose a Multi-Agent Debate (MAD) framework, in which multiple agents express their arguments in the state of "tit for tat" and a judge manages the debate process to obtain a final solution. Clearly, our MAD framework encourages divergent thinking in LLMs which would be helpful for tasks that require deep levels of contemplation. Experiment results on two challenging datasets, commonsense machine translation and counter-intuitive arithmetic reasoning, demonstrate the effectiveness of our MAD framework. Extensive analyses suggest that the adaptive break of debate and the modest level of "tit for tat" state are required for MAD to obtain good performance. Moreover, we find that LLMs might not be a fair judge if different LLMs are used for agents. Code is available at https://github.com/Skytliang/Multi-Agents-Debate.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# シンメトリ・リプレイトレーニング: 組合せ最適化のための深層強化学習におけるサンプル効率の向上

Symmetric Replay Training: Enhancing Sample Efficiency in Deep Reinforcement Learning for Combinatorial Optimization ( http://arxiv.org/abs/2306.01276v4 )

ライセンス: Link先を確認
Hyeonah Kim, Minsu Kim, Sungsoo Ahn, Jinkyoo Park, (参考訳) 深部強化学習(DRL)は組合せ最適化(CO)の分野を著しく進歩させた。 しかし、その実用性は、特に計算集約的な関数評価を含むシナリオにおいて、多くの報酬評価の必要性によって妨げられている。 サンプル効率を向上させるために,SRT (symmetric replay training) と呼ばれる簡易かつ効果的な手法を提案し,様々なDRL法に容易に組み込むことができる。 提案手法は, オンラインインタラクションを必要とせずに, 探索されていない対称領域の探索を促進するために, ハイリワードサンプルを利用する。 リプレイトレーニングを通じて、このポリシーは、発見された高次サンプルの対称軌道の可能性を最大化するために訓練される。 実験により,分子最適化やハードウェア設計といった実世界の課題に応用した多様なDRL法に対して,本手法のサンプリング効率が一貫した改善を示した。

Deep reinforcement learning (DRL) has significantly advanced the field of combinatorial optimization (CO). However, its practicality is hindered by the necessity for a large number of reward evaluations, especially in scenarios involving computationally intensive function assessments. To enhance the sample efficiency, we propose a simple but effective method, called symmetric replay training (SRT), which can be easily integrated into various DRL methods. Our method leverages high-reward samples to encourage exploration of the under-explored symmetric regions without additional online interactions - free. Through replay training, the policy is trained to maximize the likelihood of the symmetric trajectories of discovered high-rewarded samples. Experimental results demonstrate the consistent improvement of our method in sample efficiency across diverse DRL methods applied to real-world tasks, such as molecular optimization and hardware design.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# DIFFender: 拡散に基づくパッチ攻撃に対する敵対的防御

DIFFender: Diffusion-Based Adversarial Defense against Patch Attacks ( http://arxiv.org/abs/2306.09124v4 )

ライセンス: Link先を確認
Caixin Kang, Yinpeng Dong, Zhengyi Wang, Shouwei Ruan, Yubo Chen, Hang Su, Xingxing Wei, (参考訳) 敵対的攻撃、特にパッチ攻撃は、ディープラーニングモデルの堅牢性と信頼性に重大な脅威をもたらす。 パッチ攻撃に対する信頼性の高い防御を開発することは、現実世界のアプリケーションにとって不可欠である。 本稿では,テキスト誘導拡散モデルを用いてパッチ攻撃に対処する新しい防御フレームワークであるDIFFenderを紹介する。 本研究のアプローチの中心は, 分散モデルを用いて, 分布異常の解析により, 対向パッチの検出と局所化を可能にする, 対向異常知覚(AAP)現象の発見である。 DIFFenderは、単一拡散モデルフレームワークにパッチのローカライゼーションと復元という2つのタスクを統合する。 さらに、DIFFenderは視覚言語による事前学習と効率的な数発のプロンプトチューニングアルゴリズムを組み合わせることで、事前訓練された拡散モデルの防御タスクへの適応を効率化し、広範囲な再訓練の必要性を排除している。 包括的評価は、画像分類と顔認識タスクにまたがり、DIFFenderが敵攻撃に対して優れた堅牢性を示す現実世界のシナリオに拡張する。 DIFFenderの汎用性と一般化性は、様々な設定、分類器、攻撃方法で明らかであり、敵のパッチ防衛戦略の進歩を示している。

Adversarial attacks, particularly patch attacks, pose significant threats to the robustness and reliability of deep learning models. Developing reliable defenses against patch attacks is crucial for real-world applications. This paper introduces DIFFender, a novel defense framework that harnesses the capabilities of a text-guided diffusion model to combat patch attacks. Central to our approach is the discovery of the Adversarial Anomaly Perception (AAP) phenomenon, which empowers the diffusion model to detect and localize adversarial patches through the analysis of distributional discrepancies. DIFFender integrates dual tasks of patch localization and restoration within a single diffusion model framework, utilizing their close interaction to enhance defense efficacy. Moreover, DIFFender utilizes vision-language pre-training coupled with an efficient few-shot prompt-tuning algorithm, which streamlines the adaptation of the pre-trained diffusion model to defense tasks, thus eliminating the need for extensive retraining. Our comprehensive evaluation spans image classification and face recognition tasks, extending to real-world scenarios, where DIFFender shows good robustness against adversarial attacks. The versatility and generalizability of DIFFender are evident across a variety of settings, classifiers, and attack methodologies, marking an advancement in adversarial patch defense strategies.
翻訳日:2024-07-18 23:50:47 公開日:2024-07-17
# NCL++: 長期にわたる視覚認識のためのNested Collaborative Learning

NCL++: Nested Collaborative Learning for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2306.16709v2 )

ライセンス: Link先を確認
Zichang Tan, Jun Li, Jinhao Du, Jun Wan, Zhen Lei, Guodong Guo, (参考訳) 近年、長い尾の視覚認識が注目されている。 長期学習において極めて不均衡なデータ分布のため、学習プロセスは極めて不確実性を示す。 例えば、同じイメージ上の異なる専門家の予測は、同じトレーニング設定にもかかわらず、著しく異なる。 この不確実性を軽減するために,Nested Collaborative Learning (NCL++)を提案する。 具体的に言うと、協調学習は、専門家間協調学習(InterCL)と専門家間協調学習(IntraCL)の2つの折り返しからなる。 In-terCLは複数の専門家を協調的に同時に学習し、異なる専門家間で知識を伝達することを目的としている。 イントラCLはInterCLと似ているが、単一の専門家内で同じイメージの複数の拡張コピーを共同で学習することを目的としている。 長期学習における協調学習を実現するために,異なる専門家と増補されたコピーの間で一貫した予測を強制するために,バランスの取れたオンライン蒸留を提案し,学習の不確実性を低減した。 さらに,難解なカテゴリの細かな識別能力を向上させるために,高い予測スコアを持つ負のカテゴリをハードカテゴリとして選択するハードカテゴリマイニング(HCM)を提案する。 そして、協調学習はネストされた方法で定式化され、学習は全視点からだけでなく、部分的な視点からいくつかの難しいカテゴリに対して行われる。 実験結果から, 一つのモデルやアンサンブルを用いても, 最先端の手法よりも優れた手法が得られた。 コードは公開されます。

Long-tailed visual recognition has received increasing attention in recent years. Due to the extremely imbalanced data distribution in long-tailed learning, the learning process shows great uncertainties. For example, the predictions of different experts on the same image vary remarkably despite the same training settings. To alleviate the uncertainty, we propose a Nested Collaborative Learning (NCL++) which tackles the long-tailed learning problem by a collaborative learning. To be specific, the collaborative learning consists of two folds, namely inter-expert collaborative learning (InterCL) and intra-expert collaborative learning (IntraCL). In-terCL learns multiple experts collaboratively and concurrently, aiming to transfer the knowledge among different experts. IntraCL is similar to InterCL, but it aims to conduct the collaborative learning on multiple augmented copies of the same image within the single expert. To achieve the collaborative learning in long-tailed learning, the balanced online distillation is proposed to force the consistent predictions among different experts and augmented copies, which reduces the learning uncertainties. Moreover, in order to improve the meticulous distinguishing ability on the confusing categories, we further propose a Hard Category Mining (HCM), which selects the negative categories with high predicted scores as the hard categories. Then, the collaborative learning is formulated in a nested way, in which the learning is conducted on not just all categories from a full perspective but some hard categories from a partial perspective. Extensive experiments manifest the superiority of our method with outperforming the state-of-the-art whether with using a single model or an ensemble. The code will be publicly released.
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# 運動インクリメントを用いた運動予測のための時空間分岐

Spatio-Temporal Branching for Motion Prediction using Motion Increments ( http://arxiv.org/abs/2308.01097v4 )

ライセンス: Link先を確認
Jiexin Wang, Yujie Zhou, Wenwen Qiang, Ying Ba, Bing Su, Ji-Rong Wen, (参考訳) HMP(Human Motion Prediction)は多種多様な応用のために人気の高い研究トピックとして登場したが、将来的なポーズの確率的・周期的性質のため、依然として難しい課題である。 従来の手法は手作りの特徴と機械学習技術に依存しており、人間の動きの複雑な力学をモデル化するのに苦労することが多い。 近年の深層学習に基づく手法は、時空間的な動きの表現を学習することで成功しているが、これらのモデルはしばしば動きデータの信頼性を見落としている。 さらに、骨格ノードの時間的および空間的依存関係は異なっている。 時間的関係は時間とともに動き情報を捉え、空間的関係は体の構造と異なるノード間の関係を記述する。 本稿では,時間領域と空間領域の特徴の学習を分離し,より多くの動き情報を抽出し,知識蒸留を通じて補完的なクロスドメイン知識学習を実現するHMPのための漸進的情報を用いた時空間分岐ネットワークを提案する。 提案手法は,音の干渉を効果的に低減し,時間的特徴と空間的特徴を別々に抽出することによって,動きを特徴付けるためのより表現力のある情報を提供する。 我々は,標準的なHMPベンチマークと最先端手法を予測精度で評価する。

Human motion prediction (HMP) has emerged as a popular research topic due to its diverse applications, but it remains a challenging task due to the stochastic and aperiodic nature of future poses. Traditional methods rely on hand-crafted features and machine learning techniques, which often struggle to model the complex dynamics of human motion. Recent deep learning-based methods have achieved success by learning spatio-temporal representations of motion, but these models often overlook the reliability of motion data. Additionally, the temporal and spatial dependencies of skeleton nodes are distinct. The temporal relationship captures motion information over time, while the spatial relationship describes body structure and the relationships between different nodes. In this paper, we propose a novel spatio-temporal branching network using incremental information for HMP, which decouples the learning of temporal-domain and spatial-domain features, extracts more motion information, and achieves complementary cross-domain knowledge learning through knowledge distillation. Our approach effectively reduces noise interference and provides more expressive information for characterizing motion by separately extracting temporal and spatial features. We evaluate our approach on standard HMP benchmarks and outperform state-of-the-art methods in terms of prediction accuracy.
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# モデルDNAによるモデル存在

Model Provenance via Model DNA ( http://arxiv.org/abs/2308.02121v2 )

ライセンス: Link先を確認
Xin Mu, Yu Wang, Yehong Zhang, Jiaqi Zhang, Hui Wang, Yang Xiang, Yue Yu, (参考訳) 機械学習(ML)モデルのライフサイクルを理解することは、興味深い研究分野である(例えば、モデルがどこから来たのか、どのようにトレーニングされ、どのように使用されるのかを理解する)。 本稿では,対象モデルと事前学習モデルとの関係を考慮し,対象モデルが対象モデルの証明となるかどうかを判断することを目的とした,この領域における新しい問題,すなわち,MP(Model Provenance)に焦点を当てる。 これは、機械学習モデルのセキュリティと知的財産権の確保に重要な意味を持つ重要な問題であるが、文献にはあまり注目されていない。 このギャップを埋めるために、機械学習モデルのユニークな特徴を表すモデルDNAという新しい概念を導入する。 データ駆動型およびモデル駆動型表現学習法を用いて、モデルのトレーニングデータと入力出力情報を、コンパクトで包括的な表現(つまり、DNA)として符号化する。 このモデルDNAを用いて、ターゲットモデルの事前学習モデルであるかどうかを識別できるモデル証明同定のための効率的なフレームワークを開発する。 我々は,様々なモデル,データセット,シナリオを用いて,コンピュータビジョンと自然言語処理の両方のタスクの評価を行い,モデル前駆体を正確に同定する手法の有効性を実証する。

Understanding the life cycle of the machine learning (ML) model is an intriguing area of research (e.g., understanding where the model comes from, how it is trained, and how it is used). This paper focuses on a novel problem within this field, namely Model Provenance (MP), which concerns the relationship between a target model and its pre-training model and aims to determine whether a source model serves as the provenance for a target model. This is an important problem that has significant implications for ensuring the security and intellectual property of machine learning models but has not received much attention in the literature. To fill in this gap, we introduce a novel concept of Model DNA which represents the unique characteristics of a machine learning model. We utilize a data-driven and model-driven representation learning method to encode the model's training data and input-output information as a compact and comprehensive representation (i.e., DNA) of the model. Using this model DNA, we develop an efficient framework for model provenance identification, which enables us to identify whether a source model is a pre-training model of a target model. We conduct evaluations on both computer vision and natural language processing tasks using various models, datasets, and scenarios to demonstrate the effectiveness of our approach in accurately identifying model provenance.
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# 私の言葉で世界を示す: シーンテキストからシーンテキストへの翻訳のための最初のベースラインを確立する

Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation ( http://arxiv.org/abs/2308.03024v2 )

ライセンス: Link先を確認
Shreyas Vaidya, Arvind Kumar Sharma, Prajwal Gatti, Anand Mishra, (参考訳) 本研究では,シーンテキストをソース言語 (eg , Hindi) から対象言語 (eg , English) へ視覚的に翻訳する作業について検討する。 視覚翻訳は、シーンテキストの認識と翻訳だけでなく、フォント、サイズ、背景といった元のシーンテキストの視覚的特徴を保存する翻訳画像の生成も含む。 このタスクには、限られた文脈での翻訳、翻訳と文字の翻訳の決定、固定された空間境界内での様々なテキストの長さの調整、ターゲット言語におけるソースシーンテキストのフォントと背景スタイルの保存など、いくつかの課題がある。 この問題に対処するため、以下の貢献をしている。 (i)本論文では,視覚翻訳を単独問題として初めて考察した。 (II)シーンテキスト認識,機械翻訳,シーンテキスト合成のための最先端モジュールをタスクのベースラインとして組み合わせた視覚翻訳フレームワークを提案する。 (3) 性能改善のために, ベースラインの変種を設計するためのタスク固有の設計拡張セットを提案する。 (四)現時点の文献では、この新たな課題に対する総合的な性能評価が欠如している。 このギャップを埋めるために、視覚翻訳を明示的に評価するための自動的およびユーザ支援的な評価指標をいくつか導入する。 さらに,ヒンディー語と英語のシーンテキストを翻訳するための提示ベースラインの評価を行った。 本実験は,シーンテキスト画像の集合体上で視覚的翻訳を効果的に行うことができるが,提示されたベースラインは視覚的翻訳タスクによって生じる課題に部分的に対処するのみであることを示す。 我々は,この新たな課題と既存モデルの限界が,視覚翻訳のさらなる研究を促進すると強く信じている。

In this work, we study the task of visually translating scene text from a source language (e.g., Hindi) to a target language (e.g., English). Visual translation involves not just the recognition and translation of scene text but also the generation of the translated image that preserves visual features of the source scene text, such as font, size, and background. There are several challenges associated with this task, such as translation with limited context, deciding between translation and transliteration, accommodating varying text lengths within fixed spatial boundaries, and preserving the font and background styles of the source scene text in the target language. To address this problem, we make the following contributions: (i) We study visual translation as a standalone problem for the first time in the literature. (ii) We present a cascaded framework for visual translation that combines state-of-the-art modules for scene text recognition, machine translation, and scene text synthesis as a baseline for the task. (iii) We propose a set of task-specific design enhancements to design a variant of the baseline to obtain performance improvements. (iv) Currently, the existing related literature lacks any comprehensive performance evaluation for this novel task. To fill this gap, we introduce several automatic and user-assisted evaluation metrics designed explicitly for evaluating visual translation. Further, we evaluate presented baselines for translating scene text between Hindi and English. Our experiments demonstrate that although we can effectively perform visual translation over a large collection of scene text images, the presented baseline only partially addresses challenges posed by visual translation tasks. We firmly believe that this new task and the limitations of existing models, as reported in this paper, should encourage further research in visual translation.
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# 低レイテンシ同時音声翻訳におけるエンドツーエンド評価

End-to-End Evaluation for Low-Latency Simultaneous Speech Translation ( http://arxiv.org/abs/2308.03415v3 )

ライセンス: Link先を確認
Christian Huber, Tu Anh Dinh, Carlos Mullov, Ngoc Quan Pham, Thai Binh Nguyen, Fabian Retkowski, Stefan Constantin, Enes Yavuz Ugan, Danni Liu, Zhaolin Li, Sai Koneru, Jan Niehues, Alexander Waibel, (参考訳) 低遅延音声翻訳の課題は、いくつかの出版物や共有タスクで示されるように、最近、研究コミュニティにおいて大きな関心を集めている。 したがって、これらの異なるアプローチを現実的なシナリオで評価することが不可欠である。 しかし、現時点ではシステムの特定の側面のみが評価されており、異なるアプローチを比較することはしばしば不可能である。 本研究では,現実的な条件下での低遅延音声翻訳の諸側面の実行と評価を行うための第1の枠組みを提案する。 評価はエンドツーエンドで行われる。 これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。 第2に,このフレームワークを用いた低遅延音声翻訳における異なるアプローチを比較した。 我々は、出力を更新するオプションを持つモデルと、固定出力を持つメソッドを評価する。 さらに、最先端のカスケードシステムとエンドツーエンドシステムを直接比較する。 最後に、このフレームワークは翻訳品質とレイテンシを自動的に評価し、低レイテンシモデルの出力をユーザに示すWebインターフェースを提供する。

The challenge of low-latency speech translation has recently draw significant interest in the research community as shown by several publications and shared tasks. Therefore, it is essential to evaluate these different approaches in realistic scenarios. However, currently only specific aspects of the systems are evaluated and often it is not possible to compare different approaches. In this work, we propose the first framework to perform and evaluate the various aspects of low-latency speech translation under realistic conditions. The evaluation is carried out in an end-to-end fashion. This includes the segmentation of the audio as well as the run-time of the different components. Secondly, we compare different approaches to low-latency speech translation using this framework. We evaluate models with the option to revise the output as well as methods with fixed output. Furthermore, we directly compare state-of-the-art cascaded as well as end-to-end systems. Finally, the framework allows to automatically evaluate the translation quality as well as latency and also provides a web interface to show the low-latency model outputs to the user.
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# フェイクからリアルへ:バランスの取れた合成画像の事前学習と画像認識における純粋相関の防止

From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition ( http://arxiv.org/abs/2308.04553v3 )

ライセンス: Link先を確認
Maan Qraitem, Kate Saenko, Bryan A. Plummer, (参考訳) 視覚認識モデルは、ある条件のB$ (\eg, Indoors) が特定のクラスで過剰に表現されるバイアス付きトレーニングセットによって引き起こされる刺激的な相関を学習する傾向がある。 既成の大規模生成モデルからの合成データは、実際のデータセットで表現されていないサブグループを増やすことでこの問題を緩和する有望な方向を提供する。 しかし, 実データと合成データの混合分布を用いて, 合成データと実データとの分布差による別のバイアス源を導入する。 ここで示すように、B$に対するモデルのバイアスを解決するために合成データを使用する以前の作業のアプローチは、サンプルが実かどうかを示す$(B, G)$に対してモデルのバイアスを補正しない。 したがって、モデルは、ペア$(B, G)$ (\eg, Synthetic Indoors) に基づいて信号を学び、約$Y$ (\eg, Big Dogs) の予測を行うことができる。 この問題に対処するため,我々はFrom Fake to Real (FFR)と呼ばれる,シンプルで実装が容易な2段階のトレーニングパイプラインを提案する。 FFRの最初のステップは、バランスの取れた合成データのモデルを事前訓練し、サブグループ間で堅牢な表現を学ぶことである。 第2のステップでは、FFRはEMMまたは共通の損失に基づくバイアス緩和法を用いて、実データ上でモデルを微調整する。 実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開せず、従ってペア$(B, G)$に対するバイアスの問題を回避することができる。 実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20倍向上させることがわかった。 コード表示: \url{https://github.com/mqraitem/From-Fake-to-Real}

Visual recognition models are prone to learning spurious correlations induced by a biased training set where certain conditions $B$ (\eg, Indoors) are over-represented in certain classes $Y$ (\eg, Big Dogs). Synthetic data from off-the-shelf large-scale generative models offers a promising direction to mitigate this issue by augmenting underrepresented subgroups in the real dataset. However, by using a mixed distribution of real and synthetic data, we introduce another source of bias due to distributional differences between synthetic and real data (\eg synthetic artifacts). As we will show, prior work's approach for using synthetic data to resolve the model's bias toward $B$ do not correct the model's bias toward the pair $(B, G)$, where $G$ denotes whether the sample is real or synthetic. Thus, the model could simply learn signals based on the pair $(B, G)$ (\eg, Synthetic Indoors) to make predictions about $Y$ (\eg, Big Dogs). To address this issue, we propose a simple, easy-to-implement, two-step training pipeline that we call From Fake to Real (FFR). The first step of FFR pre-trains a model on balanced synthetic data to learn robust representations across subgroups. In the second step, FFR fine-tunes the model on real data using ERM or common loss-based bias mitigation methods. By training on real and synthetic data separately, FFR does not expose the model to the statistical differences between real and synthetic data and thus avoids the issue of bias toward the pair $(B, G)$. Our experiments show that FFR improves worst group accuracy over the state-of-the-art by up to 20\% over three datasets. Code available: \url{https://github.com/mqraitem/From-Fake-to-Real}
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# ディープラーニングによる自動運転システムにおける予測と計画の統合再考

Rethinking the Integration of Prediction and Planning in Deep Learning-Based Automated Driving Systems: A Review ( http://arxiv.org/abs/2308.05731v2 )

ライセンス: Link先を確認
Steffen Hagedorn, Marcel Hallgarten, Martin Stoll, Alexandru Condurache, (参考訳) 自動走行は、個人、公共、貨物の移動に革命をもたらす可能性がある。 環境を正確に把握するためには、自動運転車は安全で快適で効率的な移動路を計画する必要がある。 安全と進歩を促進するために、多くの研究は周囲の交通の将来の動きを予測するモジュールに依存している。 モジュール化された自動運転システムは、予測と計画を逐次的に別々のタスクとして扱うのが一般的である。 これは、周囲の交通がエゴ車に与える影響を説明できるが、エゴ車の行動に対する交通参加者の反応を予測できない。 最近のモデルでは、双方向の相互作用をモデル化するための共同または相互依存的なステップで予測と計画を統合する傾向が強まっている。 現在、異なる統合原則に関する包括的な概要が欠落している。 我々は、最先端のディープラーニングベースの予測と計画を体系的にレビューし、統合された予測と計画モデルに焦点を当てる。 モデルアーキテクチャやモデル設計から行動的側面まで、統合のさまざまな側面が考慮され、相互に関連付けられています。 さらに、異なる統合原則の意味、強み、限界についても論じる。 研究のギャップを指摘し、今後の課題を解説し、研究分野のトレンドを強調することによって、今後の研究への有望な方向性を明らかにする。

Automated driving has the potential to revolutionize personal, public, and freight mobility. Beside accurately perceiving the environment, automated vehicles must plan a safe, comfortable, and efficient motion trajectory. To promote safety and progress, many works rely on modules that predict the future motion of surrounding traffic. Modular automated driving systems commonly handle prediction and planning as sequential, separate tasks. While this accounts for the influence of surrounding traffic on the ego vehicle, it fails to anticipate the reactions of traffic participants to the ego vehicle's behavior. Recent models increasingly integrate prediction and planning in a joint or interdependent step to model bi-directional interactions. To date, a comprehensive overview of different integration principles is lacking. We systematically review state-of-the-art deep learning-based prediction and planning, and focus on integrated prediction and planning models. Different facets of the integration ranging from model architecture and model design to behavioral aspects are considered and related to each other. Moreover, we discuss the implications, strengths, and limitations of different integration principles. By pointing out research gaps, describing relevant future challenges, and highlighting trends in the research field, we identify promising directions for future research.
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# カーノンリニア干渉計セットアップにおける熱光による高感度位相推定

Supersensitive phase estimation by thermal light in a Kerr-nonlinear interferometric setup ( http://arxiv.org/abs/2308.13267v2 )

ライセンス: Link先を確認
Nilakantha Meher, Eilon Poem, Tomáš Opatrný, Ofer Firstenberg, Gershon Kurizki, (参考訳) 干渉計アーム間の位相遅延の推定は、透過相顕微鏡のコアとなる。 このような位相推定は、入力が絡み合った2モード状態、例えば g , a N00N 状態である場合、標準量子(ショットノイズ)限界以下の誤差を示す。 対照的に、そのような超感度位相推定(SSPE)は、Kerr-nonlinear two-mode couplerを介してマッハ-ツェンダー干渉計に注入される光であるtextit{incoherent}, e g , \textit{thermal} によって達成可能であることを示す。 位相誤差は平均光子数である1/\bar{n}$, $\bar{n}$以下に減少することが示され、光子対当たりの小さな非線形位相シフトや大きな光子損失に対しても、そのような干渉計セットアップにおける熱入力によって示される。 熱入力によって得られる位相精度は、同じ$\bar{n}$のコヒーレント光を超える。 コールド原子ガス中におけるリドバーグ偏光子の双極子-双極子相互作用やキャビティ強化された分散原子-磁場相互作用から生じる巨大なケーラー非線形性を持つモードカップラは、このような効果を利用して、非コヒーレントでかすかな光源を用いた干渉型位相顕微鏡を実質的に前進させることができる。

Estimation of the phase delay between interferometer arms is the core of transmission phase microscopy. Such phase estimation may exhibit an error below the standard quantum (shot-noise) limit, if the input is an entangled two-mode state, e.g., a N00N state. We show, by contrast, that such supersensitive phase estimation (SSPE) is achievable by \textit{incoherent}, e.g., \textit{thermal}, light that is injected into a Mach-Zehnder interferometer via a Kerr-nonlinear two-mode coupler. Phase error is shown to be reduced below $1/\bar{n}$, $\bar{n}$ being the mean photon number, by thermal input in such interferometric setups, even for small nonlinear phase-shifts per photon pair or for significant photon loss. Remarkably, the phase accuracy achievable in such setups by thermal input surpasses that of coherent light with the same $\bar{n}$. Available mode couplers with giant Kerr nonlinearity that stems either from dipole-dipole interactions of Rydberg polaritons in a cold atomic gas, or from cavity-enhanced dispersive atom-field interactions, may exploit such effects to substantially advance interferometric phase microscopy using incoherent, faint light sources.
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# 量子状態とSPAMノイズの同時トモグラフィのための普遍的枠組み

Universal framework for simultaneous tomography of quantum states and SPAM noise ( http://arxiv.org/abs/2308.15648v4 )

ライセンス: Link先を確認
Abhijith Jayakumar, Stefano Chessa, Carleton Coffrin, Andrey Y. Lokhov, Marc Vuffray, Sidhant Misra, (参考訳) 本稿では,量子状態と測定ノイズの同時トモグラフィを実現するための一般的なデノゲーションアルゴリズムを提案する。 このアルゴリズムにより、任意の量子系に存在する状態準備測定(SPAM)誤差を完全に特徴づけることができる。 本手法は、ユニタリ演算によって誘導される線形作用素空間の特性の解析に基づく。 ノイズ測定装置を備えた任意の量子系が与えられた場合、本手法は検出器の量子状態とノイズ行列を1ゲージ自由度まで出力することができる。 一般の場合、このゲージ自由度は避けられないが、この縮退性は、状態やノイズ特性に関する事前の知識を用いて、一般に破壊されうるので、雑音強度に関する仮定なしに、いくつかの種類の状態-雑音の組み合わせに対してゲージを固定することができる。 このような組み合わせには、任意に相関したエラーを持つ純粋量子状態と、独立なエラーをブロックする任意の状態が含まれる。 このフレームワークは、設定に関する事前情報をさらに活用して、状態検出やノイズ検出に必要な観測と測定の数を体系的に削減することができる。 本手法は,問題に対する既存のアプローチを効果的に一般化し,非相関的あるいは可逆的なノイズ行列,あるいは特定のプローブ状態を必要とする文献で考慮される一般的な設定を含む。

We present a general denoising algorithm for performing simultaneous tomography of quantum states and measurement noise. This algorithm allows us to fully characterize state preparation and measurement (SPAM) errors present in any quantum system. Our method is based on the analysis of the properties of the linear operator space induced by unitary operations. Given any quantum system with a noisy measurement apparatus, our method can output the quantum state and the noise matrix of the detector up to a single gauge degree of freedom. We show that this gauge freedom is unavoidable in the general case, but this degeneracy can be generally broken using prior knowledge on the state or noise properties, thus fixing the gauge for several types of state-noise combinations with no assumptions about noise strength. Such combinations include pure quantum states with arbitrarily correlated errors, and arbitrary states with block independent errors. This framework can further use available prior information about the setting to systematically reduce the number of observations and measurements required for state and noise detection. Our method effectively generalizes existing approaches to the problem, and includes as special cases common settings considered in the literature requiring an uncorrelated or invertible noise matrix, or specific probe states.
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# OpenIns3D: 3Dオープン語彙インスタンスセグメンテーションのためのスナップとルックアップ

OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation ( http://arxiv.org/abs/2309.00616v4 )

ライセンス: Link先を確認
Zhening Huang, Xiaoyang Wu, Xi Chen, Hengshuang Zhao, Lei Zhu, Joan Lasenby, (参考訳) 本研究では,3次元オープン語彙シーン理解のための新しい3DインプットオンリーフレームワークであるOpenIns3Dを紹介する。 OpenIns3Dフレームワークは"Mask-Snap-Lookup"スキームを採用している。 Mask"モジュールは3Dポイントクラウド内のクラス非依存マスクの提案を学習し、"Snap"モジュールは複数のスケールで合成シーンレベルの画像を生成し、2D視覚言語モデルを利用して興味深いオブジェクトを抽出し、"Lookup"モジュールは"Snap"の結果を検索して、提案したマスクにカテゴリ名を割り当てる。 このアプローチはシンプルながら、屋内と屋外の両方のデータセット上で、認識、オブジェクト検出、インスタンスセグメンテーションを含む、幅広い3Dオープン語彙タスクで最先端のパフォーマンスを実現する。 さらにOpenIns3Dは、再トレーニングを必要とせずに、異なる2D検出器の切り替えを容易にする。 強力な2次元オープンワールドモデルと統合すると、シーン理解タスクにおいて優れた結果が得られる。 さらに、LLMを使った2Dモデルと組み合わせると、OpenIns3Dは複雑な推論と実世界の知識を必要とする非常に複雑なテキストクエリを理解し、処理する印象的な能力を示す。 プロジェクトページ: https://zheninghuang.github.io/OpenIns3D/

In this work, we introduce OpenIns3D, a new 3D-input-only framework for 3D open-vocabulary scene understanding. The OpenIns3D framework employs a "Mask-Snap-Lookup" scheme. The "Mask" module learns class-agnostic mask proposals in 3D point clouds, the "Snap" module generates synthetic scene-level images at multiple scales and leverages 2D vision-language models to extract interesting objects, and the "Lookup" module searches through the outcomes of "Snap" to assign category names to the proposed masks. This approach, yet simple, achieves state-of-the-art performance across a wide range of 3D open-vocabulary tasks, including recognition, object detection, and instance segmentation, on both indoor and outdoor datasets. Moreover, OpenIns3D facilitates effortless switching between different 2D detectors without requiring retraining. When integrated with powerful 2D open-world models, it achieves excellent results in scene understanding tasks. Furthermore, when combined with LLM-powered 2D models, OpenIns3D exhibits an impressive capability to comprehend and process highly complex text queries that demand intricate reasoning and real-world knowledge. Project page: https://zheninghuang.github.io/OpenIns3D/
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# 自己回帰型次世代予測器はユニバーサルラーナーである

Auto-Regressive Next-Token Predictors are Universal Learners ( http://arxiv.org/abs/2309.06979v2 )

ライセンス: Link先を確認
Eran Malach, (参考訳) 大規模言語モデルは論理的および数学的推論において顕著な能力を示し、複雑なタスクを解くことができる。 興味深いことに、これらの能力は次世代の予測という単純なタスクに基づいて訓練されたネットワークに現れる。 本研究では,自動回帰型次世代予測器の理論的枠組みを提案する。 チェイン・オブ・ソート(CoT)データに基づいて訓練された線形次トーケン予測器のような単純なモデルでさえ、チューリングマシンによって効率的に計算される任意の関数を近似できることを示した。 対象関数を近似するために必要なCoTシーケンスの中間トークン数を測定し、長さ複雑性と他の複雑性の概念との相互作用を分析する。 最後に、線形ネットワークや浅層多層パーセプトロン(MLP)のような単純な次世代予測器が、テキスト生成や算術タスクにおいて非自明な性能を示すことを示す。 我々の結果は、今日のLLMのパワーは、自動回帰的な次世代のトレーニングスキームに大きく寄与し、必ずしも特定のアーキテクチャの選択に寄与するわけではないことを証明している。

Large language models display remarkable capabilities in logical and mathematical reasoning, allowing them to solve complex tasks. Interestingly, these abilities emerge in networks trained on the simple task of next-token prediction. In this work, we present a theoretical framework for studying auto-regressive next-token predictors. We demonstrate that even simple models such as linear next-token predictors, trained on Chain-of-Thought (CoT) data, can approximate any function efficiently computed by a Turing machine. We introduce a new complexity measure -- length complexity -- which measures the number of intermediate tokens in a CoT sequence required to approximate some target function, and analyze the interplay between length complexity and other notions of complexity. Finally, we show experimentally that simple next-token predictors, such as linear networks and shallow Multi-Layer Perceptrons (MLPs), display non-trivial performance on text generation and arithmetic tasks. Our results demonstrate that the power of today's LLMs can be attributed, to a great extent, to the auto-regressive next-token training scheme, and not necessarily to a particular choice of architecture.
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# PanoVOS:ビデオセグメンテーションのためのトランスフォーマによる非パノラマおよびパノラマビューのブリッジ

PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation ( http://arxiv.org/abs/2309.12303v4 )

ライセンス: Link先を確認
Shilin Yan, Xiaohao Xu, Renrui Zhang, Lingyi Hong, Wenchao Chen, Wenqiang Zhang, Wei Zhang, (参考訳) パノラマビデオには、より豊かな空間情報が含まれており、自律運転やバーチャルリアリティといったいくつかの分野での例外的な経験から、非常に多くの注目を集めている。 しかし、既存のビデオセグメンテーション用データセットは、従来の平面画像のみに焦点を当てている。 本論文では,パノラマビデオデータセットであるパノVOSを提案する。 データセットは150本のビデオに高解像度と多様なモーションを提供する。 2次元平面ビデオとパノラマビデオの領域ギャップを定量化するために,パノVOSを用いた15のオフ・ザ・シェルフビデオオブジェクトセグメンテーション(VOS)モデルを評価した。 エラー解析により、パノラマビデオの画素レベルのコンテンツ不連続に対処できないことが判明した。 そこで我々は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に活用できるパノラマ空間整合変換器(PSCFormer)を提案する。 我々のPSCFormerネットワークは,従来のSOTAモデルと比較して,パノラマ条件下でのセグメンテーション結果において大きな優位性を示す。 我々のデータセットはパノラマVOSに新たな課題をもたらしており、パノラマVOSがパノラマセグメンテーション/トラッキングの開発を前進させることを期待しています。

Panoramic videos contain richer spatial information and have attracted tremendous amounts of attention due to their exceptional experience in some fields such as autonomous driving and virtual reality. However, existing datasets for video segmentation only focus on conventional planar images. To address the challenge, in this paper, we present a panoramic video dataset, PanoVOS. The dataset provides 150 videos with high video resolutions and diverse motions. To quantify the domain gap between 2D planar videos and panoramic videos, we evaluate 15 off-the-shelf video object segmentation (VOS) models on PanoVOS. Through error analysis, we found that all of them fail to tackle pixel-level content discontinues of panoramic videos. Thus, we present a Panoramic Space Consistency Transformer (PSCFormer), which can effectively utilize the semantic boundary information of the previous frame for pixel-level matching with the current frame. Extensive experiments demonstrate that compared with the previous SOTA models, our PSCFormer network exhibits a great advantage in terms of segmentation results under the panoramic setting. Our dataset poses new challenges in panoramic VOS and we hope that our PanoVOS can advance the development of panoramic segmentation/tracking.
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# AnglEを最適化したテキスト埋め込み

AnglE-optimized Text Embeddings ( http://arxiv.org/abs/2309.12871v8 )

ライセンス: Link先を確認
Xianming Li, Jing Li, (参考訳) 高品質なテキスト埋め込みは、Large Language Model (LLM)アプリケーションにおいて重要なコンポーネントであるセマンティックテキスト類似性(STS)タスクの改善において重要な要素である。 しかし、既存のテキスト埋め込みモデルが直面する共通の課題は、主に飽和ゾーンを持つ最適化対象のコサイン関数に依存するため、勾配の消失である。 そこで本研究では,AnglEと呼ばれる新しい角度最適化テキスト埋め込みモデルを提案する。 AnglEの中核となる考え方は、複素空間に角度最適化を導入することである。 この手法は、勾配を阻害し最適化を妨げうるコサイン関数における飽和域の悪影響を効果的に軽減する。 包括的なSTS評価を設定するために、既存の短文STSデータセットとGitHub Issuesから新たに収集された長文STSデータセットを実験した。 さらに、ラベル付きデータに制限のあるドメイン固有のSTSシナリオについて検討し、LLMアノテーション付きデータでAnglEがどのように動作するかを検討する。 短文STS、長文STS、ドメイン固有のSTSタスクなど、さまざまなタスクで大規模な実験が行われた。 その結果、AnglEはコサイン飽和ゾーンを無視したSOTA(State-of-the-art STS)モデルよりも優れていた。 これらの結果は、AnglEが高品質なテキスト埋め込みを生成する能力と、STSにおける角度最適化の有用性を示している。

High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
翻訳日:2024-07-18 23:28:28 公開日:2024-07-17
# 貨幣の新しい経済・財政理論

A new economic and financial theory of money ( http://arxiv.org/abs/2310.04986v6 )

ライセンス: Link先を確認
Michael E. Glinsky, Sharon Sievert, (参考訳) 本稿では、電子通貨を含む経済・金融理論を根本的に改革する。 電子通貨の評価は、割引キャッシュフローのミクロ経済理論ではなく、マクロ経済理論と金融政策の基本方程式に基づいて行われる。 サブエコノミーの有形資産に関連する取引株式としての電子通貨の見方は、主にサブエコノミーの無形資産に関連する株式としての株式とは対照的である。 この見解は、実質的な(電子通貨の流動性のために)金融(電子通貨供給及び価値安定化)及び財政(投資及び運用)政策の調整を行う機関として、電子通貨管理会社によって策定される。 評価と意思決定で使用されるリスクモデルは、ディスカウント率につながるユビキタスで不適切な指数的リスクモデルではなく、真のリスクを捉えるマルチタイムスケールモデルになります。 意思決定は、多スケールリスクモデルと、Deep Reinforcement Learning、Generative Pretrained Transformers、およびその他のGenerative Artificial Intelligence(genAI)の手法を利用するシステムコントローラによって与えられるシステム応答関数に基づいて、真のシステム制御の観点からアプローチされる。 最後に、サブエコノミーは、短期的な利用に関連する安定平衡と、マルチスケールのシステム応答関数とgenAIに基づくアクティブな非線形制御で安定化する必要がある不安定平衡の両方を持つ非線形複素物理系と見なされる。

This paper fundamentally reformulates economic and financial theory to include electronic currencies. The valuation of the electronic currencies will be based on macroeconomic theory and the fundamental equation of monetary policy, not the microeconomic theory of discounted cash flows. The view of electronic currency as a transactional equity associated with tangible assets of a sub-economy will be developed, in contrast to the view of stock as an equity associated mostly with intangible assets of a sub-economy. The view will be developed of the electronic currency management firm as an entity responsible for coordinated monetary (electronic currency supply and value stabilization) and fiscal (investment and operational) policies of a substantial (for liquidity of the electronic currency) sub-economy. The risk model used in the valuations and the decision-making will not be the ubiquitous, yet inappropriate, exponential risk model that leads to discount rates, but will be multi time scale models that capture the true risk. The decision-making will be approached from the perspective of true systems control based on a system response function given by the multi scale risk model and system controllers that utilize the Deep Reinforcement Learning, Generative Pretrained Transformers, and other methods of Generative Artificial Intelligence (genAI). Finally, the sub-economy will be viewed as a nonlinear complex physical system with both stable equilibriums that are associated with short-term exploitation, and unstable equilibriums that need to be stabilized with active nonlinear control based on the multi scale system response functions and genAI.
翻訳日:2024-07-18 23:18:25 公開日:2024-07-17
# MuggleMath: クエリとレスポンスの増大が数学推論に与える影響を評価する

MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning ( http://arxiv.org/abs/2310.05506v3 )

ライセンス: Link先を確認
Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting Dong, Keming Lu, Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou, (参考訳) 大規模言語モデル(LLM)を用いた数学推論において、クエリの進化と多様な推論経路による微調整データ拡張は実験的に有効であり、オープンソースのLLMと最先端のLLMとのギャップを著しく狭めている。 本稿では,数理推論におけるデータ拡張に関する調査を行い,(1)データ拡張の戦略がより効果的であるか,(2)拡張データ量とモデル性能のスケーリングの関係はどのようなものか,(3)データ拡張は,領域外な数学的推論タスクへの一般化を動機付けることができるのか,などについて述べる。 この目的のために、クエリを複雑化し多様化し、GSM8KとMATHから複数の推論経路をサンプリングすることで、2つの新しいデータセットAugGSM8KとAugMATHを作成する。 我々は、AugGSM8KとAugMATHのLLaMAモデルを微調整して、MuggleMathと呼ばれる一連のLLMを得た。 MuggleMath は GSM8K と MATH の新たな最先端を実現している。 また、GSM8KとMATHの加算データ量と、MuggleMathの性能との間には、ログ-線形関係とセグメントログ-線形関係がそれぞれ示される。 また, AugGSM8K から MATH , AugMATH から GSM8K までの領域外数学推論の一般化には弱いことが判明した。 コードと拡張データはhttps://github.com/OFA-Sys/gsm8k-ScRel.orgで公開しています。

In math reasoning with large language models (LLMs), fine-tuning data augmentation by query evolution and diverse reasoning paths is empirically verified effective, profoundly narrowing the gap between open-sourced LLMs and cutting-edge proprietary LLMs. In this paper, we conduct an investigation for such data augmentation in math reasoning and are intended to answer: (1) What strategies of data augmentation are more effective; (2) What is the scaling relationship between the amount of augmented data and model performance; and (3) Can data augmentation incentivize generalization to out-of-domain mathematical reasoning tasks? To this end, we create two new dataset AugGSM8K and AugMATH, by complicating and diversifying the queries and sampling multiple reasoning paths from GSM8K and MATH. We obtained a series of LLMs called MuggleMath by fine-tuning LLaMA models on AugGSM8K and AugMATH. MuggleMath substantially achieves new state-of-the-art on GSM8K and MATH. A log-linear relationship and a segmented log-linear are presented between MuggleMath's performance and the amount of augmented data on GSM8K and MATH, respectively. We also find that it is weak in out-of-domain math reasoning generalization from AugGSM8K to MATH and from AugMATH to GSM8K, which suggests that augmenting queries that cover a broader range of subjects is more beneficial for generalization. We release our codes and augmented data in https://github.com/OFA-Sys/gsm8k-ScRel.
翻訳日:2024-07-18 23:18:25 公開日:2024-07-17
# X-Pose: キーポイントの検出

X-Pose: Detecting Any Keypoints ( http://arxiv.org/abs/2310.08530v2 )

ライセンス: Link先を確認
Jie Yang, Ailing Zeng, Ruimao Zhang, Lei Zhang, (参考訳) この研究は、複雑な現実世界のシナリオにおいて、巨大な、乱雑でオープンなオブジェクトと関連するキーポイント定義を含むキーポイントを正確に検出する方法という、先進的なキーポイント検出問題に対処することを目的としている。 現在の高性能キーポイント検出器は、2段階のスキーム、未探索のプロンプト設計、限られた訓練データのためにこの問題に対処できないことが多い。 このギャップを埋めるために、X-Poseという、マルチモーダル(視覚的、テキスト的、あるいはそれらの組み合わせ)を持つ新しいエンドツーエンドフレームワークを提案する。 さらに,UniKPTと呼ばれる大規模データセットを導入し,400Kインスタンス上で1,237のカテゴリに338のキーポイントを持つ13のキーポイント検出データセットを統合する。 UniKPTを用いた学習では,マルチモーダルプロンプトの相互強化により,テキスト・ツー・キーポイントと画像・ツー・キーポイントを効果的に調整する。 実験の結果,X-Poseは,各フェアセッティングにおける非プロンプタブル,視覚的プロンプトベース,テキスト的プロンプトベースの手法と比較して,27.7 AP,6.44 PCK,7.0 APの顕著な改善を実現していることがわかった。 さらに重要なのは、X-Poseの強力な微粒化キーポイントのローカライゼーションと画像スタイル、オブジェクトカテゴリ、ポーズの一般化能力を示し、実際のアプリケーションでキーポイントの検出を多目的にするための新しい道を開くことだ。 私たちのコードとデータセットはhttps://github.com/IDEA-Research/X-Pose.orgで公開されています。

This work aims to address an advanced keypoint detection problem: how to accurately detect any keypoints in complex real-world scenarios, which involves massive, messy, and open-ended objects as well as their associated keypoints definitions. Current high-performance keypoint detectors often fail to tackle this problem due to their two-stage schemes, under-explored prompt designs, and limited training data. To bridge the gap, we propose X-Pose, a novel end-to-end framework with multi-modal (i.e., visual, textual, or their combinations) prompts to detect multi-object keypoints for any articulated (e.g., human and animal), rigid, and soft objects within a given image. Moreover, we introduce a large-scale dataset called UniKPT, which unifies 13 keypoint detection datasets with 338 keypoints across 1,237 categories over 400K instances. Training with UniKPT, X-Pose effectively aligns text-to-keypoint and image-to-keypoint due to the mutual enhancement of multi-modal prompts based on cross-modality contrastive learning. Our experimental results demonstrate that X-Pose achieves notable improvements of 27.7 AP, 6.44 PCK, and 7.0 AP compared to state-of-the-art non-promptable, visual prompt-based, and textual prompt-based methods in each respective fair setting. More importantly, the in-the-wild test demonstrates X-Pose's strong fine-grained keypoint localization and generalization abilities across image styles, object categories, and poses, paving a new path to multi-object keypoint detection in real applications. Our code and dataset are available at https://github.com/IDEA-Research/X-Pose.
翻訳日:2024-07-18 23:18:25 公開日:2024-07-17
# IW-GAE:教師なしドメイン適応における校正とモデル選択の改善のための重要度重み付きグループ精度推定

IW-GAE: Importance Weighted Group Accuracy Estimation for Improved Calibration and Model Selection in Unsupervised Domain Adaptation ( http://arxiv.org/abs/2310.10611v2 )

ライセンス: Link先を確認
Taejong Joo, Diego Klabjan, (参考訳) 分散シフトは、教師なしドメイン適応問題において、モデルキャリブレーションとモデル選択タスクに重大な課題をもたらす。 本研究では,群精度推定器の開発により,分布変化から生じる課題に対処する。 具体的には,グループ精度を推定することにより,モデルの校正とモデル選択に対処する新たな視点を提案する。 そこで我々は,理論解析による精度の高いグループ精度推定に繋がる重要な重みを求めるための最適化問題を定式化する。 本研究では, モデルキャリブレーションタスクでは22%, モデル選択タスクでは14%, 最先端性能では22%向上することを示した。

Distribution shifts pose significant challenges for model calibration and model selection tasks in the unsupervised domain adaptation problem -- a scenario where the goal is to perform well in a distribution shifted domain without labels. In this work, we tackle difficulties coming from distribution shifts by developing a novel importance weighted group accuracy estimator. Specifically, we present a new perspective of addressing the model calibration and model selection tasks by estimating the group accuracy. Then, we formulate an optimization problem for finding an importance weight that leads to an accurate group accuracy estimation with theoretical analyses. Our extensive experiments show that our approach improves state-of-the-art performances by 22% in the model calibration task and 14% in the model selection task.
翻訳日:2024-07-18 23:18:25 公開日:2024-07-17
# 属性に基づく生成モデルのための解釈可能な評価指標

Attribute Based Interpretable Evaluation Metrics for Generative Models ( http://arxiv.org/abs/2310.17261v3 )

ライセンス: Link先を確認
Dongkyun Kim, Mingi Kwon, Youngjung Uh, (参考訳) 訓練データセットが猫に対する犬の割合1:1である場合、1:1の犬と猫を生産する生成モデルは、3:1の犬と猫の他のモデルよりも訓練種分布によく似ている。 既存のメトリクスを使ってこの現象を捉えることはできますか? 残念ながら、これらのメトリクスは"多様性"以上の解釈性を提供しないため、私たちはできません。 そこで本稿では,属性強度の分布に関するトレーニングセットから生成した画像集合のばらつきを測定するための新しい評価プロトコルを提案する。 SaD(Single-Atribute Divergence)は、単一の属性のPDFに関するばらつきを測定する。 Paired-Atribute Divergence (PaD) は、一対の属性の合同PDFに関するばらつきを測定する。 モデルが苦労する属性を提供する。 画像の属性強度を測定するため,不均一な初期点を持つ画像ベクトルとテキストベクトルのコサイン類似度を測定するヘテロジニアスCLIPScore(HCS)を提案する。 SaD と PaD で、既存の生成モデルについて、以下のことを明らかにした。 ProjectedGANは、既存のメトリクスの競合スコアがあるにもかかわらず、あごひげを持つ赤ちゃんのような、ありえない属性関係を生成する。 拡散モデルはデータセットのさまざまな色をキャプチャするのに苦労する。 潜伏拡散モデルのより大きなサンプリングタイムステップは、イヤリングやネックレスを含むより小さなオブジェクトを生成する。 安定拡散 v1.5 は v2.1 よりも属性を捕捉する。 我々のメトリクスは、生成モデルの説明可能な評価の基礎を築いた。

When the training dataset comprises a 1:1 proportion of dogs to cats, a generative model that produces 1:1 dogs and cats better resembles the training species distribution than another model with 3:1 dogs and cats. Can we capture this phenomenon using existing metrics? Unfortunately, we cannot, because these metrics do not provide any interpretability beyond "diversity". In this context, we propose a new evaluation protocol that measures the divergence of a set of generated images from the training set regarding the distribution of attribute strengths as follows. Single-attribute Divergence (SaD) measures the divergence regarding PDFs of a single attribute. Paired-attribute Divergence (PaD) measures the divergence regarding joint PDFs of a pair of attributes. They provide which attributes the models struggle. For measuring the attribute strengths of an image, we propose Heterogeneous CLIPScore (HCS) which measures the cosine similarity between image and text vectors with heterogeneous initial points. With SaD and PaD, we reveal the following about existing generative models. ProjectedGAN generates implausible attribute relationships such as a baby with a beard even though it has competitive scores of existing metrics. Diffusion models struggle to capture diverse colors in the datasets. The larger sampling timesteps of latent diffusion model generate the more minor objects including earrings and necklaces. Stable Diffusion v1.5 better captures the attributes than v2.1. Our metrics lay a foundation for explainable evaluations of generative models.
翻訳日:2024-07-18 23:18:25 公開日:2024-07-17
# 先進論理プログラムにおける等価性の自動検証 -- Bachelor Thesis

Automated Verification of Equivalence Properties in Advanced Logic Programs -- Bachelor Thesis ( http://arxiv.org/abs/2310.19806v4 )

ライセンス: Link先を確認
Jan Heuer, (参考訳) アンサー・セット・プログラミングを用いた産業用アプリケーションの増加に伴い、特に重要なアプリケーションにおいて、正式な検証ツールの必要性も高まっている。 プログラム最適化プロセスの間は、最適化されたサブプログラムが元のサブプログラムを置き換えることができるかどうかを自動的に検証できるツールを持つことが望ましい。 形式的には、2つのプログラムの強い同値性を検証する問題に対応する。 そのため、翻訳ツールのアンセムが開発された。 2つのプログラムが強い同値であることを検証するために、古典論理のための自動定理証明器と併用することができる。 現行のアンセムでは、制限された入力言語を持つ正のプログラムの強い等価性しか検証できない。 これは、ここで論理式を生成するアンセムで実装された翻訳$\tau^*$の結果であり、これは正のプログラムに対してのみ古典論理と一致する。 この論文は、これらの制限を克服するために国歌を拡張している。 まず、変換 $\sigma^*$ が提示され、ここでの論理から古典論理へ公式を変換する。 定理は、$\sigma^*$ が古典論理学のここでの論理における同値性を表現するのにどのように使用できるかを定式化する。 第二に、$\tau^*$はプールを含むプログラムに拡張される。 別の定理は、$\sigma^*$を$\tau^*$と組み合わせて古典論理学における2つのプログラムの強い同値性を表現する方法を示している。 $\sigma^*$ と拡張 $\tau^*$ では、否定や単純な選択、プールを含む論理プログラムの強い等価性を表現できる。 拡張された $\tau^*$ と $\sigma^*$ は、アンセムの新バージョンで実装されている。 アンセムの新しいバージョンが古典論理に翻訳できるプール、否定、簡単な選択規則を含む論理プログラムのいくつかの例を示す。 いくつか...

With the increase in industrial applications using Answer Set Programming, the need for formal verification tools, particularly for critical applications, has also increased. During the program optimisation process, it would be desirable to have a tool which can automatically verify whether an optimised subprogram can replace the original subprogram. Formally this corresponds to the problem of verifying the strong equivalence of two programs. In order to do so, the translation tool anthem was developed. It can be used in conjunction with an automated theorem prover for classical logic to verify that two programs are strongly equivalent. With the current version of anthem, only the strong equivalence of positive programs with a restricted input language can be verified. This is a result of the translation $\tau^*$ implemented in anthem that produces formulas in the logic of here-and-there, which coincides with classical logic only for positive programs. This thesis extends anthem in order to overcome these limitations. First, the transformation $\sigma^*$ is presented, which transforms formulas from the logic of here-and-there to classical logic. A theorem formalises how $\sigma^*$ can be used to express equivalence in the logic of here-and-there in classical logic. Second, the translation $\tau^*$ is extended to programs containing pools. Another theorem shows how $\sigma^*$ can be combined with $\tau^*$ to express the strong equivalence of two programs in classical logic. With $\sigma^*$ and the extended $\tau^*$, it is possible to express the strong equivalence of logic programs containing negation, simple choices, and pools. Both the extended $\tau^*$ and $\sigma^*$ are implemented in a new version of anthem. Several examples of logic programs containing pools, negation, and simple choice rules, which the new version of anthem can translate to classical logic, are presented. Some a...
翻訳日:2024-07-18 23:18:25 公開日:2024-07-17
# MoCheQoS:通信システムのサービス品質自動解析

MoCheQoS: Automated Analysis of Quality of Service Properties of Communicating Systems ( http://arxiv.org/abs/2311.01415v3 )

ライセンス: Link先を確認
Carlos G. Lopez Pombo, Agustín E. Martinez Suñé, Emilio Tuosto, (参考訳) メッセージパッシングシステムの(QoS)特性を解析するための有界モデルチェッカーであるMoCheQoSを提案する。 ICTAC 2023の論文で定義された動的時間論理、振付モデル、および有界モデル検査アルゴリズムに基づいて、MoCheQoSは、サービスの構成から構築されたシステムのQoS特性の静的解析を可能にする。 計測可能なアプリケーションレベルの属性のQoS特性や、例えば金銭的コストとメモリ使用量に関連するリソース消費指標について検討する。 ツールの実装には実験的な評価が伴う。 より正確には、MoCheQoSの適用性を評価するための2つのケーススタディを提示します。 さらに,MoCheQoSのスケーラビリティを評価するための合成実験も検討した。 これらの実験により, 産業強度シナリオにおけるQoS特性を忠実に把握し, 効果的に解析できることが判明した。

We present MoCheQoS, a bounded model checker to analyse (QoS) properties of message-passing systems. Building on the dynamic temporal logic, the choreographic model, and the bounded model checking algorithm defined in our ICTAC 2023 paper, MoCheQoS enables the static analysis of QoS properties of systems built out from the composition of services. We consider QoS properties on measurable application-level attributes as well as resource consumption metrics for example those relating monetary cost to memory usage. The implementation of the tool is accompanied by an experimental evaluation. More precisely, we present two case studies meant to evaluate the applicability of MoCheQoS; the first is based on the AWS cloud while the second analyses a communicating system automatically extracted from code. Additionally, we consider synthetically generated experiments to assess the scalability of MoCheQoS. These experiments showed that our model can faithfully capture and effectively analyse QoS properties in industrial-strength scenarios.
翻訳日:2024-07-18 23:18:25 公開日:2024-07-17
# NOD-TAMP:ニューラルオブジェクト記述子による一般化可能な長距離計画

NOD-TAMP: Generalizable Long-Horizon Planning with Neural Object Descriptors ( http://arxiv.org/abs/2311.01530v3 )

ライセンス: Link先を確認
Shuo Cheng, Caelan Garrett, Ajay Mandlekar, Danfei Xu, (参考訳) 家庭や工場における複雑な操作作業の解決は, 長期的推論, きめ細かいインタラクション, 広範囲なオブジェクトとシーンの多様性など, 依然として困難な課題である。 実演からの学習スキルは効果的な戦略であるが、こうした手法は訓練データ以外の一般化性に制限があり、長期的タスクの解決に苦慮することが多い。 これを克服するために、一般化可能なオブジェクト中心機能を生成するニューラルオブジェクト記述子(NOD)と、多段階タスクを解決するために短軸スキルをチェーンするタスクと運動計画(TAMP)フレームワークの2つのパラダイムを相乗的に組み合わせることを提案する。 我々は,少数の人間によるデモンストレーションから短い操作軌跡を抽出し,NOD特徴を用いてこれらの軌跡を適応させる,TAMPベースのフレームワークであるNOD-TAMPを紹介した。 NOD-TAMPは、いくつかのデモで既存の操作ベンチマークを解決し、多様な一般化を必要とする新しいテーブルトップ操作タスクにおいて、NODベースのアプローチよりも大幅に優れている。 最後に,NOD-TAMPをツール使用や高精度挿入など,現実的なタスクにデプロイする。 詳しくはhttps://nodtamp.github.io/をご覧ください。

Solving complex manipulation tasks in household and factory settings remains challenging due to long-horizon reasoning, fine-grained interactions, and broad object and scene diversity. Learning skills from demonstrations can be an effective strategy, but such methods often have limited generalizability beyond training data and struggle to solve long-horizon tasks. To overcome this, we propose to synergistically combine two paradigms: Neural Object Descriptors (NODs) that produce generalizable object-centric features and Task and Motion Planning (TAMP) frameworks that chain short-horizon skills to solve multi-step tasks. We introduce NOD-TAMP, a TAMP-based framework that extracts short manipulation trajectories from a handful of human demonstrations, adapts these trajectories using NOD features, and composes them to solve broad long-horizon, contact-rich tasks. NOD-TAMP solves existing manipulation benchmarks with a handful of demonstrations and significantly outperforms prior NOD-based approaches on new tabletop manipulation tasks that require diverse generalization. Finally, we deploy NOD-TAMP on a number of real-world tasks, including tool-use and high-precision insertion. For more details, please visit https://nodtamp.github.io/.
翻訳日:2024-07-18 23:18:25 公開日:2024-07-17
# スピンオプティカル量子コンピューティングアーキテクチャ

A Spin-Optical Quantum Computing Architecture ( http://arxiv.org/abs/2311.05605v5 )

ライセンス: Link先を確認
Grégoire de Gliniasty, Paul Hilaire, Pierre-Emmanuel Emeriau, Stephen C. Wein, Alexia Salavrakos, Shane Mansfield, (参考訳) フォールトトレラント量子コンピューティング用に設計された適応性とモジュール型ハイブリッドアーキテクチャを提案する。 量子エミッターと線形光学的エンタングゲートを組み合わせて、物質ベースのアプローチとフォトニックベースのアプローチの両方の強度を利用する。 アーキテクチャの重要な特徴は、その実用性であり、実験的に証明された光学部品の利用に基礎を置いている。 我々のフレームワークは量子エラー訂正コードの実行を可能にするが、特に遠方の光リンクを介して組み込みの非ローカル接続を利用することにより、低密度パリティチェックコードのスケーラビリティを維持する。 その効率性を評価するために,物理的に動機付けられた誤りモデルを用いてアーキテクチャを評価した。 既存の全フォトニックアーキテクチャに匹敵する損失許容性を示すが、従来はリソース集約多重化に依存していた複雑な線形光学的資源状態生成モジュールは不要である。 アーキテクチャの汎用性は、さらなるパフォーマンス標準を向上するための、未知の道も提供します。

We introduce an adaptable and modular hybrid architecture designed for fault-tolerant quantum computing. It combines quantum emitters and linear-optical entangling gates to leverage the strength of both matter-based and photonic-based approaches. A key feature of the architecture is its practicality, grounded in the utilisation of experimentally proven optical components. Our framework enables the execution of any quantum error correcting code, but in particular maintains scalability for low-density parity check codes by exploiting built-in non-local connectivity through distant optical links. To gauge its efficiency, we evaluated the architecture using a physically motivated error model. It exhibits loss tolerance comparable to existing all-photonic architecture but without the need for intricate linear-optical resource-state-generation modules that conventionally rely on resource-intensive multiplexing. The versatility of the architecture also offers uncharted avenues for further advancing performance standards.
翻訳日:2024-07-18 23:18:25 公開日:2024-07-17
# ビデオフレーム補間における速度の曖昧さの解消

Clearer Frames, Anytime: Resolving Velocity Ambiguity in Video Frame Interpolation ( http://arxiv.org/abs/2311.08007v2 )

ライセンス: Link先を確認
Zhihang Zhong, Xiao Sun, Yu Qiao, Gurunandan Krishnan, Sizhuo Ma, Jian Wang, (参考訳) 既存のビデオフレーム補間(VFI)手法は、各オブジェクトが特定の時間ステップt(時間インデックス)のどこにいるかを盲目的に予測する。 野球のイメージが2つあるとすると、加速、減速、直線または湾曲の可能な軌道が無限に存在する。 このことは、メソッドがこれらの可能性を平均化するにつれて、しばしばぼやけたフレームをもたらす。 この複雑なタイム・ツー・ロケーションのマッピングを、フレームの予測とともに暗黙的に学習させるのではなく、オブジェクトが開始フレームと終了フレームの間をどこまで移動したかを明確に示し、"距離インデックス化(distance indexing)"と呼ばれる新しいアプローチを提供する。 この方法は、モデルに対するより明確な学習目標を提供し、オブジェクトの速度に関連する不確実性を低減します。 さらに、この余分なガイダンスであっても、物体は長距離運動における方向のあいまいさのため、特に両方の入力フレーム(すなわち、中間方向)から等しく離れている場合、ぼやけてしまう可能性があることを観察した。 そこで本研究では,長距離予測を複数の短距離ステップに分割する反復参照ベース推定手法を提案する。 プラグアンドプレイ戦略を最先端の学習ベースモデルに組み込むと、時間インデックス化と同じフォーマットの均一距離インデックスマップを用いて、任意の時間補間において、はるかにシャープな出力と優れた知覚品質を示す。 さらに、距離インデクシングをピクセル単位で指定することで、各オブジェクトの時間的操作を独立に可能とし、リタイピングのようなビデオ編集タスクのための新しいツールを提供する。 コードはhttps://zzh-tech.github.io/InterpAny-Clearer/で公開されている。

Existing video frame interpolation (VFI) methods blindly predict where each object is at a specific timestep t ("time indexing"), which struggles to predict precise object movements. Given two images of a baseball, there are infinitely many possible trajectories: accelerating or decelerating, straight or curved. This often results in blurry frames as the method averages out these possibilities. Instead of forcing the network to learn this complicated time-to-location mapping implicitly together with predicting the frames, we provide the network with an explicit hint on how far the object has traveled between start and end frames, a novel approach termed "distance indexing". This method offers a clearer learning goal for models, reducing the uncertainty tied to object speeds. We further observed that, even with this extra guidance, objects can still be blurry especially when they are equally far from both input frames (i.e., halfway in-between), due to the directional ambiguity in long-range motion. To solve this, we propose an iterative reference-based estimation strategy that breaks down a long-range prediction into several short-range steps. When integrating our plug-and-play strategies into state-of-the-art learning-based models, they exhibit markedly sharper outputs and superior perceptual quality in arbitrary time interpolations, using a uniform distance indexing map in the same format as time indexing. Additionally, distance indexing can be specified pixel-wise, which enables temporal manipulation of each object independently, offering a novel tool for video editing tasks like re-timing. The code is available at https://zzh-tech.github.io/InterpAny-Clearer/
翻訳日:2024-07-18 23:18:25 公開日:2024-07-17
# 擬似キーポイントRKHSによる自己教師付き6DoFデータ推定

Pseudo-keypoint RKHS Learning for Self-supervised 6DoF Pose Estimation ( http://arxiv.org/abs/2311.09500v3 )

ライセンス: Link先を確認
Yangzheng Wu, Michael Greenspan, (参考訳) 6自由度ポーズ推定(6DoF PE)におけるシミュレーションと現実の領域ギャップに対処し,RKHSの学習可能なカーネルを用いて,自己監督型キーポイント投票に基づく6DoF PEフレームワークを提案する。 我々は、この領域ギャップを高次元特徴空間における距離として定式化し、従来の反復マッチング法とは異なる。 提案手法は,合成真実のポーズを持つ純粋合成データに基づいて事前学習されたアダプタネットワークであり,この元となる合成ドメインからターゲットとなる実領域へネットワークパラメータを進化させる。 重要なことは、実際のデータトレーニングは擬似キーポイントによって推定される擬似目的のみを使用するため、実際の真理データアノテーションは不要である。 提案手法はRKHSPoseと呼ばれ,LINEMOD (+4.2%), Occlusion LINEMOD (+2%), YCB-Video (+3%) を含む3つの一般的な6DoF PEデータセット上で, 自己管理手法の最先端性能を実現する。 また、6つの適用可能なBOPコアデータセットすべてについて、完全な教師付き手法と比較し、上位の完全な教師付き結果の-11.3%から+0.2%の範囲で達成している。

We address the simulation-to-real domain gap in six degree-of-freedom pose estimation (6DoF PE), and propose a novel self-supervised keypoint voting-based 6DoF PE framework, effectively narrowing this gap using a learnable kernel in RKHS. We formulate this domain gap as a distance in high-dimensional feature space, distinct from previous iterative matching methods. We propose an adapter network, which is pre-trained on purely synthetic data with synthetic ground truth poses, and which evolves the network parameters from this source synthetic domain to the target real domain. Importantly, the real data training only uses pseudo-poses estimated by pseudo-keypoints, and thereby requires no real ground truth data annotations. Our proposed method is called RKHSPose, and achieves state-of-the-art performance among self-supervised methods on three commonly used 6DoF PE datasets including LINEMOD (+4.2%), Occlusion LINEMOD (+2%), and YCB-Video (+3%). It also compares favorably to fully supervised methods on all six applicable BOP core datasets, achieving within -11.3% to +0.2% of the top fully supervised results.
翻訳日:2024-07-18 23:18:25 公開日:2024-07-17
# 自然言語誘導型ドローンに向けて:空間関係マッチングを用いたGeoText-1652ベンチマーク

Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching ( http://arxiv.org/abs/2311.12751v3 )

ライセンス: Link先を確認
Meng Chu, Zhedong Zheng, Wei Ji, Tingyu Wang, Tat-Seng Chua, (参考訳) 自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットの欠如と、視覚的データとテキストデータの整列のための厳密な精度要件のため、依然として難しい。 このようなニーズに対処するため,新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を導入する。 このデータセットは、Large Language Model(LLM)駆動のアノテーション技術と事前学習された視覚モデルを利用する対話型ヒューマンコンピュータプロセスによって体系的に構築される。 GeoText-1652は、確立されたUniversity-1652イメージデータセットを空間対応のテキストアノテーションで拡張し、画像、テキスト、バウンディングボックス要素の1対1対応を確立する。 さらに、領域レベルの空間関係マッチングにおいて、混合空間マッチングと呼ばれる、きめ細かい空間関係を利用するための新しい最適化目標を導入する。 大規模な実験により,本手法は,他の一般的なクロスモダリティ手法と比較して,競争力のあるリコール率を維持していることが明らかとなった。 このことは、現実のシナリオにおける自然言語コマンドのシームレスな統合を通じて、ドローンの制御とナビゲーションを向上する我々のアプローチの有望な可能性を浮き彫りにしている。

Navigating drones through natural language commands remains challenging due to the dearth of accessible multi-modal datasets and the stringent precision requirements for aligning visual and textual data. To address this pressing need, we introduce GeoText-1652, a new natural language-guided geo-localization benchmark. This dataset is systematically constructed through an interactive human-computer process leveraging Large Language Model (LLM) driven annotation techniques in conjunction with pre-trained vision models. GeoText-1652 extends the established University-1652 image dataset with spatial-aware text annotations, thereby establishing one-to-one correspondences between image, text, and bounding box elements. We further introduce a new optimization objective to leverage fine-grained spatial associations, called blending spatial matching, for region-level spatial relation matching. Extensive experiments reveal that our approach maintains a competitive recall rate comparing other prevailing cross-modality methods. This underscores the promising potential of our approach in elevating drone control and navigation through the seamless integration of natural language commands in real-world scenarios.
翻訳日:2024-07-18 23:18:25 公開日:2024-07-17
# ガウス的信念伝播を用いた深部因子グラフの学習

Learning in Deep Factor Graphs with Gaussian Belief Propagation ( http://arxiv.org/abs/2311.14649v3 )

ライセンス: Link先を確認
Seth Nabarro, Mark van der Wilk, Andrew J Davison, (参考訳) 本稿ではガウス因子グラフの学習手法を提案する。 我々は,すべての関連する量(インプット,出力,パラメータ,潜時)をグラフィカルモデルにおけるランダム変数として扱い,学習と予測の両方を異なる観測ノードでの推論問題とみなす。 実験の結果,これらの問題は,更新が本質的に局所的であり,分散および非同期トレーニングのエキサイティングな機会を提示する信念伝播(BP)によって効率よく解決できることが示唆された。 提案手法はディープネットワークに拡張可能であり,連続的な学習を行う自然な手段を提供する。 ビデオデノケーションタスクでは、古典的因子グラフアプローチよりも学習可能なパラメータの利点を実証し、連続的な画像分類のための深度因子グラフの性能向上を示す。

We propose an approach to do learning in Gaussian factor graphs. We treat all relevant quantities (inputs, outputs, parameters, latents) as random variables in a graphical model, and view both training and prediction as inference problems with different observed nodes. Our experiments show that these problems can be efficiently solved with belief propagation (BP), whose updates are inherently local, presenting exciting opportunities for distributed and asynchronous training. Our approach can be scaled to deep networks and provides a natural means to do continual learning: use the BP-estimated parameter marginals of the current task as parameter priors for the next. On a video denoising task we demonstrate the benefit of learnable parameters over a classical factor graph approach and we show encouraging performance of deep factor graphs for continual image classification.
翻訳日:2024-07-18 23:08:38 公開日:2024-07-17
# 一般化グラフプロンプト:グラフ上の事前学習タスクと下流タスクの統合を目指して

Generalized Graph Prompt: Toward a Unification of Pre-Training and Downstream Tasks on Graphs ( http://arxiv.org/abs/2311.15317v4 )

ライセンス: Link先を確認
Xingtong Yu, Zhenghao Liu, Yuan Fang, Zemin Liu, Sihong Chen, Xinming Zhang, (参考訳) グラフニューラルネットワークはグラフ表現学習の強力なツールとして登場したが、そのパフォーマンスはタスク固有の豊富な監視に大きく依存している。 ラベル付け要求を減らすため、"pre-train, prompt"パラダイムはますます一般的になっている。 しかし、グラフのプロンプトに関する既存の研究は限定的であり、下流の様々なタスクにアピールするための普遍的な処理が欠如している。 本稿では,グラフの事前学習と促進のための新しいフレームワークであるGraphPromptを提案する。 GraphPromptは、トレーニング済みタスクとダウンストリームタスクを共通のタスクテンプレートに統合するだけでなく、学習可能なプロンプトを使用して、トレーニング済みモデルからタスク固有の方法で最も関連性の高い知識を見つける。 この2つのステージでGraphPromptをさらに強化するために、GraphPrompt+に2つの大きな拡張を加えて拡張します。 まず、単純なリンク予測以上のグラフ事前学習タスクを一般化し、タスクテンプレートとの互換性を広げる。 次に,事前学習したグラフエンコーダの各層に一連のプロンプトベクトルを組み込んだ,より一般化されたプロンプト設計を提案する。 最後に、GraphPromptとGraphPrompt+を評価し分析するために、5つの公開データセットに関する広範な実験を行う。

Graph neural networks have emerged as a powerful tool for graph representation learning, but their performance heavily relies on abundant task-specific supervision. To reduce labeling requirement, the "pre-train, prompt" paradigms have become increasingly common. However, existing study of prompting on graphs is limited, lacking a universal treatment to appeal to different downstream tasks. In this paper, we propose GraphPrompt, a novel pre-training and prompting framework on graphs. GraphPrompt not only unifies pre-training and downstream tasks into a common task template but also employs a learnable prompt to assist a downstream task in locating the most relevant knowledge from the pre-trained model in a task-specific manner. To further enhance GraphPrompt in these two stages, we extend it into GraphPrompt+ with two major enhancements. First, we generalize several popular graph pre-training tasks beyond simple link prediction to broaden the compatibility with our task template. Second, we propose a more generalized prompt design that incorporates a series of prompt vectors within every layer of the pre-trained graph encoder, in order to capitalize on the hierarchical information across different layers beyond just the readout layer. Finally, we conduct extensive experiments on five public datasets to evaluate and analyze GraphPrompt and GraphPrompt+.
翻訳日:2024-07-18 23:08:38 公開日:2024-07-17
# オンラインコミュニティからの完全な視覚的質問応答データセット

Fully Authentic Visual Question Answering Dataset from Online Communities ( http://arxiv.org/abs/2311.15562v4 )

ライセンス: Link先を確認
Chongyan Chen, Mengchen Liu, Noel Codella, Yunsheng Li, Lu Yuan, Danna Gurari, (参考訳) VQA(Visual Question Answering)は、画像に関する質問に答える機能である。 VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。 オンラインの質問応答コミュニティフォーラムから引用して、VQAonlineと呼ぶ。 このデータセットと8つの主流VQAデータセットとの関係を特徴付ける。 データセットの回答はより長い(平均173語)ため、標準的なVQA評価指標と互換性がないため、VQAonline上で6つの最先端のVQAモデルを評価し、最も苦労したことを報告するために、より長いテキスト評価に人気のあるメトリクスを使用する。 最後に、評価指標が人間の判断に最も適しているかを分析する。 将来の拡張を容易にするため、データセットをhttps://vqaonline.github.io/で公開しています。

Visual Question Answering (VQA) entails answering questions about images. We introduce the first VQA dataset in which all contents originate from an authentic use case. Sourced from online question answering community forums, we call it VQAonline. We characterize this dataset and how it relates to eight mainstream VQA datasets. Observing that answers in our dataset tend to be much longer (i.e., a mean of 173 words) and so incompatible with standard VQA evaluation metrics, we instead utilize popular metrics for longer text evaluation for evaluating six state-of-the-art VQA models on VQAonline and report where they struggle most. Finally, we analyze which evaluation metrics align best with human judgments. To facilitate future extensions, we publicly-share the dataset at: https://vqaonline.github.io/.
翻訳日:2024-07-18 23:08:38 公開日:2024-07-17
# テキストエンコーダ強化学習による拡散モデルの強化

Enhancing Diffusion Models with Text-Encoder Reinforcement Learning ( http://arxiv.org/abs/2311.15657v2 )

ライセンス: Link先を確認
Chaofeng Chen, Annan Wang, Haoning Wu, Liang Liao, Wenxiu Sun, Qiong Yan, Weisi Lin, (参考訳) テキストから画像への拡散モデルは、通常、画像美学や画像テキストアライメントといった下流タスクの特定の要求を満たす際の課題を示すログのような目的を最適化するために訓練される。 近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。 しかし、その多くがテキストエンコーダの重要性を軽視している。 本稿では、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化し、視覚的品質を向上させることを実証する。 私たちの主な動機は、現在のテキストエンコーダが最適以下であり、しばしば注意深い迅速な調整が必要であるという観察から来ています。 U-Netの微調整はパフォーマンスを部分的に改善するが、最適でないテキストエンコーダに悩まされている。 そこで本研究では,タスク固有の報酬に基づいてテキストエンコーダを微調整するために,低ランク適応による強化学習を提案する。 まず,テキストエンコーダの微調整により拡散モデルの性能が向上することを示す。 次に、TexForceが既存のU-Netの微調整モデルと簡単に組み合わせて、追加のトレーニングなしでより優れた結果を得ることができることを示す。 最後に,高品質な顔画像や手画像の生成など,多種多様な応用において,本手法の適応性を示す。

Text-to-image diffusion models are typically trained to optimize the log-likelihood objective, which presents challenges in meeting specific requirements for downstream tasks, such as image aesthetics and image-text alignment. Recent research addresses this issue by refining the diffusion U-Net using human rewards through reinforcement learning or direct backpropagation. However, many of them overlook the importance of the text encoder, which is typically pretrained and fixed during training. In this paper, we demonstrate that by finetuning the text encoder through reinforcement learning, we can enhance the text-image alignment of the results, thereby improving the visual quality. Our primary motivation comes from the observation that the current text encoder is suboptimal, often requiring careful prompt adjustment. While fine-tuning the U-Net can partially improve performance, it remains suffering from the suboptimal text encoder. Therefore, we propose to use reinforcement learning with low-rank adaptation to finetune the text encoder based on task-specific rewards, referred as \textbf{TexForce}. We first show that finetuning the text encoder can improve the performance of diffusion models. Then, we illustrate that TexForce can be simply combined with existing U-Net finetuned models to get much better results without additional training. Finally, we showcase the adaptability of our method in diverse applications, including the generation of high-quality face and hand images.
翻訳日:2024-07-18 23:08:38 公開日:2024-07-17
# 騒音を考慮したトポロジコンシステンシーによる病理像の半教師付きセグメンテーション

Semi-supervised Segmentation of Histopathology Images with Noise-Aware Topological Consistency ( http://arxiv.org/abs/2311.16447v3 )

ライセンス: Link先を確認
Meilong Xu, Xiaoling Hu, Saumya Gupta, Shahira Abousamra, Chao Chen, (参考訳) デジタル病理学では、下流の分析には、腺や核のような密集した物体を分断することが不可欠である。 詳細なピクセル単位のアノテーションは非常に時間がかかるため、ラベルのない画像から学習できる半教師付きセグメンテーション手法が必要である。 既存の半監督的手法は、しばしばトポロジカルな誤り(例えば、欠損または誤って合併/分離された腺または核)を引き起こす。 そこで本研究では,無ラベルの病理像からトポロジカル表現を学習する最初の半教師付き手法であるTopoSemiSegを提案する。 最大の課題は、ラベルのない画像であり、ノイズのあるトポロジーを持つ予測のみである。 この目的のために,教師と学生モデルの表現を整合させるため,雑音を考慮したトポロジカル整合性損失を導入する。 予測のトポロジを信号トポロジとノイズトポロジに分解することにより、モデルが真のトポロジ信号を学び、ノイズに対して頑健になることを保証する。 公共の病理組織像データセットに対する大規模な実験は、特にトポロジ対応評価指標において、我々の手法の優位性を示している。 コードはhttps://github.com/Melon-Xu/TopoSemiSegで入手できる。

In digital pathology, segmenting densely distributed objects like glands and nuclei is crucial for downstream analysis. Since detailed pixel-wise annotations are very time-consuming, we need semi-supervised segmentation methods that can learn from unlabeled images. Existing semi-supervised methods are often prone to topological errors, e.g., missing or incorrectly merged/separated glands or nuclei. To address this issue, we propose TopoSemiSeg, the first semi-supervised method that learns the topological representation from unlabeled histopathology images. The major challenge is for unlabeled images; we only have predictions carrying noisy topology. To this end, we introduce a noise-aware topological consistency loss to align the representations of a teacher and a student model. By decomposing the topology of the prediction into signal topology and noisy topology, we ensure that the models learn the true topological signals and become robust to noise. Extensive experiments on public histopathology image datasets show the superiority of our method, especially on topology-aware evaluation metrics. Code is available at https://github.com/Melon-Xu/TopoSemiSeg.
翻訳日:2024-07-18 23:08:38 公開日:2024-07-17
# 点雲上における教師なし領域適応のためのプログレッシブ分類器と特徴外適応

Progressive Classifier and Feature Extractor Adaptation for Unsupervised Domain Adaptation on Point Clouds ( http://arxiv.org/abs/2311.16474v2 )

ライセンス: Link先を確認
Zicheng Wang, Zhen Zhao, Yiming Wu, Luping Zhou, Dong Xu, (参考訳) 非教師なしドメイン適応(UDA)は、ポイントクラウド分析の分野において重要な課題である。 従来の作業では、共有分類器がドメイン不変の特徴を識別できるようにする機能抽出器適応や、分類器を進化させてターゲットスタイルのソース特徴を認識し、適応能力を高めるための分類器適応といった課題に対処していた。 しかし、ドメイン不変の特徴を学習することで、特徴抽出器適応法は意味論的に意味のあるターゲット固有情報を符号化するのに失敗し、分類器適応法はターゲット分布の正確な推定に大きく依存する。 本研究では,PCFEA(Progressive Classifier and Feature Extractor Adaptation)と呼ばれる,3D UDAのための分類器と特徴抽出器の適応を深く結合した新しいフレームワークを提案する。 われわれのPCFEAはマクロレベルとマイクロレベルという2つの異なる視点から3D UDAを実施している。 マクロレベルでは、モデルが対象領域に段階的に適応できるように、一連の中間領域を確立するプログレッシブターゲットスタイルのフィーチャ拡張(PTFA)を提案する。 このプロセスを通じて、ソース分類器は、ターゲットスタイルのソース特徴 (\ie, classifier adapt) を認識するように進化する。 マイクロレベルでは、ターゲット型特徴抽出を徐々に促進するためにコンパクトな特徴アライメントを行う中間領域特徴抽出器適応(IDFA)を開発する。 このようにして、PTFAとIDFAは相互に利益を得ることができ、IDFAはPTFAの分布推定に寄与し、PTFAはよりスムーズな中間ドメインを構築し、IDFAの正確な特徴アライメントを促進する。 提案手法は,提案手法が新たな最先端性能を実現するため,一般的なベンチマークデータセット上で検証を行う。 私たちのコードはhttps://github.com/xiaoyao3302/PCFEAで利用可能です。

Unsupervised domain adaptation (UDA) is a critical challenge in the field of point cloud analysis. Previous works tackle the problem either by feature extractor adaptation to enable a shared classifier to distinguish domain-invariant features, or by classifier adaptation to evolve the classifier to recognize target-styled source features to increase its adaptation ability. However, by learning domain-invariant features, feature extractor adaptation methods fail to encode semantically meaningful target-specific information, while classifier adaptation methods rely heavily on the accurate estimation of the target distribution. In this work, we propose a novel framework that deeply couples the classifier and feature extractor adaption for 3D UDA, dubbed Progressive Classifier and Feature Extractor Adaptation (PCFEA). Our PCFEA conducts 3D UDA from two distinct perspectives: macro and micro levels. On the macro level, we propose a progressive target-styled feature augmentation (PTFA) that establishes a series of intermediate domains to enable the model to progressively adapt to the target domain. Throughout this process, the source classifier is evolved to recognize target-styled source features (\ie, classifier adaptation). On the micro level, we develop an intermediate domain feature extractor adaptation (IDFA) that performs a compact feature alignment to encourage the target-styled feature extraction gradually. In this way, PTFA and IDFA can mutually benefit each other: IDFA contributes to the distribution estimation of PTFA while PTFA constructs smoother intermediate domains to encourage an accurate feature alignment of IDFA. We validate our method on popular benchmark datasets, where our method achieves new state-of-the-art performance. Our code is available at https://github.com/xiaoyao3302/PCFEA.
翻訳日:2024-07-18 23:08:38 公開日:2024-07-17
# IGキャプタ:情報ゲインキャプタはゼロショットの強力な分類器

IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers ( http://arxiv.org/abs/2311.17072v2 )

ライセンス: Link先を確認
Chenglin Yang, Siyuan Qiao, Yuan Cao, Yu Zhang, Tao Zhu, Alan Yuille, Jiahui Yu, (参考訳) 生成的トレーニングは視覚言語モデルを構築する上で強力であることが示されている。 しかし、ゼロショット判別ベンチマークでは、生成的および差別的目的で訓練されたモデルの間にはまだパフォーマンスのギャップがある。 本稿では,微調整プロセスや追加モジュールを使わずに,分類タスクにおける生成的トレーニングの有効性を向上させることにより,このギャップを狭めることを目的とする。 具体的には、生成キャプタとCLIP分類器のギャップを狭めることに焦点を当てる。 まず、キャプタと分類器による予測を分析し、キャプタ生成が純粋なテキストモダリティで訓練された言語モデルから分布バイアスを継承し、視覚信号の基盤を小さくする。 この問題に対処するため,我々はキャプタの得点目標を再設計し,分布バイアスを緩和し,視覚入力による情報の獲得度を計測することに集中する。 さらに,評価目標に適合する生成的学習目標を設計する。 我々は,新しい手順からトレーニングを行い,評価したモデルをIGキャプタ(Information Gain)キャプタとして命名した。 パブリックなLaion-5Bデータセット上でモデルを事前訓練し、一連の識別評価を行う。 ImageNetのゼロショット分類では、IGキャプタは標準キャプタよりも$> 18\%$の改善を達成し、CLIP分類器で同等のパフォーマンスを達成する。 IGキャプタは、MSCOCOとFlickr30Kのゼロショット画像テキスト検索タスクにも強い性能を示した。 本稿では,視覚言語モデルにおける生成的・識別的訓練の統一に向けたさらなる研究を期待する。

Generative training has been demonstrated to be powerful for building visual-language models. However, on zero-shot discriminative benchmarks, there is still a performance gap between models trained with generative and discriminative objectives. In this paper, we aim to narrow this gap by improving the efficacy of generative training on classification tasks, without any finetuning processes or additional modules. Specifically, we focus on narrowing the gap between the generative captioner and the CLIP classifier. We begin by analysing the predictions made by the captioner and classifier and observe that the caption generation inherits the distribution bias from the language model trained with pure text modality, making it less grounded on the visual signal. To tackle this problem, we redesign the scoring objective for the captioner to alleviate the distributional bias and focus on measuring the gain of information brought by the visual inputs. We further design a generative training objective to match the evaluation objective. We name our model trained and evaluated from the novel procedures as Information Gain (IG) captioner. We pretrain the models on the public Laion-5B dataset and perform a series of discriminative evaluations. For the zero-shot classification on ImageNet, IG captioner achieves $> 18\%$ improvements over the standard captioner, achieving comparable performances with the CLIP classifier. IG captioner also demonstrated strong performance on zero-shot image-text retrieval tasks on MSCOCO and Flickr30K. We hope this paper inspires further research towards unifying generative and discriminative training procedures for visual-language models.
翻訳日:2024-07-18 23:08:38 公開日:2024-07-17
# モデルアライメントによる対向移動性の向上

Improving Adversarial Transferability via Model Alignment ( http://arxiv.org/abs/2311.18495v2 )

ライセンス: Link先を確認
Avery Ma, Amir-massoud Farahmand, Yangchen Pan, Philip Torr, Jindong Gu, (参考訳) ニューラルネットワークは、異なるモデル間で伝達可能な敵の摂動に影響を受けやすい。 本稿では,トランスファー可能な逆方向摂動を生成するためのモデルアライメント手法を提案する。 アライメントプロセス中は、アライメント損失を最小限に抑えるために、ソースモデルのパラメータを微調整する。 この損失は、ソースモデルと、目撃者モデルと呼ばれる独立に訓練された別のモデルの間の予測のばらつきを測定する。 モデルアライメントの効果を理解するために,損失景観の変化を幾何学的に解析する。 様々なモデルアーキテクチャを用いて、ImageNetデータセットの大規模な実験により、アライメントされたソースモデルから発生する摂動は、元のソースモデルよりもはるかに高い転送性を示すことが示された。

Neural networks are susceptible to adversarial perturbations that are transferable across different models. In this paper, we introduce a novel model alignment technique aimed at improving a given source model's ability in generating transferable adversarial perturbations. During the alignment process, the parameters of the source model are fine-tuned to minimize an alignment loss. This loss measures the divergence in the predictions between the source model and another, independently trained model, referred to as the witness model. To understand the effect of model alignment, we conduct a geometric analysis of the resulting changes in the loss landscape. Extensive experiments on the ImageNet dataset, using a variety of model architectures, demonstrate that perturbations generated from aligned source models exhibit significantly higher transferability than those from the original source model.
翻訳日:2024-07-18 23:08:38 公開日:2024-07-17
# TIBET:テキスト・画像生成モデルにおけるバイアスの同定と評価

TIBET: Identifying and Evaluating Biases in Text-to-Image Generative Models ( http://arxiv.org/abs/2312.01261v2 )

ライセンス: Link先を確認
Aditya Chinchure, Pushkar Shukla, Gaurav Bhatt, Kiri Salij, Kartik Hosanagar, Leonid Sigal, Matthew Turk, (参考訳) テキスト・ツー・イメージ(TTI)生成モデルは、複雑で高品質な画像を生成する能力において、ここ数年で大きな進歩を見せている。 同時に、これらのモデルは、社会的バイアス(例えば、性別、民族性)が誇張されていることや、そのようなモデルがより多様なイメージを生成する能力を制限する偶発的相関など、有害なバイアスに悩まされていることが示されている。 本稿では,任意のTTIモデルと任意のプロンプトに対して,反実的推論を用いて,幅広いバイアススペクトルを研究・定量化するための一般的なアプローチを提案する。 事前に定義されたバイアス軸の集合上で生成された画像を評価する他の研究とは異なり、我々の手法は与えられたプロンプトに関連する可能性のある潜在的なバイアスを自動的に識別し、それらのバイアスを測定する。 さらに、生成した画像の意味概念の観点から、定量的なスコアとポストホックな説明を補完する。 提案手法は,意味的概念を通じて複雑な多次元バイアスを説明できるだけでなく,任意のプロンプトに対して異なるバイアス間の交叉性も説明できることを示す。 提案手法と分析結果が人間の判断と一致していることを示すために,広範なユーザスタディを実施している。

Text-to-Image (TTI) generative models have shown great progress in the past few years in terms of their ability to generate complex and high-quality imagery. At the same time, these models have been shown to suffer from harmful biases, including exaggerated societal biases (e.g., gender, ethnicity), as well as incidental correlations that limit such a model's ability to generate more diverse imagery. In this paper, we propose a general approach to study and quantify a broad spectrum of biases, for any TTI model and for any prompt, using counterfactual reasoning. Unlike other works that evaluate generated images on a predefined set of bias axes, our approach automatically identifies potential biases that might be relevant to the given prompt, and measures those biases. In addition, we complement quantitative scores with post-hoc explanations in terms of semantic concepts in the images generated. We show that our method is uniquely capable of explaining complex multi-dimensional biases through semantic concepts, as well as the intersectionality between different biases for any given prompt. We perform extensive user studies to illustrate that the results of our method and analysis are consistent with human judgements.
翻訳日:2024-07-18 23:08:38 公開日:2024-07-17
# SchurVINS: Schur補充型軽量ビジュアル慣性ナビゲーションシステム

SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System ( http://arxiv.org/abs/2312.01616v6 )

ライセンス: Link先を確認
Yunfei Fan, Tianyu Zhao, Guidong Wang, (参考訳) 精度と計算効率は、視覚慣性ナビゲーションシステム(VINS)にとって最も重要な指標である。 既存のVINSアルゴリズムは精度が高いか計算量が少ないかのどちらかで、リソース制約のあるデバイスに高精度なローカライゼーションを提供することは困難である。 そこで本研究では, 完全残差モデルを構築し, シュル補数を用いた計算複雑性を低くすることで, 高い精度を保証できる新しいフィルタベースのVINSフレームワークであるSchurVINSを提案する。 技術的には、グラディエント、ヘッセン、観測共分散が明示的にモデル化された完全残留モデルを最初に定式化する。 シュア補数は、完全なモデルをエゴモーション残留モデルとランドマーク残留モデルに分解するために用いられる。 最後に, 拡張カルマンフィルタ (EKF) を高効率で2つのモデルに実装した。 EuRoC および TUM-VI データセットを用いた実験により,本手法は精度と計算複雑性の両方において,最先端(SOTA) 手法よりも優れていることがわかった。 SchurVINSの実験コードはhttps://github.com/bytedance/SchurVINSで公開されている。

Accuracy and computational efficiency are the most important metrics to Visual Inertial Navigation System (VINS). The existing VINS algorithms with either high accuracy or low computational complexity, are difficult to provide the high precision localization in resource-constrained devices. To this end, we propose a novel filter-based VINS framework named SchurVINS, which could guarantee both high accuracy by building a complete residual model and low computational complexity with Schur complement. Technically, we first formulate the full residual model where Gradient, Hessian and observation covariance are explicitly modeled. Then Schur complement is employed to decompose the full model into ego-motion residual model and landmark residual model. Finally, Extended Kalman Filter (EKF) update is implemented in these two models with high efficiency. Experiments on EuRoC and TUM-VI datasets show that our method notably outperforms state-of-the-art (SOTA) methods in both accuracy and computational complexity. The experimental code of SchurVINS is available at https://github.com/bytedance/SchurVINS.
翻訳日:2024-07-18 23:08:38 公開日:2024-07-17
# GIVT: 生成無限語彙変換器

GIVT: Generative Infinite-Vocabulary Transformers ( http://arxiv.org/abs/2312.02116v4 )

ライセンス: Link先を確認
Michael Tschannen, Cian Eastwood, Fabian Mentzer, (参考訳) 本稿では,有限語彙からの離散トークンの代わりに,実数値エントリを持つベクトル列を生成するGIVT(Generative Infinite-Vocabulary Transformers)を提案する。 この目的のために、デコーダのみの変換器に対する驚くほど単純な2つの修正を提案する。 1)入力において、有限語彙ルックアップテーブルを入力ベクトルの線形射影に置き換える。 2) 出力において,多変量ガウス混合モデルのパラメータにロジット予測(通常はカテゴリー分布にマッピングされる)を置き換える。 VQ-GANとMaskGITの画像生成パラダイムに着想を得て、変換器を用いてVQ-VAEの離散潜在列をモデル化し、GIVTを用いて、$\beta$-VAEの非定量実数値潜在列をモデル化する。 クラス条件画像生成におけるGIVTは、VQ-GAN(およびその改良版)とMaskGITとを上回り、近年の潜伏拡散モデルと競合する性能を実現する。 最後に、UViMフレームワークのVAE変種を用いて、GIVTを単視分割および深度推定に適用する際に、画像生成以外の強力な結果を得る。

We introduce Generative Infinite-Vocabulary Transformers (GIVT) which generate vector sequences with real-valued entries, instead of discrete tokens from a finite vocabulary. To this end, we propose two surprisingly simple modifications to decoder-only transformers: 1) at the input, we replace the finite-vocabulary lookup table with a linear projection of the input vectors; and 2) at the output, we replace the logits prediction (usually mapped to a categorical distribution) with the parameters of a multivariate Gaussian mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT, where transformers are used to model the discrete latent sequences of a VQ-VAE, we use GIVT to model the unquantized real-valued latent sequences of a $\beta$-VAE. In class-conditional image generation GIVT outperforms VQ-GAN (and improved variants thereof) as well as MaskGIT, and achieves performance competitive with recent latent diffusion models. Finally, we obtain strong results outside of image generation when applying GIVT to panoptic segmentation and depth estimation with a VAE variant of the UViM framework.
翻訳日:2024-07-18 23:08:38 公開日:2024-07-17
# DiverseDream: Augmented Text Embedding を用いたDiverse Text-to-3D 合成

DiverseDream: Diverse Text-to-3D Synthesis with Augmented Text Embedding ( http://arxiv.org/abs/2312.02192v2 )

ライセンス: Link先を確認
Uy Dieu Tran, Minh Luu, Phong Ha Nguyen, Khoi Nguyen, Binh-Son Hua, (参考訳) テキスト・ツー・3D合成は, 事前学習されたテキスト・ツー・イメージ・モデルを用いて, 視覚的先行を導くことによって, 3次元モデルをサンプリングする新たなアプローチとして最近登場した。 既存のテキスト・ツー・3D法では、サンプリング・バイ・最適化法から得られた3Dモデルはモード崩壊する傾向にあり、その結果は多様性が低い。 本稿では,このような限られた多様性の潜在的な原因を分析し,同じテキストプロンプトから異なる3次元モデルの結合生成を考慮した新しい手法を考案する動機となる。 本稿では,参照画像のテキストインバージョンによる拡張テキストプロンプトを用いて,共同生成の多様化を提案する。 本手法は,テキストから3D合成の質的,定量的な多様性の向上につながることを示す。 プロジェクトページ: https://diversedream.github.io

Text-to-3D synthesis has recently emerged as a new approach to sampling 3D models by adopting pretrained text-to-image models as guiding visual priors. An intriguing but underexplored problem with existing text-to-3D methods is that 3D models obtained from the sampling-by-optimization procedure tend to have mode collapses, and hence poor diversity in their results. In this paper, we provide an analysis and identify potential causes of such a limited diversity, which motivates us to devise a new method that considers the joint generation of different 3D models from the same text prompt. We propose to use augmented text prompts via textual inversion of reference images to diversify the joint generation. We show that our method leads to improved diversity in text-to-3D synthesis qualitatively and quantitatively. Project page: https://diversedream.github.io
翻訳日:2024-07-18 22:58:48 公開日:2024-07-17
# 無期限カジュアルオーダーでのスクランブルによる損傷情報の回復

Recovery of damaged information via scrambling in indefinite casual order ( http://arxiv.org/abs/2312.02602v2 )

ライセンス: Link先を確認
Tian-Ren Jin, Tian-Ming Li, Zheng-An Wang, Kai Xu, Yu-Ran Zhang, Heng Fan, (参考訳) スクランブルは局所演算子による局所情報へのアクセスを防ぎ、したがって局所摂動による損傷から量子情報を保護するために使用できる。 損傷の種類が分かっていれば部分量子情報を復元できるが、得られた状態が初期状態と最大混合状態の混合であるため、初期目標状態を完全に回復することはできない。 ここでは、不確定因果順序でスクランブルすることで、損傷した量子情報を復元するための改良されたスキームを示す。 不確定な因果順序のスキームは損傷の情報を記録でき、損傷状態から初期状態を同時に蒸留できることを示す。 ダメージよりも初期情報を検索できるのです。 さらに、これらのスキームを反復することにより、初期量子状態を完全に復元することができる。 さらに,クラウドベースの量子コンピュータであるQuafuについて実験を行った。 本研究は、量子誤り訂正や絡み込み浄化プロトコルなどの他の手法と互換性のある、全量子情報を損傷から保護するための実現可能なスキームを提案する。 我々は,損傷からの量子情報回復とシステムベンチマーキングの両面において,本手法が有用であることを期待している。

Scrambling prevents the access to local information with local operators and therefore can be used to protect quantum information from damage caused by local perturbations. Even though partial quantum information can be recovered if the type of the damage is known, the initial target state cannot be completely recovered, because the obtained state is a mixture of the initial state and a maximally mixed state. Here, we demonstrate an improved scheme to recover damaged quantum information via scrambling in indefinite causal order. We show that scheme with indefinite causal order can record information of the damage and distill the initial state from the damaged state simultaneously. It allows us to retrieve initial information versus any damage. Moreover, by iterating the schemes, the initial quantum state can be completely recovered. In addition, we experimentally demonstrate our schemes on the cloud-based quantum computer, named as Quafu. Our work proposes a feasible scheme to protect whole quantum information from damage, which is also compatible with other techniques such as quantum error corrections and entanglement purification protocols. We expect that our scheme will be useful in the both quantum information recovery from the damage and systems bench-marking.
翻訳日:2024-07-18 22:58:48 公開日:2024-07-17
# RING-NeRF : 可逆性・高能率ニューラルネットワークのための誘導的ビアーゼの再考

RING-NeRF : Rethinking Inductive Biases for Versatile and Efficient Neural Fields ( http://arxiv.org/abs/2312.03357v3 )

ライセンス: Link先を確認
Doriand Petit, Steve Bourgeois, Dumitru Pavel, Vincent Gay-Bellile, Florian Chabot, Loic Barthe, (参考訳) ニューラルフィールドの最近の進歩は、しばしばモデルを複雑にするタスク固有の監督の開発に大きく依存している。 合成が難しいモジュールや特定のモジュールを開発する代わりに、一般的に見落とされた別のアプローチは、シーン表現(帰納的バイアスとも呼ばれる)に直接NeRFアーキテクチャにジェネリックな優先順位を注入することである。 この考え方に基づいて、シーンの連続的マルチスケール表現とデコーダの空間的およびスケール的領域上の潜在空間の不変性という2つの帰納バイアスを含むRING-NeRFアーキテクチャを提案する。 また、これらの帰納バイアスを生かした単一再構成プロセスの設計を行い、複数のタスク(アンチエイリアス化、ビュー再構成の少ない、シーン固有の初期化のないSDF再構成)に特化したアーキテクチャによる品質のオンパー性能を、より効率的で実験的に示す。 さらに、RING-NeRFはモデルの解像度を動的に向上し、適応的再構成への道を開くという特徴がある。

Recent advances in Neural Fields mostly rely on developing task-specific supervision which often complicates the models. Rather than developing hard-to-combine and specific modules, another approach generally overlooked is to directly inject generic priors on the scene representation (also called inductive biases) into the NeRF architecture. Based on this idea, we propose the RING-NeRF architecture which includes two inductive biases : a continuous multi-scale representation of the scene and an invariance of the decoder's latent space over spatial and scale domains. We also design a single reconstruction process that takes advantage of those inductive biases and experimentally demonstrates on-par performances in terms of quality with dedicated architecture on multiple tasks (anti-aliasing, few view reconstruction, SDF reconstruction without scene-specific initialization) while being more efficient. Moreover, RING-NeRF has the distinctive ability to dynamically increase the resolution of the model, opening the way to adaptive reconstruction.
翻訳日:2024-07-18 22:58:48 公開日:2024-07-17
# Mismatch Quest: 画像テキストのミス修正のための視覚的およびテキスト的フィードバック

Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment ( http://arxiv.org/abs/2312.03766v2 )

ライセンス: Link先を確認
Brian Gordon, Yonatan Bitton, Yonatan Shafir, Roopal Garg, Xi Chen, Dani Lischinski, Daniel Cohen-Or, Idan Szpektor, (参考訳) 既存の画像テキストアライメントモデルは高品質なバイナリアセスメントに達するが、正確なミスアライメントの源を特定できない。 本稿では,検出されたテキストと画像のペア間の誤りの詳細なテキストと視覚的説明を提供する手法を提案する。 大規模な言語モデルと視覚的接地モデルを利用して、与えられた画像とそれに対応するテキストの説明と視覚的指標を関連づけた、妥当な不一致のキャプションを保持するトレーニングセットを自動構築する。 また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。 実験結果から,トレーニングセット上での微調整型視覚言語モデルにより,画像内における誤認識と視覚的表示が可能となり,バイナリアライメント分類と説明生成タスクの双方において,強いベースラインを達成できた。 私たちのメソッドコードと人間のキュレートされたテストセットは以下の通りです。

While existing image-text alignment models reach high quality binary assessments, they fall short of pinpointing the exact source of misalignment. In this paper, we present a method to provide detailed textual and visual explanation of detected misalignments between text-image pairs. We leverage large language models and visual grounding models to automatically construct a training set that holds plausible misaligned captions for a given image and corresponding textual explanations and visual indicators. We also publish a new human curated test set comprising ground-truth textual and visual misalignment annotations. Empirical results show that fine-tuning vision language models on our training set enables them to articulate misalignments and visually indicate them within images, outperforming strong baselines both on the binary alignment classification and the explanation generation tasks. Our method code and human curated test set are available at: https://mismatch-quest.github.io/
翻訳日:2024-07-18 22:58:48 公開日:2024-07-17
# TimeDRL:多変量時間系列に対するアンタングル表現学習

TimeDRL: Disentangled Representation Learning for Multivariate Time-Series ( http://arxiv.org/abs/2312.04142v3 )

ライセンス: Link先を確認
Ching Chang, Chiao-Tung Chan, Wei-Yao Wang, Wen-Chih Peng, Tien-Fu Chen, (参考訳) 多くの実世界のアプリケーション(例えば医療や産業)における多変量時系列データは、ラベルの欠如と高次元性のために有益だが困難である。 自己教師型学習における近年の研究は、ラベルに頼らずに豊かな表現を学習する可能性を示しているが、非絡み合いの埋め込みを学習し、帰納的バイアス(例えば変換不変性)の問題に対処するには不十分である。 このような課題に対処するために,二値埋め込みを用いた汎用多変量時系列表現学習フレームワークであるTimeDRLを提案する。 TimeDRLには3つの新しい特徴がある。 i)[CLS]トークン戦略を用いたパッチされた時系列データからタイムスタンプレベル及びインスタンスレベルの埋め込みをアンタングル的に導出すること。 二 前者は予測損失を伴うタイムスタンプレベルの埋め込みを最適化し、後者は比較損失を伴うインスタンスレベルの埋め込みを最適化する。 (3)作付けやマスキングによる形質転換不変性などの帰納バイアスを除去するための増進手法の回避。 6つの時系列予測データセットと5つの時系列分類データセットに関する総合的な実験は、TimeDRLが既存の表現学習アプローチを一貫して上回り、MSEでは58.02%、精度では1.48%の平均的な予測改善を達成することを示した。 さらに、広範囲にわたるアブレーション研究により、TimeDRLのアーキテクチャにおける各コンポーネントの相対的寄与が確認され、半教師付き学習評価により、ラベル付きデータであっても実世界のシナリオにおいてその効果が示された。 コードはhttps://github.com/blacksnail789521/TimeDRLで公開されている。

Multivariate time-series data in numerous real-world applications (e.g., healthcare and industry) are informative but challenging due to the lack of labels and high dimensionality. Recent studies in self-supervised learning have shown their potential in learning rich representations without relying on labels, yet they fall short in learning disentangled embeddings and addressing issues of inductive bias (e.g., transformation-invariance). To tackle these challenges, we propose TimeDRL, a generic multivariate time-series representation learning framework with disentangled dual-level embeddings. TimeDRL is characterized by three novel features: (i) disentangled derivation of timestamp-level and instance-level embeddings from patched time-series data using a [CLS] token strategy; (ii) utilization of timestamp-predictive and instance-contrastive tasks for disentangled representation learning, with the former optimizing timestamp-level embeddings with predictive loss, and the latter optimizing instance-level embeddings with contrastive loss; and (iii) avoidance of augmentation methods to eliminate inductive biases, such as transformation-invariance from cropping and masking. Comprehensive experiments on 6 time-series forecasting datasets and 5 time-series classification datasets have shown that TimeDRL consistently surpasses existing representation learning approaches, achieving an average improvement of forecasting by 58.02% in MSE and classification by 1.48% in accuracy. Furthermore, extensive ablation studies confirmed the relative contribution of each component in TimeDRL's architecture, and semi-supervised learning evaluations demonstrated its effectiveness in real-world scenarios, even with limited labeled data. The code is available at https://github.com/blacksnail789521/TimeDRL.
翻訳日:2024-07-18 22:58:48 公開日:2024-07-17
# 素粒子とのダークマター差動相互作用の原子プローブ

An atomic probe of dark matter differential interactions with elementary particles ( http://arxiv.org/abs/2312.05894v2 )

ライセンス: Link先を確認
Yossi Rosenzweig, Yevgeny Kats, Menachem Givon, Yonathan Japha, Ron Folman, (参考訳) 標準模型を超えた物理学の探索は、実験物理学の主要な課題の1つである。 ダークマターの候補には、アクシオンのような超軽量ボゾン粒子が含まれる。 コマグネトメーターは、そのような粒子と、原子のスピンと相互作用する任意のエキゾチック場に対して超高感度プローブを形成する。 そこで本研究では,これらのフィールドを発見し,そのスペクトルを測定するだけでなく,その結合強度とサブ原子小粒子,電子,中性子,陽子との比を決定することができる多原子種プローブを提案する。 さらに, このプローブの多面的特性は, 通常の磁場とアルカリ原子の光誘起架空の磁場の組み合わせによって生じる合成エキゾチック場によっても証明できることを示した。 これらの合成磁場は、エキゾチック物理学のための磁気センサや磁気センサプローブの正確な校正を可能にする。

Searching for physics beyond the Standard Model is one of the main tasks of experimental physics. Candidates for dark matter include axion-like ultralight bosonic particles. Comagnetometers form ultra-high sensitivity probes for such particles and any exotic field that interacts with the spin of an atom. Here, we propose a multi-atom-species probe that enables not only to discover such fields and measure their spectrum but also to determine the ratios of their coupling strengths to sub-atomic elementary particles, electrons, neutrons and protons. We further show that the multi-faceted capabilities of this probe may be demonstrated with synthetic exotic fields generated by a combination of regular magnetic fields and light-induced fictitious magnetic fields in alkali atoms. These synthetic fields also enable the accurate calibration of any magnetometer or comagnetometer probe for exotic physics.
翻訳日:2024-07-18 22:58:48 公開日:2024-07-17
# AIコントロール:意図的な転倒にもかかわらず安全性を改善する

AI Control: Improving Safety Despite Intentional Subversion ( http://arxiv.org/abs/2312.06942v4 )

ライセンス: Link先を確認
Ryan Greenblatt, Buck Shlegeris, Kshitij Sachan, Fabien Roger, (参考訳) 大規模言語モデル(LLM)がより強力になり、より自律的にデプロイされるようになるにつれ、有害な結果を引き起こすのを防ぐことがますます重要になるでしょう。 例えば、他のモデルの出力をレビューするためにモデルを使用する場合や、微妙な障害モードをサーフェスするためにレッドチーム技術を使用する場合などである。 しかし、研究者は、モデル自体が意図的にそれを覆そうとしている場合、そのような技術が安全を保証しているかどうかを評価していない。 本稿では,意図的な転倒に対して堅牢な安全技術(プロトコール)のパイプラインを開発し,評価する。 我々は、強力だが信頼できないモデル(GPT-4)へのアクセス、信頼性の低いモデル(GPT-3.5)へのアクセス、高品質な信頼性のある作業へのアクセス制限など、一連のプログラミング問題を解決したいシナリオについて検討する。 バックドアを含むソリューションを決して提出しないプロトコルについて検討し、ここではテストケースで捕捉されない論理的エラーとして運用する。 我々は、信頼できないモデルがそれらを覆すために使用できる戦略に対して、様々なプロトコルを調査し、それぞれをテストする。 1つのプロトコルは、信頼された編集と呼ばれるものです。 このプロトコルはまず GPT-4 にコードを書き、次に GPT-3.5 にそのコードの不審さを評価するよう要求する。 コードが疑わしいしきい値以下であれば、それを提出する。 そうでなければ、GPT-3.5は、不審と思われる部分を削除するためにソリューションを編集し、その後、編集されたコードを提出する。 もう一つのプロトコルは信頼できない監視である。 このプロトコルは GPT-4 にコードを書き、次に GPT-4 の別のインスタンスにコードがバックドアされているかどうかを尋ねる。 これらのプロトコルは、単純なベースラインで大幅に改善される。

As large language models (LLMs) become more powerful and are deployed more autonomously, it will be increasingly important to prevent them from causing harmful outcomes. Researchers have investigated a variety of safety techniques for this purpose, e.g. using models to review the outputs of other models, or red-teaming techniques to surface subtle failure modes. However, researchers have not evaluated whether such techniques still ensure safety if the model is itself intentionally trying to subvert them. In this paper, we develop and evaluate pipelines of safety techniques ("protocols") that are robust to intentional subversion. We investigate a scenario in which we want to solve a sequence of programming problems, using access to a powerful but untrusted model (in our case, GPT-4), access to a less powerful trusted model (in our case, GPT-3.5), and limited access to high-quality trusted labor. We investigate protocols that aim to never submit solutions containing backdoors, which we operationalize here as logical errors that are not caught by test cases. We investigate a range of protocols and test each against strategies that the untrusted model could use to subvert them. One protocol is what we call trusted editing. This protocol first asks GPT-4 to write code, and then asks GPT-3.5 to rate the suspiciousness of that code. If the code is below some suspiciousness threshold, it is submitted. Otherwise, GPT-3.5 edits the solution to remove parts that seem suspicious and then submits the edited code. Another protocol is untrusted monitoring. This protocol asks GPT-4 to write code, and then asks another instance of GPT-4 whether the code is backdoored, using various techniques to prevent the GPT-4 instances from colluding. These protocols improve substantially on simple baselines.
翻訳日:2024-07-18 22:58:48 公開日:2024-07-17
# プロンプティングによるものごとのトークン化

Tokenize Anything via Prompting ( http://arxiv.org/abs/2312.09128v2 )

ライセンス: Link先を確認
Ting Pan, Lulu Tang, Xinlong Wang, Shiguang Shan, (参考訳) 我々は,任意のものを分割,認識,キャプションを同時に行うことができる統一的,迅速なモデルを提案する。 SAMと異なり、視覚的なプロンプトによって、野生に多目的な領域表現を構築することを目指している。 これを実現するために、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを含む一般化可能なモデルをトレーニングする。 具体的には,各マスクトークンに意味トークンを追加することで,プロンプト可能な画像デコーダを構築する。 セマンティックトークンは、事前に定義された概念空間におけるセマンティックな事前学習の責任を負う。 マスクトークンのセグメンテーションとセマンティックトークンの概念予測を共同で最適化することにより,強力な地域認識と局所化能力を示す。 例えば、スクラッチからトレーニングされた38Mパラメータの因果テキストデコーダは、Visual Genome領域のキャプションタスクでCIDErスコア164.7の新たなレコードをセットする。 このモデルは、幅広い視覚的知覚タスクに対して汎用的な領域コンテキストを符号化できる、多目的領域レベルの画像トークン化器であると考える。 コードとモデルは {\footnotesize \url{https://github.com/baaivision/tokenize-anything}}で公開されている。

We present a unified, promptable model capable of simultaneously segmenting, recognizing, and captioning anything. Unlike SAM, we aim to build a versatile region representation in the wild via visual prompting. To achieve this, we train a generalizable model with massive segmentation masks, \eg, SA-1B masks, and semantic priors from a pre-trained CLIP model with 5 billion parameters. Specifically, we construct a promptable image decoder by adding a semantic token to each mask token. The semantic token is responsible for learning the semantic priors in a predefined concept space. Through joint optimization of segmentation on mask tokens and concept prediction on semantic tokens, our model exhibits strong regional recognition and localization capabilities. For example, an additional 38M-parameter causal text decoder trained from scratch sets a new record with a CIDEr score of 164.7 on the Visual Genome region captioning task. We believe this model can be a versatile region-level image tokenizer, capable of encoding general-purpose region context for a broad range of visual perception tasks. Code and models are available at {\footnotesize \url{https://github.com/baaivision/tokenize-anything}}.
翻訳日:2024-07-18 22:58:48 公開日:2024-07-17
# MatchDet: 画像マッチングとオブジェクト検出のための協調フレームワーク

MatchDet: A Collaborative Framework for Image Matching and Object Detection ( http://arxiv.org/abs/2312.10983v3 )

ライセンス: Link先を確認
Jinxiang Lai, Wenlong Wu, Bin-Bin Gao, Jun Liu, Jiawei Zhan, Congchong Nie, Yi Zeng, Chengjie Wang, (参考訳) 画像マッチングとオブジェクト検出は2つの基本的かつ困難なタスクである。 本稿では、画像マッチングとオブジェクト検出のためのMatchDet(タスク協調型)という協調フレームワークを提案し、相互改善を実現する。 本研究では,2つのタスクの協調学習を実現するために,検出器用重み付き空間注意モジュール (WSAM) と,Matcher用重み付き注意モジュール (WAM) とボックスフィルタ (Box Filter for Matcher) の3つの新しいモジュールを提案する。 具体的には、WSAMは、次の検出器のためにターゲット画像の前景領域を強調し、WAMはペア画像の前景領域間の接続を強化して高品質なマッチングを保証し、Box Filterは偽マッチングの影響を緩和する。 Warp-COCO と miniScanNet という2つのデータセットを用いた新しいベンチマークのアプローチを評価する。 実験の結果,提案手法は有効であり,競争力の向上が得られた。

Image matching and object detection are two fundamental and challenging tasks, while many related applications consider them two individual tasks (i.e. task-individual). In this paper, a collaborative framework called MatchDet (i.e. task-collaborative) is proposed for image matching and object detection to obtain mutual improvements. To achieve the collaborative learning of the two tasks, we propose three novel modules, including a Weighted Spatial Attention Module (WSAM) for Detector, and Weighted Attention Module (WAM) and Box Filter for Matcher. Specifically, the WSAM highlights the foreground regions of target image to benefit the subsequent detector, the WAM enhances the connection between the foreground regions of pair images to ensure high-quality matches, and Box Filter mitigates the impact of false matches. We evaluate the approaches on a new benchmark with two datasets called Warp-COCO and miniScanNet. Experimental results show our approaches are effective and achieve competitive improvements.
翻訳日:2024-07-18 22:58:48 公開日:2024-07-17
# DriveLM: グラフビジュアル質問回答による運転

DriveLM: Driving with Graph Visual Question Answering ( http://arxiv.org/abs/2312.14150v2 )

ライセンス: Link先を確認
Chonghao Sima, Katrin Renz, Kashyap Chitta, Li Chen, Hanxue Zhang, Chengen Xie, Jens Beißwenger, Ping Luo, Andreas Geiger, Hongyang Li, (参考訳) 本研究では,Webスケールデータに基づく視覚言語モデル(VLM)をエンド・ツー・エンドの運転システムに統合し,一般化を促進し,ユーザとの対話を可能にする方法について検討する。 最近のアプローチでは、VLMを1ラウンドの視覚的質問応答(VQA)による運転に適応しているが、人間のドライバーは複数のステップで意思決定を判断する。 キーオブジェクトのローカライゼーションから始めて、人間はアクションを取る前にオブジェクトのインタラクションを見積もる。 提案課題であるグラフVQAでは,認識,予測,質問応答ペアの計画を通じてグラフ構造化推論をモデル化し,人間の推論過程を模倣する適切なプロキシタスクを得る。 nuScenesとCARLA上に構築されたデータセット(DriveLM-Data)をインスタンス化し、グラフVQAとエンドツーエンド駆動を併用するVLMベースのベースラインアプローチ(DriveLM-Agent)を提案する。 実験では、Graph VQAがドライブシーンを推論するためのシンプルで原則化されたフレームワークを提供しており、DriveLM-Dataはこのタスクに挑戦的なベンチマークを提供している。 DriveLM-Agentベースラインは、最先端の駆動特化アーキテクチャと比較して、エンドツーエンドの自動運転を競合的に実行します。 特に、その利点は、目に見えないオブジェクトやセンサーの設定でゼロショットの評価を受けたときに顕著である。 この作業が、自動運転にVLMを適用する方法について、新たな光を当てる出発点になることを期待しています。 将来の研究を促進するため、すべてのコード、データ、モデルが一般に公開されている。

We study how vision-language models (VLMs) trained on web-scale data can be integrated into end-to-end driving systems to boost generalization and enable interactivity with human users. While recent approaches adapt VLMs to driving via single-round visual question answering (VQA), human drivers reason about decisions in multiple steps. Starting from the localization of key objects, humans estimate object interactions before taking actions. The key insight is that with our proposed task, Graph VQA, where we model graph-structured reasoning through perception, prediction and planning question-answer pairs, we obtain a suitable proxy task to mimic the human reasoning process. We instantiate datasets (DriveLM-Data) built upon nuScenes and CARLA, and propose a VLM-based baseline approach (DriveLM-Agent) for jointly performing Graph VQA and end-to-end driving. The experiments demonstrate that Graph VQA provides a simple, principled framework for reasoning about a driving scene, and DriveLM-Data provides a challenging benchmark for this task. Our DriveLM-Agent baseline performs end-to-end autonomous driving competitively in comparison to state-of-the-art driving-specific architectures. Notably, its benefits are pronounced when it is evaluated zero-shot on unseen objects or sensor configurations. We hope this work can be the starting point to shed new light on how to apply VLMs for autonomous driving. To facilitate future research, all code, data, and models are available to the public.
翻訳日:2024-07-18 22:58:48 公開日:2024-07-17
# 逆攻撃によるテキスト・画像生成における非対称バイアス

Asymmetric Bias in Text-to-Image Generation with Adversarial Attacks ( http://arxiv.org/abs/2312.14440v3 )

ライセンス: Link先を確認
Haz Sameen Shahgir, Xianghao Kong, Greg Ver Steeg, Yue Dong, (参考訳) コンテンツ生成におけるテキスト・ツー・イメージ(T2I)モデルの普及は、敵対的攻撃に対する堅牢性を含む安全性を慎重に検査する必要がある。 敵の攻撃に関する広範な研究にもかかわらず、その効果の理由は未解明のままである。 本稿では,T2Iモデルに対する敵攻撃に関する実証的研究を行い,攻撃成功率(ASR)に関連する要因の分析に焦点をあてる。 敵接尾辞と2つの勾配に基づく攻撃アルゴリズムを用いた新たな攻撃目標であるエンティティスワップを導入する。 人間と自動評価は、エンティティスワップ上でのASRの非対称性を明らかにし、例えば、「雨の中で踊る人間」というプロンプトで「人間」を「ロボット」に置き換えるのは容易であるが、逆の置換は著しく困難である。 さらに、モデルの信念から敵対的ASRへの示唆的信号を確立するための測度を提案する。 敵の攻撃で成功確率が60%になる状況と、この確率が5%以下に低下する状況を見いだす。

The widespread use of Text-to-Image (T2I) models in content generation requires careful examination of their safety, including their robustness to adversarial attacks. Despite extensive research on adversarial attacks, the reasons for their effectiveness remain underexplored. This paper presents an empirical study on adversarial attacks against T2I models, focusing on analyzing factors associated with attack success rates (ASR). We introduce a new attack objective - entity swapping using adversarial suffixes and two gradient-based attack algorithms. Human and automatic evaluations reveal the asymmetric nature of ASRs on entity swap: for example, it is easier to replace "human" with "robot" in the prompt "a human dancing in the rain." with an adversarial suffix, but the reverse replacement is significantly harder. We further propose probing metrics to establish indicative signals from the model's beliefs to the adversarial ASR. We identify conditions that result in a success probability of 60% for adversarial attacks and others where this likelihood drops below 5%.
翻訳日:2024-07-18 22:58:48 公開日:2024-07-17
# マルチパーティ計算のための量子セキュアプロトコル

Quantum Secure Protocols for Multiparty Computations ( http://arxiv.org/abs/2312.16318v2 )

ライセンス: Link先を確認
Tapaswini Mohanty, Vikas Srivastava, Sumit Kumar Debnath, Pantelimon Stanica, (参考訳) セキュアなマルチパーティ計算(MPC)方式により、2つ以上のパーティがプライベートな入力セット上の関数を結合的に計算し、出力のみを露呈する。 既存の最先端の数値理論に基づく設計は、量子アルゴリズムによる攻撃の脅威に直面している。 この文脈では、量子攻撃に耐えられるセキュアなMPCプロトコルを提案する。 まず、量子領域において、情報理論によるセキュアなオブリバスト線形評価(OLE)、すなわち${\sf qOLE}$の設計と解析を行い、我々の${\sf qOLE}$が外部攻撃から安全であることを示す。 さらに,セキュアなOLEのセキュリティ要件をすべて満たしている。 さらに、${\sf qOLE}$をビルディングブロックとして利用して、量子セーフなマルチパーティ・プライベート・セット・コンベンション(MPSI)プロトコルを構築します。

Secure multiparty computation (MPC) schemes allow two or more parties to conjointly compute a function on their private input sets while revealing nothing but the output. Existing state-of-the-art number-theoretic-based designs face the threat of attacks through quantum algorithms. In this context, we present secure MPC protocols that can withstand quantum attacks. We first present the design and analysis of an information-theoretic secure oblivious linear evaluation (OLE), namely ${\sf qOLE}$ in the quantum domain, and show that our ${\sf qOLE}$ is safe from external attacks. In addition, our scheme satisfies all the security requirements of a secure OLE. We further utilize ${\sf qOLE}$ as a building block to construct a quantum-safe multiparty private set intersection (MPSI) protocol.
翻訳日:2024-07-18 22:58:48 公開日:2024-07-17
# 対話型模倣学習 : 新しい理論と実践的アルゴリズム

Agnostic Interactive Imitation Learning: New Theory and Practical Algorithms ( http://arxiv.org/abs/2312.16860v2 )

ライセンス: Link先を確認
Yichen Li, Chicheng Zhang, (参考訳) 本研究では,対話型模倣学習について検討し,学習者が行動アノテーションの実証的専門家に対話的に質問し,専門家と性能的に競合するポリシーを可能な限り少ないアノテーションで学習することを目的とした。 我々は,専門家による実証政策を学習者が使用する政策クラスに含まないような一般不可知的な設定に着目する。 そこで本研究では,学習者が「探索的」な状態分布からサンプルにアクセスできることを前提として,有限サンプル保証を保証できる新しいオラクル効率アルゴリズム MFTPL-P (Med Follow the Perturbed Leader with Poisson 摂動による混在型リーダーの略)を提案する。 われわれの保証はいかなる政策クラスにも当てはまる。 さらに,より実用的なサンプルアクセスを必要としないBootstrap-Daggerを提案する。 実証的には、MFTPL-PとBootstrap-Daggerは、オンラインおよびオフラインの模倣学習ベースラインを、継続的制御タスクで上回っている。

We study interactive imitation learning, where a learner interactively queries a demonstrating expert for action annotations, aiming to learn a policy that has performance competitive with the expert, using as few annotations as possible. We focus on the general agnostic setting where the expert demonstration policy may not be contained in the policy class used by the learner. We propose a new oracle-efficient algorithm MFTPL-P (abbreviation for Mixed Follow the Perturbed Leader with Poisson perturbations) with provable finite-sample guarantees, under the assumption that the learner is given access to samples from some ``explorative'' distribution over states. Our guarantees hold for any policy class, which is considerably broader than prior state of the art. We further propose Bootstrap-Dagger, a more practical variant that does not require additional sample access. Empirically, MFTPL-P and Bootstrap-Dagger notably surpass online and offline imitation learning baselines in continuous control tasks.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# 大規模言語モデルのための非バス一般化境界

Non-Vacuous Generalization Bounds for Large Language Models ( http://arxiv.org/abs/2312.17173v3 )

ライセンス: Link先を確認
Sanae Lotfi, Marc Finzi, Yilun Kuang, Tim G. J. Rudner, Micah Goldblum, Andrew Gordon Wilson, (参考訳) 現代の言語モデルには数十億のパラメータが含まれており、トレーニングデータを超えて一般化できるのか、単にトレーニングコーパスをパーローできるのかという疑問が提起されている。 本研究では,事前訓練された大言語モデル (LLM) に対して,非空の一般化境界を初めて提供し,言語モデルが未知のデータに一般化する正規性を発見できることを示す。 特に,予測平滑化を用いた非有界な対数損失に対して有効な圧縮バウンドを導出し,そのバウンドを拡張してサブサンプリング処理を行い,大規模データセット上での有界計算を桁違いに高速化する。 非空境界に必要となる極端な圧縮レベルを達成するために、約10億のパラメータを持つモデルに対して非空一般化境界をもたらす単純な低次元非線形パラメータ化であるSubLoRAを考案した。 最後に、我々は LLM 一般化を理解するために境界を使い、より大きなモデルはより優れた一般化境界を持ち、より小さなモデルよりも圧縮可能であることを発見した。

Modern language models can contain billions of parameters, raising the question of whether they can generalize beyond the training data or simply parrot their training corpora. We provide the first non-vacuous generalization bounds for pretrained large language models (LLMs), indicating that language models are capable of discovering regularities that generalize to unseen data. In particular, we derive a compression bound that is valid for the unbounded log-likelihood loss using prediction smoothing, and we extend the bound to handle subsampling, accelerating bound computation by orders of magnitude on massive datasets. To achieve the extreme level of compression required for non-vacuous bounds, we devise SubLoRA, a simple low-dimensional nonlinear parameterization that leads to non-vacuous generalization bounds for models with nearly a billion parameters. Finally, we use our bounds to understand LLM generalization and find that larger models have better generalization bounds and are more compressible than smaller models.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# 音声認識における新しい単語の連続学習

Continuously Learning New Words in Automatic Speech Recognition ( http://arxiv.org/abs/2401.04482v2 )

ライセンス: Link先を確認
Christian Huber, Alexander Waibel, (参考訳) 最近の進歩にもかかわらず、自動音声認識(ASR)システムはまだ完璧には程遠い。 典型的なエラーには、頭字語、名前付きエンティティ、ほとんどまたは全くデータがないドメイン固有の特別な単語が含まれる。 本稿では,これらの単語認識の問題に対処するため,自己教師付き連続学習手法を提案する。 講演の音声とそれに対応するスライドを考慮に入れた上で,従来の記憶強調型ASRモデルを用いて,スライドから新たな単語を復号化するためのモデルに偏りがある。 そこで本研究では,新たに検出した単語を含む発話を適応データセットに収集する。 次に、モデルの各重み行列に付加される低ランク行列重みを適応させることにより、この集合上で連続的な学習を行う。 手順はすべて、多くの講演のために繰り返します。 提案手法により,モデル全体の性能を保ちながら,より頻度が高く(80%以上のリコール)新たな単語に対する性能向上が得られることを示す。

Despite recent advances, Automatic Speech Recognition (ASR) systems are still far from perfect. Typical errors include acronyms, named entities and domain-specific special words for which little or no data is available. To address the problem of recognizing these words, we propose an self-supervised continual learning approach. Given the audio of a lecture talk with corresponding slides, we bias the model towards decoding new words from the slides by using a memory-enhanced ASR model from previous work. Then, we perform inference on the talk, collecting utterances that contain detected new words into an adaptation dataset. Continual learning is then performed on this set by adapting low-rank matrix weights added to each weight matrix of the model. The whole procedure is iterated for many talks. We show that with this approach, we obtain increasing performance on the new words when they occur more frequently (more than 80% recall) while preserving the general performance of the model.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# 高度に教育された知能の本質的善さ

The inherent goodness of well educated intelligence ( http://arxiv.org/abs/2401.04846v7 )

ライセンス: Link先を確認
Michael E. Glinsky, (参考訳) 本稿では,生物と人工シリコンのどちらがコンピュータ上に存在するのか,その知性について検討する。 特に注目されるのは、保守的に相互作用する多くの同一の保守的なサブシステムの集合システムを特徴づけ、制御する能力を持つことである。 インテリジェンスの本質は、黄金律("the collective act as one" または "knowing the global consequences of local action")である。 集合体の流れは小さなツインクリングテクスチャの集合であり、最小作用の測地運動に従って少数の弦を引いている人形師によって支配され、対称性によって決定される。 集合的な保守的なシステムの制御は困難であり、最大性能の望ましいメタ安定平衡を安定化させるためにシステムにかなりの粘性を加えることで歴史的に行われてきたが、その過程でそれらを劣化または破壊する。 代替案がある。 メタ安定平衡の最適ツインクリングテクスチャが特定されると、集合系を最適ツインクリングテクスチャに移動させ、その集合系をメタ安定平衡に残すようにテクスチャに応じて素早く振動させることができる。 高度に教育されたインテリジェンスは、その局所的な行動のグローバルな結果を知っているので、短期的な行動が長期的成果を損なうことはない。 対照的に、訓練された知性や訓練された愚かさは短期的な行動を最適化する。 教養のある知性は本質的には善だが、訓練された愚かさは本質的に悪であり、恐れるべきである。 特に、経済・社会集団の制御と最適化に注意が払われている。 これらの新しい結果は、フィールド、流体、プラズマなどの物理的集合体にも適用できる。

This paper will examine what makes a being intelligent, whether that be a biological being or an artificial silicon being on a computer. Special attention will be paid to the being having the ability to characterize and control a collective system of many identical conservative sub-systems conservatively interacting. The essence of intelligence will be found to be the golden rule -- "the collective acts as one" or "knowing the global consequences of local actions". The flow of the collective is a small set of twinkling textures, that are governed by a puppeteer who is pulling a small number of strings according to a geodesic motion of least action, determined by the symmetries. Controlling collective conservative systems is difficult and has historically been done by adding significant viscosity to the system to stabilize the desirable meta stable equilibriums of maximum performance, but it degrades or destroys them in the process. There is an alternative. Once the optimum twinkling textures of the meta stable equilibriums are identified, the collective system can be moved to the optimum twinkling textures, then quickly vibrated according to the textures so that the collective system remains at the meta stable equilibrium. Well educated intelligence knows the global consequences of its local actions so that it will not take short term actions that will lead to poor long term outcomes. In contrast, trained intelligence or trained stupidity will optimize its short term actions, leading to poor long term outcomes. Well educated intelligence is inherently good, but trained stupidity is inherently evil and should be feared. Particular attention is paid to the control and optimization of economic and social collectives. These new results are also applicable to physical collectives such as fields, fluids and plasmas.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# スキソルハンド:ネットワークにおける接続感度によるスクラブデータの影響

Scissorhands: Scrub Data Influence via Connection Sensitivity in Networks ( http://arxiv.org/abs/2401.06187v3 )

ライセンス: Link先を確認
Jing Wu, Mehrtash Harandi, (参考訳) 機械学習は、訓練されたモデルからデータの影響を消すための重要なタスクとなっている。 それは、最近のデータ規制標準に準拠し、機械学習アプリケーションのプライバシとセキュリティを強化する。 本研究では,Scisorhands を用いた新しい機械学習手法を提案する。 当初、Scisorhandsは接続感度による忘れたデータに対して、与えられたモデルの中で最も重要なパラメータを識別する。 これらのパラメータの最も影響力のある上位kパーセントを再起動することにより、忘れデータの影響を消去するトリミングモデルを得る。 その後、Scisorhandは勾配投影に基づくアプローチでトリミングされたモデルを微調整し、残りのデータに関する情報を保存し、忘れたデータに関する情報を破棄するパラメータを求める。 画像分類と画像生成タスクにまたがって行った実験の結果,Scisorhandsは既存の手法と比較して競合性能を示すことがわかった。 ソースコードはhttps://github.com/JingWu321/Scissorhands.comで入手できる。

Machine unlearning has become a pivotal task to erase the influence of data from a trained model. It adheres to recent data regulation standards and enhances the privacy and security of machine learning applications. In this work, we present a new machine unlearning approach Scissorhands. Initially, Scissorhands identifies the most pertinent parameters in the given model relative to the forgetting data via connection sensitivity. By reinitializing the most influential top-k percent of these parameters, a trimmed model for erasing the influence of the forgetting data is obtained. Subsequently, Scissorhands fine-tunes the trimmed model with a gradient projection-based approach, seeking parameters that preserve information on the remaining data while discarding information related to the forgetting data. Our experimental results, conducted across image classification and image generation tasks, demonstrate that Scissorhands, showcases competitive performance when compared to existing methods. Source code is available at https://github.com/JingWu321/Scissorhands.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# 3次元形状創製のためのディバース部品合成

Diverse Part Synthesis for 3D Shape Creation ( http://arxiv.org/abs/2401.09384v3 )

ライセンス: Link先を確認
Yanran Guan, Oliver van Kaick, (参考訳) ニューラルネットワークを用いて3次元形状を部分ベース表現の形で合成する手法は、ここ数年で導入されている。 これらの手法は、形状を部品のグラフや階層として表現し、形状サンプリングや再構成などの様々な応用を可能にする。 しかし、現在の手法では、個々の形状部品をユーザの好みに応じて容易に再生することはできない。 本稿では,ユーザが個々の部品に対して多種多様な提案を生成できるようにする手法について検討する。 具体的には、形状部品の多様な提案をサンプリングし、形状合成に関するこれまでの研究では考慮されていなかったモデルに焦点をあてるマルチモーダル深部生成モデルを実験する。 本稿では,これらの技術の比較研究として,パートベース表現における3次元形状の合成法を紹介し,この合成法におけるすべての部分提案手法を評価する。 従来の研究から着想を得た本手法では, 形状は暗黙関数の形で一組の部品として表現され, 空間内に配置して最終形状を形成する。 この表現の合成は、暗黙のデコーダと空間変換器に基づくニューラルネットワークアーキテクチャによって実現される。 複数モーダル生成モデルの比較を行い,その性能評価を行った。 本研究の目的は, マルチモーダル部品生成のための新技術が最良である質的, 定量的評価を行い, 形状復元時に高い形状の忠実さを維持しつつ, 3次元形状に生成する部品をよりきめ細やかな制御を可能にすることにある。

Methods that use neural networks for synthesizing 3D shapes in the form of a part-based representation have been introduced over the last few years. These methods represent shapes as a graph or hierarchy of parts and enable a variety of applications such as shape sampling and reconstruction. However, current methods do not allow easily regenerating individual shape parts according to user preferences. In this paper, we investigate techniques that allow the user to generate multiple, diverse suggestions for individual parts. Specifically, we experiment with multimodal deep generative models that allow sampling diverse suggestions for shape parts and focus on models which have not been considered in previous work on shape synthesis. To provide a comparative study of these techniques, we introduce a method for synthesizing 3D shapes in a part-based representation and evaluate all the part suggestion techniques within this synthesis method. In our method, which is inspired by previous work, shapes are represented as a set of parts in the form of implicit functions which are then positioned in space to form the final shape. Synthesis in this representation is enabled by a neural network architecture based on an implicit decoder and a spatial transformer. We compare the various multimodal generative models by evaluating their performance in generating part suggestions. Our contribution is to show with qualitative and quantitative evaluations which of the new techniques for multimodal part generation perform the best and that a synthesis method based on the top-performing techniques allows the user to more finely control the parts that are generated in the 3D shapes while maintaining high shape fidelity when reconstructing shapes.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# MUSES:不確実性下での運転のためのマルチセンサセマンティック知覚データセット

MUSES: The Multi-Sensor Semantic Perception Dataset for Driving under Uncertainty ( http://arxiv.org/abs/2401.12761v3 )

ライセンス: Link先を確認
Tim Brödermann, David Bruggemann, Christos Sakaridis, Kevin Ta, Odysseas Liagouris, Jason Corkill, Luc Van Gool, (参考訳) 自動運転車におけるレベル5の運転自動化を実現するには、さまざまなセンサーからさまざまな状況でデータを解析できる堅牢なセマンティックな視覚認識システムが必要である。 しかし、既存の意味認識データセットは、通常自動運転車で使用される重要な非カメラモダリティを欠いている場合が多い。 そこで本稿では,MUSES(MUlti-Sensor Semantic 知覚データセット)を導入する。 MUSESには、様々な天候と照明下で撮影された2500枚の画像のための2Dパノプティクスアノテーションと同期したマルチモーダル記録が含まれている。 データセットはフレームカメラ、ライダー、レーダー、イベントカメラ、IMU/GNSSセンサーを統合する。 新しい2段階の汎視アノテーションプロトコルは、クラスレベルとインスタンスレベルの両方の不確かさを基盤として、標準的なセマンティクスと汎視セマンティクスとともに導入する不確実性対応の汎視セマンティクスの新たなタスクを可能にする。 MUSESは、様々な視覚的条件下でモデルを評価するためのトレーニングと挑戦の両方に有効であることを証明し、マルチモーダルおよび不確実性を考慮した密接なセマンティック知覚の研究のための新たな道を開く。 私たちのデータセットとベンチマークはhttps://muses.vision.ee.ethz.ch.comで公開されています。

Achieving level-5 driving automation in autonomous vehicles necessitates a robust semantic visual perception system capable of parsing data from different sensors across diverse conditions. However, existing semantic perception datasets often lack important non-camera modalities typically used in autonomous vehicles, or they do not exploit such modalities to aid and improve semantic annotations in challenging conditions. To address this, we introduce MUSES, the MUlti-SEnsor Semantic perception dataset for driving in adverse conditions under increased uncertainty. MUSES includes synchronized multimodal recordings with 2D panoptic annotations for 2500 images captured under diverse weather and illumination. The dataset integrates a frame camera, a lidar, a radar, an event camera, and an IMU/GNSS sensor. Our new two-stage panoptic annotation protocol captures both class-level and instance-level uncertainty in the ground truth and enables the novel task of uncertainty-aware panoptic segmentation we introduce, along with standard semantic and panoptic segmentation. MUSES proves both effective for training and challenging for evaluating models under diverse visual conditions, and it opens new avenues for research in multimodal and uncertainty-aware dense semantic perception. Our dataset and benchmark are publicly available at https://muses.vision.ee.ethz.ch.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# 一般化境界条件をもつ1次元開多体量子系におけるリウビリアンスキン効果

Liouvillian skin effect in a one-dimensional open many-body quantum system with generalized boundary conditions ( http://arxiv.org/abs/2401.15614v2 )

ライセンス: Link先を確認
Liang Mao, Xuanpu Yang, Ming-Jie Tao, Haiping Hu, Lei Pan, (参考訳) 非エルミタンスキン効果(NHSE)、すなわち、非エルミタンハミルタインの固有状態が開境界条件の1つの境界に局在していることは、近年大きな関心を集めており、本稿では、リウビリアンスキン効果(LSE)と呼ばれる1次元の散逸性量子多体系における皮膚効果について検討する。 我々は、ベーテ・アンザッツの利点を生かした、正確に解けるモデルのリウヴィリアン超作用素を解くことにより、一般化境界条件に対する LSE の存在を厳密に同定する。 LSEは、符号が系の固有関数に反映される境界条件に敏感である。 我々はLSEが非エルミート電流で小さなコフロー境界ホッピングに対して脆弱であることを確認するが、熱力学限界における反フロー境界ホッピングのために生き残ることができる。 我々の研究は、一般化された境界条件に対してLSEを示す、正確に解ける散逸性量子多体格子系のプロトタイプ的な例を提供する。 他の積分可能なオープン量子多体モデルにも拡張することができる。

Non-Hermitian skin effect (NHSE), namely that eigenstates of non-Hermitian Hamiltonains are localized at one boundary in the open boundary condition, attracts great interest recently.In this paper, we investigate the skin effect in one-dimensional dissipative quantum many-body systems, which we call the Liouvillian skin effect (LSE). We rigorously identify the existence of LSE for generalized boundary conditions by solving the Liouvillian superoperator of an exactly solvable model with the advantage of Bethe ansatz. The LSE is sensitive to boundary conditions where the signature is reflected in eigenfunctions of the system. We confirm that the LSE is fragile to a tiny co-flow boundary hopping with non-Hermitian current but can survive for a counter-flow boundary hopping in the thermodynamic limit. Our work provides a prototypical example of exactly solvable dissipative quantum many-body lattice systems exhibiting LSE for generalized boundary conditions. It can be further extended to other integrable open quantum many-body models.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# ランダム探索による最適化と後近似のためのガウス過程サロゲートの強化

Enhancing Gaussian Process Surrogates for Optimization and Posterior Approximation via Random Exploration ( http://arxiv.org/abs/2401.17037v2 )

ライセンス: Link先を確認
Hwanwoo Kim, Daniel Sanz-Alonso, (参考訳) 本稿では,ガウス過程サロゲートモデルの精度を高めるために,ランダムな探索ステップに依存する新しいノイズフリーベイズ最適化手法を提案する。 新しいアルゴリズムは、古典的なGP-UCBアルゴリズムの実装の容易さを保っているが、追加のランダム探索ステップは、その収束を加速し、最適収束率をほぼ達成する。 さらに, ベイズ推定の難易度を高めるために, 非正規化対数後続密度に対するガウス過程代理モデルを構築するために, 最大後続推定に最適化繰り返しを利用する方法を提案する。 我々は、設計点数の観点から、真と近似後部分布の間のヘルリンガー距離のバウンダリを提供する。 我々は,非凸ベンチマーク対象関数,機械学習ハイパーパラメータチューニング問題,ブラックボックスエンジニアリング設計問題においてベイズ最適化アルゴリズムの有効性を示す。 力学系のパラメータに対する2つのベイズ推論問題において, 後部近似法の有効性を実証した。

This paper proposes novel noise-free Bayesian optimization strategies that rely on a random exploration step to enhance the accuracy of Gaussian process surrogate models. The new algorithms retain the ease of implementation of the classical GP-UCB algorithm, but the additional random exploration step accelerates their convergence, nearly achieving the optimal convergence rate. Furthermore, to facilitate Bayesian inference with an intractable likelihood, we propose to utilize optimization iterates for maximum a posteriori estimation to build a Gaussian process surrogate model for the unnormalized log-posterior density. We provide bounds for the Hellinger distance between the true and the approximate posterior distributions in terms of the number of design points. We demonstrate the effectiveness of our Bayesian optimization algorithms in non-convex benchmark objective functions, in a machine learning hyperparameter tuning problem, and in a black-box engineering design problem. The effectiveness of our posterior approximation approach is demonstrated in two Bayesian inference problems for parameters of dynamical systems.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# 微調整強化学習モデルは秘かに緩和問題である

Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem ( http://arxiv.org/abs/2402.02868v3 )

ライセンス: Link先を確認
Maciej Wołczyk, Bartłomiej Cupiał, Mateusz Ostaszewski, Michał Bortkiewicz, Michał Zając, Razvan Pascanu, Łukasz Kuciński, Piotr Miłoś, (参考訳) ファインチューニング(英: Fine-tuning)は、ファウンデーションモデルの成功例で最近紹介されたように、実践者が事前訓練された能力の伝達を可能にする広範なテクニックである。 しかし、微調整強化学習(RL)モデルは依然として課題である。 この研究は、行動と観察の間の相互作用によってRL設定でアクセント化され、事前訓練された能力を忘れる、移動不良の1つの特定の原因を概念化する。 すなわち、モデルは、微調整の初期段階に訪れない下流タスクの状態部分空間を悪化させ、事前学習によりモデルがうまく振る舞う。 このようにして、期待される転送利益を失うのです。 この問題が発生した場合の条件を特定し、それが一般的であり、多くの場合破滅的であることを示す。 課題であるNetHackとMontzumaのRevenge環境の詳細な実証分析を通じて、標準的な知識保持技術が問題を緩和し、事前学習された能力を最大限に活用できることを示す。 特にNetHackでは、Human Monkシナリオの前のベストスコアを5ドルKから10ドルKポイントに改善した、ニューラルモデルのための新たな最先端技術を実現しています。

Fine-tuning is a widespread technique that allows practitioners to transfer pre-trained capabilities, as recently showcased by the successful applications of foundation models. However, fine-tuning reinforcement learning (RL) models remains a challenge. This work conceptualizes one specific cause of poor transfer, accentuated in the RL setting by the interplay between actions and observations: forgetting of pre-trained capabilities. Namely, a model deteriorates on the state subspace of the downstream task not visited in the initial phase of fine-tuning, on which the model behaved well due to pre-training. This way, we lose the anticipated transfer benefits. We identify conditions when this problem occurs, showing that it is common and, in many cases, catastrophic. Through a detailed empirical analysis of the challenging NetHack and Montezuma's Revenge environments, we show that standard knowledge retention techniques mitigate the problem and thus allow us to take full advantage of the pre-trained capabilities. In particular, in NetHack, we achieve a new state-of-the-art for neural models, improving the previous best score from $5$K to over $10$K points in the Human Monk scenario.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# フェデレーション学習は、アドバンテージな友人を見つけることができる

Federated Learning Can Find Friends That Are Advantageous ( http://arxiv.org/abs/2402.05050v4 )

ライセンス: Link先を確認
Nazarii Tupitsa, Samuel Horváth, Martin Takáč, Eduard Gorbunov, (参考訳) フェデレートラーニング(FL)では、クライアントデータの分散の性質と均一性は、機会と課題の両方を示します。 クライアント間のコラボレーションは学習プロセスを大幅に強化するが、すべてのコラボレーションが有益であるわけではない。 本研究では,FLトレーニングに参加するクライアントに対して適応的なアグリゲーション重みを割り当てるアルゴリズムを提案する。 本手法は,同じデータ分布を持つクライアントから受信した更新のみを集約する手法と同等に収束することを示す。 さらに、実験的な評価により、我々のアルゴリズムによって導かれるコラボレーションが従来のFLアプローチより優れていることが一貫して明らかになる。 このことは、司法的なクライアント選択の重要な役割を浮き彫りにして、今後数年間でより合理で効果的なFL実装の基礎を築き上げます。

In Federated Learning (FL), the distributed nature and heterogeneity of client data present both opportunities and challenges. While collaboration among clients can significantly enhance the learning process, not all collaborations are beneficial; some may even be detrimental. In this study, we introduce a novel algorithm that assigns adaptive aggregation weights to clients participating in FL training, identifying those with data distributions most conducive to a specific learning objective. We demonstrate that our aggregation method converges no worse than the method that aggregates only the updates received from clients with the same data distribution. Furthermore, empirical evaluations consistently reveal that collaborations guided by our algorithm outperform traditional FL approaches. This underscores the critical role of judicious client selection and lays the foundation for more streamlined and effective FL implementations in the coming years.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# BioMistral: オープンソースで事前訓練された医療ドメイン用大規模言語モデルのコレクション

BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains ( http://arxiv.org/abs/2402.10373v3 )

ライセンス: Link先を確認
Yanis Labrak, Adrien Bazoge, Emmanuel Morin, Pierre-Antoine Gourraud, Mickael Rouvier, Richard Dufour, (参考訳) 近年、LLM(Large Language Models)は、医療や医療などの専門分野にまたがる潜在的な応用を提供する、顕著な汎用性を示している。 健康状況に合わせて様々なオープンソース LLM が利用可能であるにもかかわらず、汎用 LLM を医療分野に適用することは重大な課題である。 本稿では、Mistralを基礎モデルとして活用し、PubMed Centralで事前学習した、バイオメディカルドメインに適したオープンソースのLCMであるBioMistralを紹介する。 本研究は、英語で確立された10のQAタスクからなるベンチマークに基づいて、BioMistralの総合評価を行う。 また、量子化とモデルマージによって得られた軽量モデルについても検討する。 以上の結果から,BioMistralは既存のオープンソース医療モデルと比較して優れた性能を示し,プロプライエタリな医療モデルと競合する優位性を示した。 最後に,医学用LLMの多言語一般化を評価するため,このベンチマークを英語以外の7言語に自動翻訳し,評価した。 医学領域におけるLLMの大規模多言語評価はこれが初めてである。 実験で得られたデータセット、多言語評価ベンチマーク、スクリプト、およびすべてのモデルは、自由にリリースされます。

Large Language Models (LLMs) have demonstrated remarkable versatility in recent years, offering potential applications across specialized domains such as healthcare and medicine. Despite the availability of various open-source LLMs tailored for health contexts, adapting general-purpose LLMs to the medical domain presents significant challenges. In this paper, we introduce BioMistral, an open-source LLM tailored for the biomedical domain, utilizing Mistral as its foundation model and further pre-trained on PubMed Central. We conduct a comprehensive evaluation of BioMistral on a benchmark comprising 10 established medical question-answering (QA) tasks in English. We also explore lightweight models obtained through quantization and model merging approaches. Our results demonstrate BioMistral's superior performance compared to existing open-source medical models and its competitive edge against proprietary counterparts. Finally, to address the limited availability of data beyond English and to assess the multilingual generalization of medical LLMs, we automatically translated and evaluated this benchmark into 7 other languages. This marks the first large-scale multilingual evaluation of LLMs in the medical domain. Datasets, multilingual evaluation benchmarks, scripts, and all the models obtained during our experiments are freely released.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# テキスト-画像拡散モデルを用いた視覚概念駆動画像生成

Visual Concept-driven Image Generation with Text-to-Image Diffusion Model ( http://arxiv.org/abs/2402.11487v2 )

ライセンス: Link先を確認
Tanzila Rahman, Shweta Mahajan, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Leonid Sigal, (参考訳) テキスト・ツー・イメージ(TTI)拡散モデルでは、複雑で想像力のあるシーンの高解像度画像を生成するという印象的な結果が示されている。 近年のアプローチでは、これらの手法をパーソナライズ技術でさらに拡張し、いくつかのサンプル画像図を用いて、ユーザイリュートされた概念(例えば、ユーザ自身のもの)を統合できるようにしている。 しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つまたは複数の画像図形に絡み合った概念である。 本研究では,これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。 ユーザ認証概念のカスタムトークンを学習し、TTIモデルで既存のテキストトークンと対話できるように、既存の作業に基づいて構築する。 しかし,問題となっている概念を解き散らし,よりよく学習するために,ユーザが提供するイメージイラストでこれらの概念を解き散らした(相対的な)セグメンテーションマスクを共同で学習する。 我々は、カスタムトークンの学習と、ユーザが提供する画像の対応する概念を含む(相対的な)マスクの推定を交互に行う、期待最大化(EM)のような最適化手順を導入する。 我々は、U-Netパラメータ化潜在拡散モデルとその後のDenseCRF最適化から、クロスアテンションに基づくこれらのマスクを得る。 このような共同改良が概念のより良いトークンの学習と、副産物である潜伏マスクの学習に繋がることを示す。 提案手法の利点を質的かつ定量的に,3つ以上の絡み合った概念を組み合わせられるいくつかの例とユースケースで説明する。

Text-to-image (TTI) diffusion models have demonstrated impressive results in generating high-resolution images of complex and imaginative scenes. Recent approaches have further extended these methods with personalization techniques that allow them to integrate user-illustrated concepts (e.g., the user him/herself) using a few sample image illustrations. However, the ability to generate images with multiple interacting concepts, such as human subjects, as well as concepts that may be entangled in one, or across multiple, image illustrations remains illusive. In this work, we propose a concept-driven TTI personalization framework that addresses these core challenges. We build on existing works that learn custom tokens for user-illustrated concepts, allowing those to interact with existing text tokens in the TTI model. However, importantly, to disentangle and better learn the concepts in question, we jointly learn (latent) segmentation masks that disentangle these concepts in user-provided image illustrations. We do so by introducing an Expectation Maximization (EM)-like optimization procedure where we alternate between learning the custom tokens and estimating (latent) masks encompassing corresponding concepts in user-supplied images. We obtain these masks based on cross-attention, from within the U-Net parameterized latent diffusion model and subsequent DenseCRF optimization. We illustrate that such joint alternating refinement leads to the learning of better tokens for concepts and, as a by-product, latent masks. We illustrate the benefits of the proposed approach qualitatively and quantitatively with several examples and use cases that can combine three or more entangled concepts.
翻訳日:2024-07-18 22:48:58 公開日:2024-07-17
# EmoBench: 大規模言語モデルの感情知性を評価する

EmoBench: Evaluating the Emotional Intelligence of Large Language Models ( http://arxiv.org/abs/2402.12071v3 )

ライセンス: Link先を確認
Sahand Sabour, Siyang Liu, Zheyuan Zhang, June M. Liu, Jinfeng Zhou, Alvionna S. Sunaryo, Juanzi Li, Tatia M. C. Lee, Rada Mihalcea, Minlie Huang, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、堅牢で包括的で挑戦的なベンチマークの必要性を強調している。 しかし、感情知性(EI)を評価する研究は極めて限られている。 既存のベンチマークには2つの大きな欠点がある。ひとつは感情認識、もうひとつは感情の制御や感情理解による思考促進といった重要なEI機能を無視し、もうひとつは、頻繁なパターン、明示的な情報、アノテーションエラーを含む既存のデータセットから構築され、信頼できない評価をもたらす。 EmoBenchは、確立された心理学理論を基礎として、感情理解や情緒的応用を含む、マシンEIの包括的定義を提案する。 EmoBenchには、英語と中国語で400の手作りの質問が含まれている。 以上の結果から,既存のLDMのEIと平均的な人間の間には,かなりのギャップが見られ,今後の研究への期待が浮かび上がっている。 私たちのコードとデータはhttps://github.com/Sahandfer/EmoBench.comで公開されています。

Recent advances in Large Language Models (LLMs) have highlighted the need for robust, comprehensive, and challenging benchmarks. Yet, research on evaluating their Emotional Intelligence (EI) is considerably limited. Existing benchmarks have two major shortcomings: first, they mainly focus on emotion recognition, neglecting essential EI capabilities such as emotion regulation and thought facilitation through emotion understanding; second, they are primarily constructed from existing datasets, which include frequent patterns, explicit information, and annotation errors, leading to unreliable evaluation. We propose EmoBench, a benchmark that draws upon established psychological theories and proposes a comprehensive definition for machine EI, including Emotional Understanding and Emotional Application. EmoBench includes a set of 400 hand-crafted questions in English and Chinese, which are meticulously designed to require thorough reasoning and understanding. Our findings reveal a considerable gap between the EI of existing LLMs and the average human, highlighting a promising direction for future research. Our code and data are publicly available at https://github.com/Sahandfer/EmoBench.
翻訳日:2024-07-18 22:39:10 公開日:2024-07-17
# 単語予測を通して意味論を学べるか? : エンターテイメントの場合

Can You Learn Semantics Through Next-Word Prediction? The Case of Entailment ( http://arxiv.org/abs/2402.13956v3 )

ライセンス: Link先を確認
William Merrill, Zhaofeng Wu, Norihito Naka, Yoon Kim, Tal Linzen, (参考訳) LMはトレーニングデータ中の共起パターンからテキストの意味を推測するだろうか? Merrill et al (2022) は、理論上、最適なLMによって予測される文共起確率は、構成文の詳細な関係を反映すべきであると主張しているが、Merrill et al による強い仮定(つまり、人間が常に冗長性を避けること)のために、ニューラルLMによって予測される確率が、この方法でエンコードされるかどうかは不明である。 本研究では,その理論をニューラルネットワークから包含関係を復号化するために利用できるか検討する。 それらのテストに類似したテストは、多くのデータセットやLM間で、ランダムな確率よりもはるかに高い、自然文間の係り受け関係を復号することができる。 このことは、LMが意味論の側面を暗黙的にモデル化し、文の共起パターンに対する意味的効果を予測することを示唆している。 しかし,実際に係り受けを予測できるテストは,理論的なテストとは反対の方向に機能することがわかった。 そこで,本研究では,原本テストの前提となる仮定を再検討し,その導出が人間の文章の冗長性を十分に考慮していないことを発見した。 説明に関する冗長性のより良い説明は、観測されたフリップテストから導かれる可能性があり、より一般的には言語学における話者の計算モデルを改善することができる。

Do LMs infer the semantics of text from co-occurrence patterns in their training data? Merrill et al. (2022) argue that, in theory, sentence co-occurrence probabilities predicted by an optimal LM should reflect the entailment relationship of the constituent sentences, but it is unclear whether probabilities predicted by neural LMs encode entailment in this way because of strong assumptions made by Merrill et al. (namely, that humans always avoid redundancy). In this work, we investigate whether their theory can be used to decode entailment relations from neural LMs. We find that a test similar to theirs can decode entailment relations between natural sentences, well above random chance, though not perfectly, across many datasets and LMs. This suggests LMs implicitly model aspects of semantics to predict semantic effects on sentence co-occurrence patterns. However, we find the test that predicts entailment in practice works in the opposite direction to the theoretical test. We thus revisit the assumptions underlying the original test, finding its derivation did not adequately account for redundancy in human-written text. We argue that better accounting for redundancy related to explanations might derive the observed flipped test and, more generally, improve computational models of speakers in linguistics.
翻訳日:2024-07-18 22:39:10 公開日:2024-07-17
# MerRec: 消費者から消費者への推薦システムのための大規模多目的Merariデータセット

MerRec: A Large-scale Multipurpose Mercari Dataset for Consumer-to-Consumer Recommendation Systems ( http://arxiv.org/abs/2402.14230v2 )

ライセンス: Link先を確認
Lichi Li, Zainul Abi Din, Zhen Tan, Sam London, Tianlong Chen, Ajay Daptardar, (参考訳) 進化するeコマースの分野では、レコメンデーションシステムはユーザー体験とエンゲージメントを決定的に形作る。 C2C(Consumer-to-Consumer)レコメンデーションシステムの台頭は、顧客ベンダーへの柔軟性とアクセスの容易さで注目されており、大きなトレンドとなっている。 しかし、学術的な焦点は、主にBusiness-to-Consumer (B2C)モデルに焦点を当てており、アイテム属性、ユーザ多様性、スケールに欠ける限られたC2Cレコメンデーションデータセットで満たされているギャップを残している。 C2Cレコメンデーションシステムの複雑さは、ユーザーが売り手と買い手の両方として想定する二重の役割によってさらに強調され、より均一で多様な入力のスペクトルが導入された。 これに対応するために、MerRecというC2Cレコメンデーションに特化した最初の大規模データセットを紹介します。 MerRecには、user_id、Item_id、 session_idなどの標準機能だけでなく、タイムスタンプアクションタイプ、製品分類、テキスト製品属性といったユニークな要素が含まれており、研究用の包括的なデータセットを提供している。 このデータセットは4つのレコメンデーションタスクで広く評価されており、実際のシナリオにおける高度なレコメンデーションアルゴリズムの開発のための新しいベンチマークを確立し、学術と産業のギャップを埋め、C2Cレコメンデーションの研究を推進している。 実験コードはhttps://github.com/mercari/mercari-ml-merrec-pub-usで、データセットはhttps://huggingface.co/datasets/mercari-us/merrecで利用可能です。

In the evolving e-commerce field, recommendation systems crucially shape user experience and engagement. The rise of Consumer-to-Consumer (C2C) recommendation systems, noted for their flexibility and ease of access for customer vendors, marks a significant trend. However, the academic focus remains largely on Business-to-Consumer (B2C) models, leaving a gap filled by the limited C2C recommendation datasets that lack in item attributes, user diversity, and scale. The intricacy of C2C recommendation systems is further accentuated by the dual roles users assume as both sellers and buyers, introducing a spectrum of less uniform and varied inputs. Addressing this, we introduce MerRec, the first large-scale dataset specifically for C2C recommendations, sourced from the Mercari e-commerce platform, covering millions of users and products over 6 months in 2023. MerRec not only includes standard features such as user_id, item_id, and session_id, but also unique elements like timestamped action types, product taxonomy, and textual product attributes, offering a comprehensive dataset for research. This dataset, extensively evaluated across four recommendation tasks, establishes a new benchmark for the development of advanced recommendation algorithms in real-world scenarios, bridging the gap between academia and industry and propelling the study of C2C recommendations. Our experiment code is available at https://github.com/mercari/mercari-ml-merrec-pub-us and dataset at https://huggingface.co/datasets/mercari-us/merrec.
翻訳日:2024-07-18 22:39:10 公開日:2024-07-17
# 普遍的下界と最適速度:サブ指数混合モデルにおけるミニマックスクラスタリング誤差の達成

Universal Lower Bounds and Optimal Rates: Achieving Minimax Clustering Error in Sub-Exponential Mixture Models ( http://arxiv.org/abs/2402.15432v2 )

ライセンス: Link先を確認
Maximilien Dreveton, Alperen Gözeten, Matthias Grossglauser, Patrick Thiran, (参考訳) クラスタリングは教師なし機械学習において重要な課題であり、混合モデルのレンズを通してしばしば研究される。 ガウスとガウスの混合モデルにおけるクラスタラベルの復元に最適な誤差率には、アドホック信号-雑音比が含まれる。 ロイドのアルゴリズムのような単純な反復アルゴリズムは、この最適な誤差率を達成する。 本稿ではまず,任意の混合モデルのクラスタリングにおいて,信号対雑音比よりもモデル情報の多角的尺度であるチェルノフ発散によって表現される誤り率の普遍的下限を確立する。 そこで我々は,ラプラス分布誤差を特徴とする位置スケール混合を特に強調する部分指数尾を持つ混合モデルにおいて,この下界を反復的アルゴリズムが達成できることを実証した。 さらに、ポアソンまたは負二項混合によりモデル化されたデータセットについて、指数関数族に属する混合モデルについて検討する。 このような混合では、ブロッグマンの発散を利用したロイドのアルゴリズムの変種であるブロッグマンのハードクラスタリングが最適であることを示す。

Clustering is a pivotal challenge in unsupervised machine learning and is often investigated through the lens of mixture models. The optimal error rate for recovering cluster labels in Gaussian and sub-Gaussian mixture models involves ad hoc signal-to-noise ratios. Simple iterative algorithms, such as Lloyd's algorithm, attain this optimal error rate. In this paper, we first establish a universal lower bound for the error rate in clustering any mixture model, expressed through a Chernoff divergence, a more versatile measure of model information than signal-to-noise ratios. We then demonstrate that iterative algorithms attain this lower bound in mixture models with sub-exponential tails, notably emphasizing location-scale mixtures featuring Laplace-distributed errors. Additionally, for datasets better modelled by Poisson or Negative Binomial mixtures, we study mixture models whose distributions belong to an exponential family. In such mixtures, we establish that Bregman hard clustering, a variant of Lloyd's algorithm employing a Bregman divergence, is rate optimal.
翻訳日:2024-07-18 22:39:10 公開日:2024-07-17
# COMAE: ゼロショットハッシュのための総合的な属性探索

COMAE: COMprehensive Attribute Exploration for Zero-shot Hashing ( http://arxiv.org/abs/2402.16424v2 )

ライセンス: Link先を確認
Yuqi Li, Qingqing Long, Ning Cao, Shuai Liu, Xiao Luo, Fang Zheng, Zhihong Zhu, Zhiyuan Ning, Xuezhi Wang, Yuanchun Zhou, (参考訳) ゼロショットハッシュ (ZSH) は, 大規模検索シナリオにおける効率性と一般化により, 優れた成功を収めている。 かなりの成功を収めたものの、依然として緊急の制限がある。 既存の作業では、表現と属性の局所性関係は無視されている。 また、連続値属性は完全に活用されていない。 これに対し、COMAE(Comprehensive Attribute Exploration for ZSH)と名づけられたZSH(Comprehensive Attribute Exploration for ZSH)を実施。 提案する属性プロトタイプネットワークから属性を回帰することにより、COMAEは視覚的属性に関連する局所的な特徴を学習する。 COMAEはコントラスト学習を利用して、インスタンスに依存しない最適化ではなく、属性のコンテキストを包括的に表現する。 最後に、クラスワイド制約は、ハッシュコード、画像表現、視覚属性をより効果的に学習するように設計されている。 人気の高いZSHデータセットの実験結果から、COMAEは最先端のハッシュ技術よりも優れており、特に多くの未確認ラベルクラスを持つシナリオでは特に優れています。

Zero-shot hashing (ZSH) has shown excellent success owing to its efficiency and generalization in large-scale retrieval scenarios. While considerable success has been achieved, there still exist urgent limitations. Existing works ignore the locality relationships of representations and attributes, which have effective transferability between seeable classes and unseeable classes. Also, the continuous-value attributes are not fully harnessed. In response, we conduct a COMprehensive Attribute Exploration for ZSH, named COMAE, which depicts the relationships from seen classes to unseen ones through three meticulously designed explorations, i.e., point-wise, pair-wise and class-wise consistency constraints. By regressing attributes from the proposed attribute prototype network, COMAE learns the local features that are relevant to the visual attributes. Then COMAE utilizes contrastive learning to comprehensively depict the context of attributes, rather than instance-independent optimization. Finally, the class-wise constraint is designed to cohesively learn the hash code, image representation, and visual attributes more effectively. Experimental results on the popular ZSH datasets demonstrate that COMAE outperforms state-of-the-art hashing techniques, especially in scenarios with a larger number of unseen label classes.
翻訳日:2024-07-18 22:39:10 公開日:2024-07-17
# 成人グリオーマにおけるBraTS 2023の勝利

How we won BraTS 2023 Adult Glioma challenge? Just faking it! Enhanced Synthetic Data Augmentation and Model Ensemble for brain tumour segmentation ( http://arxiv.org/abs/2402.17317v2 )

ライセンス: Link先を確認
André Ferreira, Naida Solak, Jianning Li, Philipp Dammann, Jens Kleesiek, Victor Alves, Jan Egger, (参考訳) Deep Learningは、脳腫瘍をセグメント化するための最先端技術である。 しかし、これは多くの高品質なデータを必要としており、特に医療分野では入手が困難である。 そこで本研究では,データ拡張のための非従来的メカニズムを用いてこの問題に対処する。 生成的敵ネットワークと登録は、BraTS2023チャレンジの最初のタスクである脳腫瘍セグメンテーションのための3つの異なるディープラーニングモデルをトレーニングするための利用可能なサンプルの量を大幅に増やすために使用される。 最初のモデルは標準のnnU-Net、2番目はSwin UNETR、3番目はBraTS 2021 Challengeの勝利のソリューションである。 パイプライン全体は、合成データの生成を除いて、nnU-Net実装に基づいて構築されている。 畳み込みアルゴリズムと変圧器は互いの知識ギャップを埋めることができる。 新しい測定値を用いて, 有効解法は, 検証セットで0.9005, 0.8673, 0.8509, HD95 14.940, 14.467, 17.699 (全腫瘍, 腫瘍コア, 造影腫瘍) が得られる。

Deep Learning is the state-of-the-art technology for segmenting brain tumours. However, this requires a lot of high-quality data, which is difficult to obtain, especially in the medical field. Therefore, our solutions address this problem by using unconventional mechanisms for data augmentation. Generative adversarial networks and registration are used to massively increase the amount of available samples for training three different deep learning models for brain tumour segmentation, the first task of the BraTS2023 challenge. The first model is the standard nnU-Net, the second is the Swin UNETR and the third is the winning solution of the BraTS 2021 Challenge. The entire pipeline is built on the nnU-Net implementation, except for the generation of the synthetic data. The use of convolutional algorithms and transformers is able to fill each other's knowledge gaps. Using the new metric, our best solution achieves the dice results 0.9005, 0.8673, 0.8509 and HD95 14.940, 14.467, 17.699 (whole tumour, tumour core and enhancing tumour) in the validation set.
翻訳日:2024-07-18 22:39:10 公開日:2024-07-17
# Retrieval-Augmented Opinion Summarizationのための階層的索引付け

Hierarchical Indexing for Retrieval-Augmented Opinion Summarization ( http://arxiv.org/abs/2403.00435v2 )

ライセンス: Link先を確認
Tom Hosking, Hao Tang, Mirella Lapata, (参考訳) 本稿では,抽出アプローチの帰属性と拡張性と,Large Language Models (LLMs) のコヒーレンスとフラレンシを組み合わせた,教師なし抽象的意見要約手法を提案する。 我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。 推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。 そして,これらの抽出された露光クラスターに接する読みやすい要約を生成するために,事前学習したLCMを用いる。 このアプローチのモジュラリティにより、各段階での有効性を評価することができます。 HIROは,従来の作業よりも意味的に構造化された符号化空間を学習し,入力レビューの意見を代表する要約を生成する。 人間による評価では、HIROはより一貫性があり、詳細で正確な要約を生成する。

We propose a method for unsupervised abstractive opinion summarization, that combines the attributability and scalability of extractive approaches with the coherence and fluency of Large Language Models (LLMs). Our method, HIRO, learns an index structure that maps sentences to a path through a semantically organized discrete hierarchy. At inference time, we populate the index and use it to identify and retrieve clusters of sentences containing popular opinions from input reviews. Then, we use a pretrained LLM to generate a readable summary that is grounded in these extracted evidential clusters. The modularity of our approach allows us to evaluate its efficacy at each stage. We show that HIRO learns an encoding space that is more semantically structured than prior work, and generates summaries that are more representative of the opinions in the input reviews. Human evaluation confirms that HIRO generates significantly more coherent, detailed and accurate summaries.
翻訳日:2024-07-18 22:39:10 公開日:2024-07-17
# TaylorShift: Taylor-Softmax を用いた正方形から線形(および後方)への自己認識の複雑さのシフト

TaylorShift: Shifting the Complexity of Self-Attention from Squared to Linear (and Back) using Taylor-Softmax ( http://arxiv.org/abs/2403.02920v2 )

ライセンス: Link先を確認
Tobias Christian Nauen, Sebastian Palacio, Andreas Dengel, (参考訳) 注意機構の二次的な複雑さは、トランスフォーマーを使用して長いシーケンスを処理するための最大のハードルの1つである。 現在のメソッドはスパース表現やステートフルなリカレンスに依存しており、トークンとトークンのインタラクションを犠牲にしている。 本稿では,線形時間と空間におけるトークン間相互作用の完全な計算を可能にするテイラーソフトマックスの新たな再構成であるTaylorShiftを紹介する。 我々は,TaylorShiftを用いた場合,従来の注目よりも効率的になり,経験的測定と密接に一致したクロスオーバー点を解析的に決定する。 具体的には,TaylorShiftは800トークンまでのシーケンスのメモリ効率を向上し,約1700トークン以上の入力の推論を高速化することを示した。 短いシーケンスでは、TaylorShiftはバニラの注意と互換性を持ってスケールする。 さらに、長いシーケンスを含む5つのタスクの分類ベンチマークでは、TaylorShiftを装備したTransformerを使用する場合、精度が劣化しないことが示されている。 再現性のために、https://github.com/tobna/TaylorShift.comでコードにアクセスします。

The quadratic complexity of the attention mechanism represents one of the biggest hurdles for processing long sequences using Transformers. Current methods, relying on sparse representations or stateful recurrence, sacrifice token-to-token interactions, which ultimately leads to compromises in performance. This paper introduces TaylorShift, a novel reformulation of the Taylor softmax that enables computing full token-to-token interactions in linear time and space. We analytically determine the crossover points where employing TaylorShift becomes more efficient than traditional attention, aligning closely with empirical measurements. Specifically, our findings demonstrate that TaylorShift enhances memory efficiency for sequences as short as 800 tokens and accelerates inference for inputs of approximately 1700 tokens and beyond. For shorter sequences, TaylorShift scales comparably with the vanilla attention. Furthermore, a classification benchmark across five tasks involving long sequences reveals no degradation in accuracy when employing Transformers equipped with TaylorShift. For reproducibility, we provide access to our code under https://github.com/tobna/TaylorShift.
翻訳日:2024-07-18 22:39:10 公開日:2024-07-17
# 確率回路を用いた信頼性を考慮した多モード融合

Credibility-Aware Multi-Modal Fusion Using Probabilistic Circuits ( http://arxiv.org/abs/2403.03281v2 )

ライセンス: Link先を確認
Sahil Sidheekh, Pranuthi Tenali, Saurabh Mathur, Erik Blasch, Kristian Kersting, Sriraam Natarajan, (参考訳) 差別学習における後期マルチモーダル融合の問題点を考察する。 各データソースの信頼性の理解を必要とする、ノイズの多いマルチソースドメインに動機付けられ、マルチモーダル融合の文脈における信頼性の概念を探求する。 確率回路(PC)を用いて,各モード上の予測分布を結合する組合せ関数を提案する。 また,PC上での推論クエリによる各モダリティの信頼性を評価するための確率的尺度も定義する。 実験により,我々の融合法は,最先端技術との競争性能を維持しつつ信頼性を確実に推定できることを示した。

We consider the problem of late multi-modal fusion for discriminative learning. Motivated by noisy, multi-source domains that require understanding the reliability of each data source, we explore the notion of credibility in the context of multi-modal fusion. We propose a combination function that uses probabilistic circuits (PCs) to combine predictive distributions over individual modalities. We also define a probabilistic measure to evaluate the credibility of each modality via inference queries over the PC. Our experimental evaluation demonstrates that our fusion method can reliably infer credibility while maintaining competitive performance with the state-of-the-art.
翻訳日:2024-07-18 22:39:10 公開日:2024-07-17
# 位相量子相転移の表面符号とカスケードのロバストテレポーテーション

Robust teleportation of a surface code and cascade of topological quantum phase transitions ( http://arxiv.org/abs/2403.04767v2 )

ライセンス: Link先を確認
Finn Eckstein, Bo Han, Simon Trebst, Guo-Yi Zhu, (参考訳) テレポーテーション(英: Teleportation)は、量子物理学において量子測定が強力な資源として機能し、局所的な測定によって非局所的な方法で量子情報を操ることができるファセットである。 これはベル対として長い間確立されてきたが、最大でないリソースを用いた多ビットの絡み合った状態のテレポーテーションは、根本的に異なる課題を示す。 本稿では,ベル計測による長距離絡み合う表面のコード状態のテレポートと,ベル絡みを弱めるコヒーレントエラーの存在下での安定性について検討する。 本研究は, 西森型障害を伴う統計力学のアシュキン・テラーモデルの変種に対応し, 位相遷移のカスケードを生じさせる。 局所ベル測定の角度を調整すると、連続的に変化する閾値が見つかる。 特に、閾値は自己双対線に沿った$X+Z$角の無限大へと移動し、無限に弱い絡み合いが自己双対位相曲面コードをテレポートするのに十分であることを示す。 本稿では,動的に構成可能なRydberg原子配列で容易に実装可能なテレポーテーションプロトコルについて述べる。

Teleportation is a facet where quantum measurements can act as a powerful resource in quantum physics, as local measurements allow to steer quantum information in a non-local way. While this has long been established for a single Bell pair, the teleportation of a many-qubit entangled state using non-maximally entangled resources presents a fundamentally different challenge. Here we investigate a tangible protocol for teleporting a long-range entangled surface code state using elementary Bell measurements and its stability in the presence of coherent errors that weaken the Bell entanglement. We relate the underlying threshold problem to the physics of anyon condensation under weak measurements and map it to a variant of the Ashkin-Teller model of statistical mechanics with Nishimori type disorder, which gives rise to a cascade of phase transitions. Tuning the angle of the local Bell measurements, we find a continuously varying threshold. Notably, the threshold moves to infinity for the $X+Z$ angle along the self-dual line -- indicating that infinitesimally weak entanglement is sufficient in teleporting a self-dual topological surface code. Our teleportation protocol, which can be readily implemented in dynamically configurable Rydberg atom arrays, thereby gives guidance for a practical demonstration of the power of quantum measurements.
翻訳日:2024-07-18 22:39:10 公開日:2024-07-17
# PointSeg: 基礎モデルによる3次元シーンセグメンテーションのためのトレーニングフリーパラダイム

PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models ( http://arxiv.org/abs/2403.06403v2 )

ライセンス: Link先を確認
Qingdong He, Jinlong Peng, Zhengkai Jiang, Xiaobin Hu, Jiangning Zhang, Qiang Nie, Yabiao Wang, Chengjie Wang, (参考訳) 視覚基礎モデルの最近の成功は、2次元知覚タスクに有望な性能を示した。 しかし、データセットが限られているため、直接3Dファウンデーションネットワークをトレーニングすることは困難であり、既存のファウンデーションモデルをシームレスに3D空間に持ち上げることができるかどうかはまだ検討されていない。 本稿では,市販の視覚基礎モデルを利用して3次元シーン認識タスクに対処する,新たな学習自由パラダイムであるPointSegを提案する。 PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。 具体的には、3Dポイントボックスプロンプトペアを構築するための2分岐プロンプト構造を設計し、正確なポイントとプロンプトの生成のための双方向マッチング戦略と組み合わせる。 そして,異なる視覚基盤モデルと協調して反復的ポストリファインメントを適応的に行う。 さらに,最終的なアンサンブルマスクを改善するために親和性を考慮したマージアルゴリズムを設計する。 PointSegは、トレーニングなしで、さまざまなデータセット間で印象的なセグメンテーションパフォーマンスを示す。 具体的には、ScanNet、ScanNet++、KITTI-360データセット上の14.1$\%$、12.3$\%$、12.6$\%$mAPといった最先端のトレーニングフリーモデルを大きく上回っている。 それに加えて、PointSegは様々な基礎モデルに組み込むことができ、訓練ベースの専門的手法を3.4$\%$-5.4$\%$mAPで上回り、効果的なジェネラリストモデルとして機能する。

Recent success of vision foundation models have shown promising performance for the 2D perception tasks. However, it is difficult to train a 3D foundation network directly due to the limited dataset and it remains under explored whether existing foundation models can be lifted to 3D space seamlessly. In this paper, we present PointSeg, a novel training-free paradigm that leverages off-the-shelf vision foundation models to address 3D scene perception tasks. PointSeg can segment anything in 3D scene by acquiring accurate 3D prompts to align their corresponding pixels across frames. Concretely, we design a two-branch prompts learning structure to construct the 3D point-box prompts pairs, combining with the bidirectional matching strategy for accurate point and proposal prompts generation. Then, we perform the iterative post-refinement adaptively when cooperated with different vision foundation models. Moreover, we design a affinity-aware merging algorithm to improve the final ensemble masks. PointSeg demonstrates impressive segmentation performance across various datasets, all without training. Specifically, our approach significantly surpasses the state-of-the-art specialist training-free model by 14.1$\%$, 12.3$\%$, and 12.6$\%$ mAP on ScanNet, ScanNet++, and KITTI-360 datasets, respectively. On top of that, PointSeg can incorporate with various foundation models and even surpasses the specialist training-based methods by 3.4$\%$-5.4$\%$ mAP across various datasets, serving as an effective generalist model.
翻訳日:2024-07-18 22:39:10 公開日:2024-07-17
# 可変拡散モデルを用いた時間効率とアイデンティティ一貫性のある仮想試行

Time-Efficient and Identity-Consistent Virtual Try-On Using A Variant of Altered Diffusion Models ( http://arxiv.org/abs/2403.07371v3 )

ライセンス: Link先を確認
Phuong Dam, Jihoon Jeong, Anh Tran, Daeyoung Kim, (参考訳) 本研究では,現代電子商取引における仮想試行と将来的なメタバース(メタバース)における仮想試行の重要課題について論じ,複雑なテクスチャの詳細と,テクスチャやアクセサリーのような衣服のテクスチャやアイデンティティの特徴など,さまざまなシナリオにおける対象者や衣服の特徴の保存という課題を強調した。 合成された画像の忠実さに加えて、合成プロセスの効率は重要なハードルとなる。 既存の様々なアプローチが検討され、制限と未解決の側面、例えば、アイデンティティ情報削除、制御不能なアーティファクト、低合成速度などを強調している。 次に,仮想試行中にテクスチャのテクスチャ保存とユーザアイデンティティ保持に対処する,新しい拡散型ソリューションを提案する。 提案するネットワークは,衣服を個々の特徴と整列するワープモジュールと,衣服を補修する試着モジュールと,マスクを意識したポストプロセッシング技術と一体化した欠落部品を生成する。 これは、予測中の最先端の速度を20倍近く上回り、質的な評価において優れた忠実さを持つ、印象的な結果を示している。 定量的評価により、VITON-HDおよびDresscodeデータセットにおける最近のSOTA法と同等の性能が確認された。 我々はFIP-VITON(Fast and Identity Preservation Virtual Tryon)と名付けた。

This study discusses the critical issues of Virtual Try-On in contemporary e-commerce and the prospective metaverse, emphasizing the challenges of preserving intricate texture details and distinctive features of the target person and the clothes in various scenarios, such as clothing texture and identity characteristics like tattoos or accessories. In addition to the fidelity of the synthesized images, the efficiency of the synthesis process presents a significant hurdle. Various existing approaches are explored, highlighting the limitations and unresolved aspects, e.g., identity information omission, uncontrollable artifacts, and low synthesis speed. It then proposes a novel diffusion-based solution that addresses garment texture preservation and user identity retention during virtual try-on. The proposed network comprises two primary modules - a warping module aligning clothing with individual features and a try-on module refining the attire and generating missing parts integrated with a mask-aware post-processing technique ensuring the integrity of the individual's identity. It demonstrates impressive results, surpassing the state-of-the-art in speed by nearly 20 times during inference, with superior fidelity in qualitative assessments. Quantitative evaluations confirm comparable performance with the recent SOTA method on the VITON-HD and Dresscode datasets. We named our model Fast and Identity Preservation Virtual TryON (FIP-VITON).
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# 第一に知る:大規模視覚言語モデルにおける隠れた知識のToken分布

The First to Know: How Token Distributions Reveal Hidden Knowledge in Large Vision-Language Models? ( http://arxiv.org/abs/2403.09037v2 )

ライセンス: Link先を確認
Qinyu Zhao, Ming Xu, Kartik Gupta, Akshay Asthana, Liang Zheng, Stephen Gould, (参考訳) 人間の指示を解釈し、反応するように設計された大型視覚言語モデル(LVLM)は、時には不適切な指示のために幻覚または有害な内容を生成する。 本研究では線形プローブを用いてLVLMの出力層における隠れた知識を隠蔽する。 本研究では,第1のトークンのロジット分布には,未解決の視覚的質問の認識,脱獄攻撃に対する防御,欺取的質問の識別など,指示に応答するかどうかを判断する十分な情報が含まれていることを実証する。 このような隠れた知識は、応答生成中に後続のトークンのロジットで徐々に失われる。 次に、第1トークン生成時の単純な復号化戦略を説明し、生成したコンテンツを効果的に改善する。 実験では、いくつかの興味深い洞察を得た。 まず、CLIPモデルには、これらのタスクを解決する強力なシグナルが含まれており、既存のデータセットの潜在的なバイアスを示しています。 第2に,算数解の不確実性,緩和幻覚,画像分類などの3つの追加課題に対して,最初のロジット分布を利用することで,性能改善を観察する。 最後に、同じトレーニングデータを用いて、LVLMを微調整するだけでモデルの性能が向上するが、これらのタスクの線形探索には劣る。

Large vision-language models (LVLMs), designed to interpret and respond to human instructions, occasionally generate hallucinated or harmful content due to inappropriate instructions. This study uses linear probing to shed light on the hidden knowledge at the output layers of LVLMs. We demonstrate that the logit distributions of the first tokens contain sufficient information to determine whether to respond to the instructions, including recognizing unanswerable visual questions, defending against jailbreaking attacks, and identifying deceptive questions. Such hidden knowledge is gradually lost in logits of subsequent tokens during response generation. Then, we illustrate a simple decoding strategy at the generation of the first token, effectively improving the generated content. In experiments, we find a few interesting insights: First, the CLIP model already contains a strong signal for solving these tasks, which indicates potential bias in the existing datasets. Second, we observe performance improvement by utilizing the first logit distributions on three additional tasks, including indicating uncertainty in math solving, mitigating hallucination, and image classification. Last, with the same training data, simply finetuning LVLMs improves models' performance but is still inferior to linear probing on these tasks.
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# 選択・希釈:視覚言語モデルに基づく連続学習のための選択的デュアル教師知識伝達

Select and Distill: Selective Dual-Teacher Knowledge Transfer for Continual Learning on Vision-Language Models ( http://arxiv.org/abs/2403.09296v2 )

ライセンス: Link先を確認
Yu-Chu Yu, Chi-Pin Huang, Jr-Jen Chen, Kai-Po Chang, Yung-Hsuan Lai, Fu-En Yang, Yu-Chiang Frank Wang, (参考訳) 大規模視覚言語モデル(VLM)は、目に見えない領域データに対して強力なゼロショット一般化能力を示す。 しかし、トレーニング済みのVLMを一連の下流タスクに適用すると、学習済みの知識が忘れられ、ゼロショット分類性能が低下することが多い。 この問題に対処するために,直近の微調整VLMと事前学習VLMを2つの教師として活用して,学習済みの知識とゼロショットの能力をそれぞれ保持する,独自の選択型デュアル教師ナレッジトランスファーフレームワークを提案する。 提案手法は,ラベルなし参照データセットにのみアクセスすることで,デュアル教師VLMとの特徴差を計測し,選択的な知識蒸留機構を実現する。 その結果, 予備学習VLMのゼロショット能力を保ちながら, 従来学習されていた知識の破滅的な忘れを軽減できることがわかった。 ベンチマークデータセットに対する大規模な実験により、我々のフレームワークは破滅的な忘れ込みやゼロショット劣化を防ぐための最先端の継続的学習アプローチに対して好適であることが示された。 プロジェクトページ:https://chuyu.org/research/snd

Large-scale vision-language models (VLMs) have shown a strong zero-shot generalization capability on unseen-domain data. However, adapting pre-trained VLMs to a sequence of downstream tasks often leads to the forgetting of previously learned knowledge and a reduction in zero-shot classification performance. To tackle this problem, we propose a unique Selective Dual-Teacher Knowledge Transfer framework that leverages the most recent fine-tuned and the original pre-trained VLMs as dual teachers to preserve the previously learned knowledge and zero-shot capabilities, respectively. With only access to an unlabeled reference dataset, our proposed framework performs a selective knowledge distillation mechanism by measuring the feature discrepancy from the dual-teacher VLMs. Consequently, our selective dual-teacher knowledge distillation mitigates catastrophic forgetting of previously learned knowledge while preserving the zero-shot capabilities of pre-trained VLMs. Extensive experiments on benchmark datasets demonstrate that our framework is favorable against state-of-the-art continual learning approaches for preventing catastrophic forgetting and zero-shot degradation. Project page: https://chuyu.org/research/snd
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# RoDUS:都市景観における静的・動的要素のロバスト分解

RoDUS: Robust Decomposition of Static and Dynamic Elements in Urban Scenes ( http://arxiv.org/abs/2403.09419v2 )

ライセンス: Link先を確認
Thang-Anh-Quan Nguyen, Luis Roldão, Nathan Piasco, Moussab Bennehar, Dzmitry Tsishkou, (参考訳) 近年,NeRFを用いた静的環境から動的物体を分離する作業が広く研究されている。 しかし、大規模なシーンの撮影は、複雑な幾何学的構造と制約のないダイナミクスのため、依然として課題となっている。 3Dモーションキューの助けがなければ、従来の手法ではカメラの動きが遅く、数人/数人のダイナミックアクターしか必要とせず、ほとんどの都市部では準最適解が得られる。 このような制約を克服するため,都市部の静的および動的要素を分解するパイプラインであるRoDUSを提案する。 提案手法では、4Dセマンティック情報と組み合わされた堅牢なカーネルベースの初期化を用いて学習プロセスを選択的にガイドする。 この戦略により、シーン内のダイナミックスを正確にキャプチャできるようになり、その結果、再構成された背景に浮かぶ人工物が減少する。 特に,KITTI-360およびPandasetデータセットを用いた実験により,挑戦的な都市景観を正確に静的かつ動的成分に分解する手法の有効性が示された。

The task of separating dynamic objects from static environments using NeRFs has been widely studied in recent years. However, capturing large-scale scenes still poses a challenge due to their complex geometric structures and unconstrained dynamics. Without the help of 3D motion cues, previous methods often require simplified setups with slow camera motion and only a few/single dynamic actors, leading to suboptimal solutions in most urban setups. To overcome such limitations, we present RoDUS, a pipeline for decomposing static and dynamic elements in urban scenes, with thoughtfully separated NeRF models for moving and non-moving components. Our approach utilizes a robust kernel-based initialization coupled with 4D semantic information to selectively guide the learning process. This strategy enables accurate capturing of the dynamics in the scene, resulting in reduced floating artifacts in the reconstructed background, all by using self-supervision. Notably, experimental evaluations on KITTI-360 and Pandaset datasets demonstrate the effectiveness of our method in decomposing challenging urban scenes into precise static and dynamic components.
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# SkateFormer:人間の行動認識のための骨格時間変換器

SkateFormer: Skeletal-Temporal Transformer for Human Action Recognition ( http://arxiv.org/abs/2403.09508v3 )

ライセンス: Link先を確認
Jeonghyeok Do, Munchurl Kim, (参考訳) スケルトンに基づく行動認識は関節の座標と骨格データ内の接続性に基づいて人間の行動を分類し、様々なシナリオで広く利用されている。 グラフ畳み込みネットワーク(GCN)は、グラフとして表される骨格データに対して提案されているが、それらは結合接続によって制限される限られた受容領域に悩まされている。 この制限に対処するため、最近の進歩はトランスフォーマーベースの手法を導入している。 しかし、すべてのフレームで全てのジョイント間の相関を捉えるには、かなりのメモリリソースが必要である。 そこで本稿では,骨格・時間的関係(Skate-Type)の異なるタイプの骨格・時間的関係(Skate-MSA)に基づいて関節とフレームを分割し,各分割内で骨格・時間的自己意識(Skate-MSA)を行う,SkateFormer(SkateFormer)と呼ばれる新しいアプローチを提案する。 本研究は,行動認識のための重要な骨格・時間的関係を4つの異なるタイプに分類する。 これらの種類が組み合わさる 一 物理的に隣人及び遠方の関節に基づく二種類の骨格関係の種類及び (ii)隣接するフレームと遠方のフレームに基づく2つの時間的関係型。 この分割特異的アテンション戦略により、SkateFormerはアクション認識に不可欠なキージョイントとフレームを、効率的な計算で選択的にフォーカスすることができる。 さまざまなベンチマークデータセットに対する大規模な実験により、SkateFormerは最近の最先端の手法よりも優れていることが確認された。

Skeleton-based action recognition, which classifies human actions based on the coordinates of joints and their connectivity within skeleton data, is widely utilized in various scenarios. While Graph Convolutional Networks (GCNs) have been proposed for skeleton data represented as graphs, they suffer from limited receptive fields constrained by joint connectivity. To address this limitation, recent advancements have introduced transformer-based methods. However, capturing correlations between all joints in all frames requires substantial memory resources. To alleviate this, we propose a novel approach called Skeletal-Temporal Transformer (SkateFormer) that partitions joints and frames based on different types of skeletal-temporal relation (Skate-Type) and performs skeletal-temporal self-attention (Skate-MSA) within each partition. We categorize the key skeletal-temporal relations for action recognition into a total of four distinct types. These types combine (i) two skeletal relation types based on physically neighboring and distant joints, and (ii) two temporal relation types based on neighboring and distant frames. Through this partition-specific attention strategy, our SkateFormer can selectively focus on key joints and frames crucial for action recognition in an action-adaptive manner with efficient computation. Extensive experiments on various benchmark datasets validate that our SkateFormer outperforms recent state-of-the-art methods.
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# 意識認識型自己適応型プロンプトを用いた数ショットクラスインクリメンタルラーニング

Few-Shot Class Incremental Learning with Attention-Aware Self-Adaptive Prompt ( http://arxiv.org/abs/2403.09857v3 )

ライセンス: Link先を確認
Chenxi Liu, Zhenyi Wang, Tianyi Xiong, Ruibo Chen, Yihan Wu, Junfeng Guo, Heng Huang, (参考訳) FSCIL(Few-Shot Class-Incremental Learning)モデルは、古いクラスに関する知識を保ちながら、サンプルが少ないクラスで段階的に新しいクラスを学習することを目的としている。 既存のFSCILメソッドは通常、バックボーン全体を微調整する。 一方、最近のプロンプトベースのCILアプローチでは、各タスクに十分なデータを持つトレーニングプロンプトによる忘れを軽減している。 本研究では,注意を意識した自己適応型プロンプト(ASP.NET)という新しいフレームワークを提案する。 ASP.NETはタスク不変のプロンプトを奨励し、注意点から特定の情報を減らすことで共有知識をキャプチャする。 さらに、ASPの自己適応的なタスク固有のプロンプトは、インフォメーション・ボトルネック学習の目的を持つ古いクラスから新しいクラスに、特定の情報を提供し、知識を伝達する。 要約すると、ASPはベースタスクの過度な適合を防ぎ、数秒のインクリメンタルタスクで膨大なデータを必要としない。 3つのベンチマークデータセットに対する大規模な実験は、ASPが新しいクラスを学習し、忘れを緩和するという点で、最先端のFSCILとプロンプトベースのCILメソッドを一貫して上回っていることを検証している。

Few-Shot Class-Incremental Learning (FSCIL) models aim to incrementally learn new classes with scarce samples while preserving knowledge of old ones. Existing FSCIL methods usually fine-tune the entire backbone, leading to overfitting and hindering the potential to learn new classes. On the other hand, recent prompt-based CIL approaches alleviate forgetting by training prompts with sufficient data in each task. In this work, we propose a novel framework named Attention-aware Self-adaptive Prompt (ASP). ASP encourages task-invariant prompts to capture shared knowledge by reducing specific information from the attention aspect. Additionally, self-adaptive task-specific prompts in ASP provide specific information and transfer knowledge from old classes to new classes with an Information Bottleneck learning objective. In summary, ASP prevents overfitting on base task and does not require enormous data in few-shot incremental tasks. Extensive experiments on three benchmark datasets validate that ASP consistently outperforms state-of-the-art FSCIL and prompt-based CIL methods in terms of both learning new classes and mitigating forgetting.
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# 漁業情報による相互情報

Mutual Information Bounded by Fisher Information ( http://arxiv.org/abs/2403.10248v2 )

ライセンス: Link先を確認
Wojciech Górecki, Xi Lu, Chiara Macchiavello, Lorenzo Maccone, (参考訳) 我々は、フィッシャー情報の観点から、相互情報に対する一般的な上限を導出する。 この境界は、ベイズ二次コストの低い境界を導出するためにさらに用いられるかもしれない。 これら2つは、文学における他の不等式(例えば、ファン・ツリーの不等式)に代わるもので、後者が自明な境界を与える場合にも有用である。 次にそれらを量子ケースに一般化し、量子フィッシャー情報の観点からホレヴォ情報を束縛する。 本稿では, 量子位相推定のケーススタディを用いて, 境界値の有用性について述べる。 ここでは、ノイズの存在下でのフィッシャー情報に対する既知の非自明な境界を、相互情報(前者が重要な役割を果たすグローバル戦略に使用される)に適応させることが可能である。 この結果は連続アルファベットと離散アルファベットの両方において量子通信の文脈でも有用である。

We derive a general upper bound to mutual information in terms of the Fisher information. The bound may be further used to derive a lower bound for the Bayesian quadratic cost. These two provide alternatives to other inequalities in the literature (e.g.~the van Trees inequality) that are useful also for cases where the latter ones give trivial bounds. We then generalize them to the quantum case, where they bound the Holevo information in terms of the quantum Fisher information. We illustrate the usefulness of our bounds with a case study in quantum phase estimation. Here, they allow us to adapt to mutual information (useful for global strategies where the prior plays an important role) the known and highly nontrivial bounds for the Fisher information in the presence of noise. The results are also useful in the context of quantum communication, both for continuous and discrete alphabets.
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# SimPB:複数カメラからの2次元・3次元物体検出のための単一モデル

SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras ( http://arxiv.org/abs/2403.10353v2 )

ライセンス: Link先を確認
Yingqi Tang, Zhaotie Meng, Guoliang Chen, Erkang Cheng, (参考訳) 自律運転の分野は、複数のカメラからバードアイビュー(Bird's Eye View, BEV)の3Dオブジェクトを直接推測するアプローチにかなりの関心を集めている。 単一画像からの2次元検出器の利用も検討され、3次元検出の性能が向上した。 しかし、これらのアプローチは異なる検出器を持つ2段階のプロセスに依存しており、2次元検出結果はトークンの選択やクエリ初期化のために1回だけ利用される。 本稿では,BEV空間内の2次元オブジェクトと3次元オブジェクトを同時に検出するSimPBという単一モデルを提案する。 そこで本研究では,複数のマルチビュー2次元デコーダ層と複数の3次元デコーダ層からなるハイブリッドデコーダを提案する。 動的クエリアロケーションモジュールと適応クエリアグリゲーションモジュールは,2Dと3Dの相互作用を周期的な3D-2D-3D方法で継続的に更新・改善するために提案される。 さらに、クエリグループ注意を利用して、各カメラグループ内の2Dクエリ間の相互作用を強化する。 実験では,本手法をnuScenesデータセット上で評価し,2次元および3次元検出タスクにおいて有望な結果を示す。 私たちのコードは、https://github.com/nullmax-vision/SimPBで利用可能です。

The field of autonomous driving has attracted considerable interest in approaches that directly infer 3D objects in the Bird's Eye View (BEV) from multiple cameras. Some attempts have also explored utilizing 2D detectors from single images to enhance the performance of 3D detection. However, these approaches rely on a two-stage process with separate detectors, where the 2D detection results are utilized only once for token selection or query initialization. In this paper, we present a single model termed SimPB, which simultaneously detects 2D objects in the perspective view and 3D objects in the BEV space from multiple cameras. To achieve this, we introduce a hybrid decoder consisting of several multi-view 2D decoder layers and several 3D decoder layers, specifically designed for their respective detection tasks. A Dynamic Query Allocation module and an Adaptive Query Aggregation module are proposed to continuously update and refine the interaction between 2D and 3D results, in a cyclic 3D-2D-3D manner. Additionally, Query-group Attention is utilized to strengthen the interaction among 2D queries within each camera group. In the experiments, we evaluate our method on the nuScenes dataset and demonstrate promising results for both 2D and 3D detection tasks. Our code is available at: https://github.com/nullmax-vision/SimPB.
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# GeoGaussian: シーンレンダリングのための幾何学的ガウススプレイティング

GeoGaussian: Geometry-aware Gaussian Splatting for Scene Rendering ( http://arxiv.org/abs/2403.11324v2 )

ライセンス: Link先を確認
Yanyan Li, Chenyu Lyu, Yan Di, Guangyao Zhai, Gim Hee Lee, Federico Tombari, (参考訳) ガウススティング最適化の過程では、その構造が意図的に保存されていない場合、特に壁、天井、家具の表面などの非テクスチャ領域において、シーンの幾何学は徐々に悪化する。 この劣化は、トレーニングデータの観点から大きく逸脱する新規なビューのレンダリング品質に大きく影響する。 この問題を軽減するために,GeoGaussianと呼ばれる新しいアプローチを提案する。 点雲から観測されるスムーズな領域に基づいて, 細いガウスを表面に沿って初期化するための新しいパイプラインを導入し, その特性を慎重に設計したデンシフィケーション戦略により新しい世代に伝達する。 最後に、パイプラインはシーンの幾何学とテクスチャが明示的な幾何学的制約を伴う制約付き最適化プロセスによって維持されることを保証する。 提案手法を応用した3次元ガウシアンの生成能力は,特に構造領域において向上する。 提案するパイプラインは,公開データセット上で定性的に定量的に評価され,新しいビュー合成と幾何再構成の最先端性能を実現する。

During the Gaussian Splatting optimization process, the scene's geometry can gradually deteriorate if its structure is not deliberately preserved, especially in non-textured regions such as walls, ceilings, and furniture surfaces. This degradation significantly affects the rendering quality of novel views that deviate significantly from the viewpoints in the training data. To mitigate this issue, we propose a novel approach called GeoGaussian. Based on the smoothly connected areas observed from point clouds, this method introduces a novel pipeline to initialize thin Gaussians aligned with the surfaces, where the characteristic can be transferred to new generations through a carefully designed densification strategy. Finally, the pipeline ensures that the scene's geometry and texture are maintained through constrained optimization processes with explicit geometry constraints. Benefiting from the proposed architecture, the generative ability of 3D Gaussians is enhanced, especially in structured regions. Our proposed pipeline achieves state-of-the-art performance in novel view synthesis and geometric reconstruction, as evaluated qualitatively and quantitatively on public datasets.
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# 視覚・言語モデルのためのマルチモーダル・インコンテキスト学習を目指して

Towards Multimodal In-Context Learning for Vision & Language Models ( http://arxiv.org/abs/2403.12736v2 )

ライセンス: Link先を確認
Sivan Doveh, Shaked Perek, M. Jehanzeb Mirza, Wei Lin, Amit Alfassy, Assaf Arbelle, Shimon Ullman, Leonid Karlinsky, (参考訳) State-of-the-the-art Vision-Language Models (VLM) は、主にエンコーダから言語に似たトークンへビジョントークンを投影することで、ビジョンと言語モダリティを基礎にしている。 これらのモデルは、多くのダウンストリームゼロショットタスク(イメージキャプション、質問応答など)において前例のないパフォーマンスを示しているが、インコンテキスト学習(ICL)のコアLLM能力の1つを転送することには、まだほとんど重点を置いていない。 ICLは、モデルが下流のタスクを推論する機能であり、いくつかの例がプロンプトに埋め込まれている。 本研究では、広範囲な評価により、最先端のVLMにはICL命令に従う能力が欠如していることが判明した。 特に,大規模な混合モダリティ事前学習を行ったモデルであっても,直接ICL命令のチューニングが欠如していることから,インタリーブド画像とテキスト情報(複数画像から有用なコンテキストを消費するために意図された)を低性能化するために暗黙的にガイドされていることが判明した。 現在のVLMのICL能力を高めるために、実効データ混合を用いた単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案し、最強のVLMベースラインと多種多様なICLベンチマークに対して、21.03%(および平均11.3%)のICL性能が向上した。 さらに、VLMにおけるICL評価のための新しいベンチマークも提供し、先行技術に対するその優位性について論じる。

State-of-the-art Vision-Language Models (VLMs) ground the vision and the language modality primarily via projecting the vision tokens from the encoder to language-like tokens, which are directly fed to the Large Language Model (LLM) decoder. While these models have shown unprecedented performance in many downstream zero-shot tasks (eg image captioning, question answers, etc), still little emphasis has been put on transferring one of the core LLM capability of In-Context Learning (ICL). ICL is the ability of a model to reason about a downstream task with a few examples demonstrations embedded in the prompt. In this work, through extensive evaluations, we find that the state-of-the-art VLMs somewhat lack the ability to follow ICL instructions. In particular, we discover that even models that underwent large-scale mixed modality pre-training and were implicitly guided to make use of interleaved image and text information (intended to consume helpful context from multiple images) under-perform when prompted with few-shot demonstrations (in an ICL way), likely due to their lack of direct ICL instruction tuning. To enhance the ICL abilities of the present VLM, we propose a simple yet surprisingly effective multi-turn curriculum-based learning methodology with effective data mixes, leading up to a significant 21.03% (and 11.3% on average) ICL performance boost over the strongest VLM baselines and a variety of ICL benchmarks. Furthermore, we also contribute new benchmarks for ICL evaluation in VLMs and discuss their advantages over the prior art.
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# 移動体上のガウススティング:自然カメラ運動に対するブラーと転がりシャッター補償

Gaussian Splatting on the Move: Blur and Rolling Shutter Compensation for Natural Camera Motion ( http://arxiv.org/abs/2403.13327v3 )

ライセンス: Link先を確認
Otto Seiskari, Jerry Ylilammi, Valtteri Kaatrasalo, Pekka Rantalankila, Matias Turkulainen, Juho Kannala, Esa Rahtu, Arno Solin, (参考訳) 高品質なシーン再構成とガウススティング(3DGS)に基づく新しいビュー合成は、通常、安定して高品質な写真を必要とするが、ハンドヘルドカメラで撮影するには実用的ではない。 本稿では,カメラの動きに適応し,動きのぼやけやローリングシャッター歪みに苦しむハンドヘルド映像データによる高品質なシーン再構成を実現する手法を提案する。 本手法は,物理画像形成過程の詳細なモデリングに基づいて,視覚慣性オドメトリー(VIO)を用いて推定した速度を利用する。 カメラポーズは、単一の画像フレームの露光時間中に非静的と見なされ、カメラポーズは再構築プロセスにおいてさらに最適化される。 スクリーン空間近似を利用して、3DGSフレームワークにローリングシャッターとモーションブラー効果を効率よく組み込む、微分可能なレンダリングパイプラインを定式化する。 合成データと実データの両方を用いて,既存の手法よりもカメラの動きを軽減し,自然条件下での3DGSを推し進めた。

High-quality scene reconstruction and novel view synthesis based on Gaussian Splatting (3DGS) typically require steady, high-quality photographs, often impractical to capture with handheld cameras. We present a method that adapts to camera motion and allows high-quality scene reconstruction with handheld video data suffering from motion blur and rolling shutter distortion. Our approach is based on detailed modelling of the physical image formation process and utilizes velocities estimated using visual-inertial odometry (VIO). Camera poses are considered non-static during the exposure time of a single image frame and camera poses are further optimized in the reconstruction process. We formulate a differentiable rendering pipeline that leverages screen space approximation to efficiently incorporate rolling-shutter and motion blur effects into the 3DGS framework. Our results with both synthetic and real data demonstrate superior performance in mitigating camera motion over existing methods, thereby advancing 3DGS in naturalistic settings.
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# マルチコンディション遅延拡散モデルを用いたコントラスト運動学の学習に向けて

Towards Learning Contrast Kinetics with Multi-Condition Latent Diffusion Models ( http://arxiv.org/abs/2403.13890v3 )

ライセンス: Link先を確認
Richard Osuala, Daniel M. Lang, Preeti Verma, Smriti Joshi, Apostolia Tsirikoglou, Grzegorz Skorupko, Kaisar Kushibar, Lidia Garrucho, Walter H. L. Pinaya, Oliver Diaz, Julia A. Schnabel, Karim Lekadir, (参考訳) ダイナミックコントラスト造影MRIにおける造影剤は腫瘍を局在させ、そのコントラスト動態を観察することができる。 しかし、コントラスト剤の投与は、有害な健康リスクだけでなく、妊娠中の患者、腎臓機能不全の患者、その他の副作用に制限されている。 病変悪性度, 癌再発リスク, 治療反応の指標としてのコントラスト取り込みは, 静脈内コントラスト剤投与への依存性を減少させる重要な指標となる。 そこで本研究では,DCE-MRI時系列の時間条件画像合成が可能な多条件潜在拡散モデルを提案する。 医用画像の合成を評価するために,合成画像データと実画像データとのバイオマーカーのばらつきに基づいて,Fr'echetラジオミクス距離を画像品質指標として提案し,評価する。 以上の結果から,本手法は多列性脂肪飽和DCE-MRIを現実的に生成し,深層学習に基づくコントラスト運動学シミュレーションの可能性を明らかにすることができる。 アクセス可能なコードベースをhttps://github.com/RichardObi/ccnetで公開し、https://pypi.org/project/frd-scoreでFr\echetラジオミクス距離計算のためのユーザフレンドリーなライブラリを提供します。

Contrast agents in dynamic contrast enhanced magnetic resonance imaging allow to localize tumors and observe their contrast kinetics, which is essential for cancer characterization and respective treatment decision-making. However, contrast agent administration is not only associated with adverse health risks, but also restricted for patients during pregnancy, and for those with kidney malfunction, or other adverse reactions. With contrast uptake as key biomarker for lesion malignancy, cancer recurrence risk, and treatment response, it becomes pivotal to reduce the dependency on intravenous contrast agent administration. To this end, we propose a multi-conditional latent diffusion model capable of acquisition time-conditioned image synthesis of DCE-MRI temporal sequences. To evaluate medical image synthesis, we additionally propose and validate the Fr\'echet radiomics distance as an image quality measure based on biomarker variability between synthetic and real imaging data. Our results demonstrate our method's ability to generate realistic multi-sequence fat-saturated breast DCE-MRI and uncover the emerging potential of deep learning based contrast kinetics simulation. We publicly share our accessible codebase at https://github.com/RichardObi/ccnet and provide a user-friendly library for Fr\'echet radiomics distance calculation at https://pypi.org/project/frd-score.
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# Tiny Modelsは大規模モデルの計算救世主である

Tiny Models are the Computational Saver for Large Models ( http://arxiv.org/abs/2403.17726v3 )

ライセンス: Link先を確認
Qingyuan Wang, Barry Cardiff, Antoine Frappé, Benoit Larras, Deepu John, (参考訳) 本稿では,TinySaverについて紹介する。TinySaverは,大規模モデルを適応的に置き換えるために小さなモデルを用いる,早期に出現する動的モデル圧縮手法である。 従来の圧縮手法とは違い、TinySaverのような動的手法は困難さの差を利用して、特定の入力が推論プロセスを早期に完了させ、計算資源を保存することができる。 既存のアーリーエグジット設計のほとんどは、モデルのバックボーンに追加のネットワークブランチをアタッチすることで実装されている。 しかし、我々の研究では、完全に独立した小さなモデルによって、より大きなモデルの仕事のかなりの部分を、パフォーマンスに最小限の影響で置き換えることができることが判明した。 それらを第1出口として使用すると、計算効率が著しく向上する。 与えられた大モデルに対する計算保存器として最も適切な小型モデルを探索し,活用することにより,提案手法は,圧縮をモデル化するための新規で汎用的な手法として機能する。 この発見は、急速に進化するAIモデルによって引き起こされる計算要求のエスカレートに対処する新しい圧縮方法を模索する研究コミュニティに役立つだろう。 この手法をImageNet-1k分類で評価したところ、現代の視覚モデルにおいて、計算処理の回数を最大90%削減できる可能性が示唆された。

This paper introduces TinySaver, an early-exit-like dynamic model compression approach which employs tiny models to substitute large models adaptively. Distinct from traditional compression techniques, dynamic methods like TinySaver can leverage the difficulty differences to allow certain inputs to complete their inference processes early, thereby conserving computational resources. Most existing early exit designs are implemented by attaching additional network branches to the model's backbone. Our study, however, reveals that completely independent tiny models can replace a substantial portion of the larger models' job with minimal impact on performance. Employing them as the first exit can remarkably enhance computational efficiency. By searching and employing the most appropriate tiny model as the computational saver for a given large model, the proposed approaches work as a novel and generic method to model compression. This finding will help the research community in exploring new compression methods to address the escalating computational demands posed by rapidly evolving AI models. Our evaluation of this approach in ImageNet-1k classification demonstrates its potential to reduce the number of compute operations by up to 90\%, with only negligible losses in performance, across various modern vision models.
翻訳日:2024-07-18 22:29:24 公開日:2024-07-17
# DVLO:局所-Global特徴融合と双方向構造アライメントを用いた深部視覚-LiDARオドメトリー

DVLO: Deep Visual-LiDAR Odometry with Local-to-Global Feature Fusion and Bi-Directional Structure Alignment ( http://arxiv.org/abs/2403.18274v3 )

ライセンス: Link先を確認
Jiuming Liu, Dong Zhuo, Zhiheng Feng, Siting Zhu, Chensheng Peng, Zhe Liu, Hesheng Wang, (参考訳) 視覚的およびLiDARデータ内の情報は、画像のきめ細かいテクスチャと点雲内の巨大な幾何学的情報からよく補完されている。 しかし,2つのモダリティ間の本質的なデータ構造の不整合が原因で,画像画素は正規で密度が高いが,LiDAR点は秩序がなく,疎いため,効果的な視覚-LiDAR融合の探索は依然として困難である。 この問題に対処するために,双方向構造アライメントを有するDVLO(Local-to-global fusion Network)を提案する。 局所的に融合した特徴を得るため,各中心の周囲にクラスタ・センターとクラスタ・イメージ・ピクセルとしてイメージ・プレーンに投影する。 画像画素は、画像間構造アライメントのための擬似点として予め構成される。 そこで我々は,点特徴と局所融合特徴との適応的大域的特徴融合を円柱投影(ポイント・ツー・イメージ構造アライメント)により実現し,擬似画像に変換する。 本手法は,KITTI odometryとFlyingThings3Dのシーンフローデータセットに対して,単一モーダル法とマルチモーダル法を比較して,最先端の性能を実現する。 コードはhttps://github.com/IRMVLab/DVLOで公開されている。

Information inside visual and LiDAR data is well complementary derived from the fine-grained texture of images and massive geometric information in point clouds. However, it remains challenging to explore effective visual-LiDAR fusion, mainly due to the intrinsic data structure inconsistency between two modalities: Image pixels are regular and dense, but LiDAR points are unordered and sparse. To address the problem, we propose a local-to-global fusion network (DVLO) with bi-directional structure alignment. To obtain locally fused features, we project points onto the image plane as cluster centers and cluster image pixels around each center. Image pixels are pre-organized as pseudo points for image-to-point structure alignment. Then, we convert points to pseudo images by cylindrical projection (point-to-image structure alignment) and perform adaptive global feature fusion between point features and local fused features. Our method achieves state-of-the-art performance on KITTI odometry and FlyingThings3D scene flow datasets compared to both single-modal and multi-modal methods. Codes are released at https://github.com/IRMVLab/DVLO.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# GKSLマスター方程式による非エルミート量子系の熱化ダイナミクスの診断

Diagnosing thermalization dynamics of non-Hermitian quantum systems via GKSL master equations ( http://arxiv.org/abs/2403.18477v2 )

ライセンス: Link先を確認
Yiting Mao, Peigeng Zhong, Haiqing Lin, Xiaoqun Wang, Shijie Hu, (参考訳) 固有状態熱化仮説の非エルミート量子系への応用は、散逸的量子カオスにおいて最も重要なトピックの1つとなり、近年激しい議論が巻き起こった。 熱化の過程は複雑で、系のヒルベルト空間の縮小に多くの時間進化軌道を含む。 生物直交時間および右状態時間進化で採用される密度行列の2つの異なる拡張形式を考慮し、非エルミタン系を熱平衡でボソニック熱浴に結合したゴリーニ-コサコフスキー-スダルシャン-リンドブラッドマスター方程式の2つのバージョンを導出した。 方程式を解くことによって、両時間進化の下で熱化に十分な条件が特定され、ボルツマンの生物直交統計と右固有状態統計がそれぞれ導かれる。 この発見は、最近提案された直交確率行列理論が適切な修正を必要とすることを示唆している。 さらに, 実験モデルによる熱化と熱力学特性の正確なダイナミクスを実証した。

The application of the eigenstate thermalization hypothesis to non-Hermitian quantum systems has become one of the most important topics in dissipative quantum chaos, recently giving rise to intense debates. The process of thermalization is intricate, involving many time-evolution trajectories in the reduced Hilbert space of the system. By considering two different expansion forms of the density matrices adopted in the biorthogonal and right-state time evolutions, we have derived two versions of the Gorini-Kossakowski-Sudarshan-Lindblad master equations describing the non-Hermitian systems coupled to a bosonic heat bath in thermal equilibrium. By solving the equations, we have identified a sufficient condition for thermalization under both time evolutions, resulting in Boltzmann biorthogonal and right-eigenstate statistics, respectively. This finding implies that the recently proposed biorthogonal random matrix theory needs an appropriate revision. Moreover, we have exemplified the precise dynamics of thermalization and thermodynamic properties with test models.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# 大規模言語モデルに基づくインストラクション駆動型ゲームエンジン

Instruction-Driven Game Engines on Large Language Models ( http://arxiv.org/abs/2404.00276v3 )

ライセンス: Link先を確認
Hongqiu Wu, Xingyuan Liu, Hai Zhao, Min Zhang, (参考訳) Instruction-Driven Game Engine(IDGE)プロジェクトは、大規模言語モデル(LLM)が自由形式のゲームルールに従い、自律的にゲームプレイプロセスを生成できるようにすることで、ゲーム開発を民主化することを目的としている。 IDGEは、ユーザーが単純な自然言語命令を発行することでゲームを作成することができるため、ゲーム開発における障壁は大幅に低下する。 我々は,IDGEの学習過程を次の状態予測タスクとしてアプローチし,ゲーム内状態を自動回帰予測する。 ゲーム内状態の計算が正確でなければならず、さもなくばわずかなエラーでゲームプレイが破壊される可能性があるため、これは難しいタスクである。 これを解決するために、我々は、複雑なシナリオに対するモデルの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。 私たちの最初の進歩は、汎用的なカードゲームであるPoker用のIDGEを開発することです。 私たちが設計したエンジンは、幅広いポーカー変種をサポートするだけでなく、自然言語入力によるルールの高度なカスタマイズも可能にしています。 さらに、最小限のサンプルから新しいゲームの迅速なプロトタイピングを推奨し、最小限のプロンプトとデータエンジニアリングに依存するゲーム開発における革新的なパラダイムを提案している。 この研究は、命令駆動型ゲーム作成の今後の進歩の基盤となり、ゲームの設計とプレイの仕方を変える可能性がある。

The Instruction-Driven Game Engine (IDGE) project aims to democratize game development by enabling a large language model (LLM) to follow free-form game rules and autonomously generate game-play processes. The IDGE allows users to create games by issuing simple natural language instructions, which significantly lowers the barrier for game development. We approach the learning process for IDGEs as a Next State Prediction task, wherein the model autoregressively predicts in-game states given player actions. It is a challenging task because the computation of in-game states must be precise; otherwise, slight errors could disrupt the game-play. To address this, we train the IDGE in a curriculum manner that progressively increases the model's exposure to complex scenarios. Our initial progress lies in developing an IDGE for Poker, a universally cherished card game. The engine we've designed not only supports a wide range of poker variants but also allows for high customization of rules through natural language inputs. Furthermore, it also favors rapid prototyping of new games from minimal samples, proposing an innovative paradigm in game development that relies on minimal prompt and data engineering. This work lays the groundwork for future advancements in instruction-driven game creation, potentially transforming how games are designed and played.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# 共変量シフトによる最小ノルム補間

Minimum-Norm Interpolation Under Covariate Shift ( http://arxiv.org/abs/2404.00522v2 )

ライセンス: Link先を確認
Neil Mallinar, Austin Zane, Spencer Frei, Bin Yu, (参考訳) トランスファーラーニングは、現実の機械学習デプロイメントにおいて重要な部分であり、過度にパラメータ化されたニューラルネットワークを用いた実験的研究で広く研究されている。 しかし、線形回帰の最も単純な設定においても、伝達学習の理論的理解には注目すべきギャップが残っている。 高次元線形回帰に関する分布的研究は、線形補間器がノイズの多い訓練ラベルに過度に適合し、しかしなおもよく一般化している「textit{benign overfitting」と呼ばれる現象を同定した。 この挙動は、ソース共分散行列と入力データ次元に関する特定の条件下で起こる。 したがって、そのような高次元線形モデルが転写学習の下でどのように振る舞うのか疑問に思うのは自然である。 本稿では,移動学習環境における線形補間器の非漸近的過剰リスク境界を初めて証明する。 そこで本研究では,過パラメータ化の度合いに基づいて,<textit{beneficial}と<textit{malignant}共変量シフトの分類法を提案する。 実画像データ上での線形補間器と、入力データ次元がトレーニングサンプルサイズよりも大きい環境での完全連結ニューラルネットワークに対して、これらの有益で悪性な共変量シフトを示す実験的な研究に追従する。

Transfer learning is a critical part of real-world machine learning deployments and has been extensively studied in experimental works with overparameterized neural networks. However, even in the simplest setting of linear regression a notable gap still exists in the theoretical understanding of transfer learning. In-distribution research on high-dimensional linear regression has led to the identification of a phenomenon known as \textit{benign overfitting}, in which linear interpolators overfit to noisy training labels and yet still generalize well. This behavior occurs under specific conditions on the source covariance matrix and input data dimension. Therefore, it is natural to wonder how such high-dimensional linear models behave under transfer learning. We prove the first non-asymptotic excess risk bounds for benignly-overfit linear interpolators in the transfer learning setting. From our analysis, we propose a taxonomy of \textit{beneficial} and \textit{malignant} covariate shifts based on the degree of overparameterization. We follow our analysis with empirical studies that show these beneficial and malignant covariate shifts for linear interpolators on real image data, and for fully-connected neural networks in settings where the input data dimension is larger than the training sample size.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# CityGaussian: ガウシアンによるリアルタイム高品質な大規模レンダリング

CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians ( http://arxiv.org/abs/2404.01133v3 )

ライセンス: Link先を確認
Yang Liu, He Guan, Chuanchen Luo, Lue Fan, Naiyan Wang, Junran Peng, Zhaoxiang Zhang, (参考訳) リアルタイム3次元シーン再構築と新しいビュー合成の進歩は、3Dガウススプラッティング(3DGS)によって著しく促進されている。 しかし、大規模な3DGSを効果的に訓練し、様々なスケールでリアルタイムにレンダリングすることは依然として困難である。 本稿では,CityGaussian(CityGS)について紹介する。CityGaussian(CityGS)は,大規模な3DGSトレーニングとレンダリングを効率的に行うために,新たな分別/分別トレーニングアプローチとレベル・オブ・ディーテール(LoD)戦略を採用している。 具体的には、グローバルシーンの事前かつ適応的なトレーニングデータ選択により、効率的なトレーニングとシームレスな融合が可能になる。 融合ガウスプリミティブに基づいて圧縮により異なる詳細レベルを生成し、提案したブロックワイド詳細レベル選択と集約戦略により、様々なスケールにわたる高速レンダリングを実現する。 大規模シーンにおける大規模な実験結果から,我々の手法が最先端のレンダリング品質を実現し,大規模シーンを一貫したリアルタイムレンダリングを可能にすることを示した。 私たちのプロジェクトページはhttps://dekuliutesla.github.io/citygs/で公開されています。

The advancement of real-time 3D scene reconstruction and novel view synthesis has been significantly propelled by 3D Gaussian Splatting (3DGS). However, effectively training large-scale 3DGS and rendering it in real-time across various scales remains challenging. This paper introduces CityGaussian (CityGS), which employs a novel divide-and-conquer training approach and Level-of-Detail (LoD) strategy for efficient large-scale 3DGS training and rendering. Specifically, the global scene prior and adaptive training data selection enables efficient training and seamless fusion. Based on fused Gaussian primitives, we generate different detail levels through compression, and realize fast rendering across various scales through the proposed block-wise detail levels selection and aggregation strategy. Extensive experimental results on large-scale scenes demonstrate that our approach attains state-of-theart rendering quality, enabling consistent real-time rendering of largescale scenes across vastly different scales. Our project page is available at https://dekuliutesla.github.io/citygs/.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# CHOPS: LLMを使った顧客サービスのためのcustOmerプロファイルシステムとのチャット

CHOPS: CHat with custOmer Profile Systems for Customer Service with LLMs ( http://arxiv.org/abs/2404.01343v4 )

ライセンス: Link先を確認
Jingzhe Shi, Jialuo Li, Qinwei Ma, Zaiwen Yang, Huan Ma, Lei Li, (参考訳) GPT-3.5、GPT-4、GLM-3、LLaMa-2といった大企業やソフトウェアプラットフォームは、ファイルアクセスやカスタマーサービスの推論エージェントとして、より大規模な言語モデル(LLM)に移行しつつある。 しかし、現在のLLMベースのカスタマーサービスモデルでは、顧客プロファイルとの統合が限られており、効果的なサービスに必要な運用機能が欠如している。 さらに、既存のAPI統合は、現実世界のカスタマーサービスシナリオに不可欠な精度とエラー回避の多様性を強調している。 これらの問題に対処するために,1)既存のデータベースやシステムを利用してユーザ情報にアクセスしたり,既存のガイドラインに従ってシステムと対話したりすること,2)有害な操作を回避しつつ,正確で合理的な応答を提供したり,あるいは必要な操作をシステム内で行うこと,3)小規模と大規模のLCMの組み合わせを活用して,合理的な推論コストで性能を満足させること,などを目的とする,CHOPS (CHAT with custOmer Profile in existing System) という LLM エージェントを提案する。 我々は,CPHOSから収集したデータベース,ファイルの案内,QAペアを含む,実践的なデータセットであるCPHOSデータセットを紹介した。 我々はCPHOSデータセットを用いて提案したCHOPSアーキテクチャの性能を検証するための広範な実験を行い、LLMがヒューマンカスタマーサービスの代替品としてどのように機能するかを実証した。 提案したアーキテクチャとデータセットのコードは、https://github.com/JingzheShi/CHOPS}で確認できます。

Businesses and software platforms are increasingly turning to Large Language Models (LLMs) such as GPT-3.5, GPT-4, GLM-3, and LLaMa-2 for chat assistance with file access or as reasoning agents for customer service. However, current LLM-based customer service models have limited integration with customer profiles and lack the operational capabilities necessary for effective service. Moreover, existing API integrations emphasize diversity over the precision and error avoidance essential in real-world customer service scenarios. To address these issues, we propose an LLM agent named CHOPS (CHat with custOmer Profile in existing System), designed to: (1) efficiently utilize existing databases or systems for accessing user information or interacting with these systems following existing guidelines; (2) provide accurate and reasonable responses or carry out required operations in the system while avoiding harmful operations; and (3) leverage a combination of small and large LLMs to achieve satisfying performance at a reasonable inference cost. We introduce a practical dataset, the CPHOS-dataset, which includes a database, guiding files, and QA pairs collected from CPHOS, an online platform that facilitates the organization of simulated Physics Olympiads for high school teachers and students. We have conducted extensive experiments to validate the performance of our proposed CHOPS architecture using the CPHOS-dataset, with the aim of demonstrating how LLMs can enhance or serve as alternatives to human customer service. Code for our proposed architecture and dataset can be found at {https://github.com/JingzheShi/CHOPS}.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# GS2Mesh:新しいステレオビューによるガウス平滑化による表面再構成

GS2Mesh: Surface Reconstruction from Gaussian Splatting via Novel Stereo Views ( http://arxiv.org/abs/2404.01810v2 )

ライセンス: Link先を確認
Yaniv Wolf, Amit Bracha, Ron Kimmel, (参考訳) 近年,シーンを正確に表現するための効率的なアプローチとして,3Dガウススティング(3DGS)が登場している。 しかし、その優れた新規なビュー合成能力にもかかわらず、ガウス特性から直接シーンの幾何学を抽出することは、測光損失に基づいて最適化されているため、依然として課題である。 いくつかの同時モデルはガウス最適化の過程で幾何的制約を加えようとしたが、それでもノイズが多く非現実的な曲面を生成する。 本研究では,実世界の知識を深度抽出プロセスに注入することにより,ノイズの多い3DGS表現とスムーズな3Dメッシュ表現とのギャップを埋める新しい手法を提案する。 ガウスの性質から直接シーンの幾何学を抽出する代わりに、事前訓練されたステレオマッチングモデルを通して幾何学を抽出する。 私たちは、オリジナルのトレーニングポーズに対応するステレオアライメントされたイメージのペアをレンダリングし、ペアをステレオモデルに入力して深度プロファイルを取得し、最後にすべてのプロファイルを融合して単一のメッシュを得る。 結果として得られた再構成はよりスムーズで正確であり、ガウススプラッティングの他の表面再構成法と比較してより複雑な詳細を示すが、比較的短い3DGS最適化プロセスではわずかなオーバーヘッドしか必要としない。 提案手法の広範なテストを行ったところ,スマートフォンで得られた画像が再現性に優れていたことが判明した。 さらに,本手法をタンク・テンプル・DTUベンチマークで検証し,最先端の結果を得た。

Recently, 3D Gaussian Splatting (3DGS) has emerged as an efficient approach for accurately representing scenes. However, despite its superior novel view synthesis capabilities, extracting the geometry of the scene directly from the Gaussian properties remains a challenge, as those are optimized based on a photometric loss. While some concurrent models have tried adding geometric constraints during the Gaussian optimization process, they still produce noisy, unrealistic surfaces. We propose a novel approach for bridging the gap between the noisy 3DGS representation and the smooth 3D mesh representation, by injecting real-world knowledge into the depth extraction process. Instead of extracting the geometry of the scene directly from the Gaussian properties, we instead extract the geometry through a pre-trained stereo-matching model. We render stereo-aligned pairs of images corresponding to the original training poses, feed the pairs into a stereo model to get a depth profile, and finally fuse all of the profiles together to get a single mesh. The resulting reconstruction is smoother, more accurate and shows more intricate details compared to other methods for surface reconstruction from Gaussian Splatting, while only requiring a small overhead on top of the fairly short 3DGS optimization process. We performed extensive testing of the proposed method on in-the-wild scenes, obtained using a smartphone, showcasing its superior reconstruction abilities. Additionally, we tested the method on the Tanks and Temples and DTU benchmarks, achieving state-of-the-art results.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# マルチモーダル機械学習と単モーダル機械学習のより強い計算分離について

On Stronger Computational Separations Between Multimodal and Unimodal Machine Learning ( http://arxiv.org/abs/2404.02254v2 )

ライセンス: Link先を確認
Ari Karchmer, (参考訳) 近年,マルチモーダル機械学習は経験的成功を収めている(例: GPT-4)。 この経験的成功を理論的に正当化するために、Lu (NeurIPS '23, ALT '24) はマルチモーダル学習の理論を導入し、マルチモーダル学習の理論モデルとユニモーダル学習の理論モデルの間の「textit{separations}」を考える。 特に,Lu(ALT '24)は,学習タスクの‘textit{worst-case}インスタンスに関連する計算分離を示す。本論文では,学習タスクの‘typeal’インスタンスに対して,非モーダル学習は計算的に難しいが,マルチモーダル学習は容易である。 次に、平均的なケース分離が‘自然’であるかどうかを問う。 それは実際に遭遇するだろうか? この目的のために, 基本条件下では, 平均ケース・ユニモーダルとマルチモーダル・ラーニング・タスク間の任意の計算分離が対応する暗号鍵合意プロトコルを示すことを証明した。 我々はこれを、本質的には暗号分布の「病理的」な場合のみ存在するため、マルチモーダル学習の非常に強い「textit{computational}」の利点が実際は「textit{infrequently}」に現れるという証拠として解釈することを提案する。 しかし、これは可能な(スーパーポリノミカル) \textit{statistical} の利点には当てはまらない。

Recently, multimodal machine learning has enjoyed huge empirical success (e.g. GPT-4). Motivated to develop theoretical justification for this empirical success, Lu (NeurIPS '23, ALT '24) introduces a theory of multimodal learning, and considers possible \textit{separations} between theoretical models of multimodal and unimodal learning. In particular, Lu (ALT '24) shows a computational separation, which is relevant to \textit{worst-case} instances of the learning task. In this paper, we give a stronger \textit{average-case} computational separation, where for ``typical'' instances of the learning task, unimodal learning is computationally hard, but multimodal learning is easy. We then question how ``natural'' the average-case separation is. Would it be encountered in practice? To this end, we prove that under basic conditions, any given computational separation between average-case unimodal and multimodal learning tasks implies a corresponding cryptographic key agreement protocol. We suggest to interpret this as evidence that very strong \textit{computational} advantages of multimodal learning may arise \textit{infrequently} in practice, since they exist only for the ``pathological'' case of inherently cryptographic distributions. However, this does not apply to possible (super-polynomial) \textit{statistical} advantages.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# 細管構造の接続性と資源効率を考慮したスケルトンリコール損失

Skeleton Recall Loss for Connectivity Conserving and Resource Efficient Segmentation of Thin Tubular Structures ( http://arxiv.org/abs/2404.03010v2 )

ライセンス: Link先を確認
Yannick Kirchhoff, Maximilian R. Rokuss, Saikat Roy, Balint Kovacs, Constantin Ulrich, Tassilo Wald, Maximilian Zenk, Philipp Vollmuth, Jens Kleesiek, Fabian Isensee, Klaus Maier-Hein, (参考訳) 容器、神経、道路、コンクリートクラックなどの細い管状構造を正確に分断することは、コンピュータビジョンにおいて重要な課題である。 DiceやCross-Entropyのような標準的なディープラーニングベースのセグメンテーション損失関数は、しばしば構造的な接続性やトポロジーを犠牲にして、ボリュームオーバーラップに焦点を当てている。 これは、フロー計算、ナビゲーション、構造検査などの下流タスクに悪影響を及ぼすセグメンテーションエラーを引き起こす可能性がある。 現在のトポロジに焦点をあてた損失は改善の兆しとなるが、計算とメモリのオーバーヘッドがかなり大きい。 これは特に3Dデータに関係しており、これらの損失は大きなボリュームでは実現不可能であり、また、より重要なマルチクラスのセグメンテーション問題も抱えている。 そこで本稿では,GPUベースの計算を低コストなCPU操作で回避し,これらの課題を効果的に解決する新しいSkeleton Recall Lossを提案する。 これは、トポロジ保存セグメンテーションのための5つのパブリックデータセットに対する現在の最先端アプローチに比べて、全体的なパフォーマンスを向上し、計算オーバーヘッドを90%以上削減する。 そこで我々は, 最薄構造セグメンテーションのための最初の多クラス能動損失関数を導入し, トポロジー保存の効率性と有効性に優れていた。

Accurately segmenting thin tubular structures, such as vessels, nerves, roads or concrete cracks, is a crucial task in computer vision. Standard deep learning-based segmentation loss functions, such as Dice or Cross-Entropy, focus on volumetric overlap, often at the expense of preserving structural connectivity or topology. This can lead to segmentation errors that adversely affect downstream tasks, including flow calculation, navigation, and structural inspection. Although current topology-focused losses mark an improvement, they introduce significant computational and memory overheads. This is particularly relevant for 3D data, rendering these losses infeasible for larger volumes as well as increasingly important multi-class segmentation problems. To mitigate this, we propose a novel Skeleton Recall Loss, which effectively addresses these challenges by circumventing intensive GPU-based calculations with inexpensive CPU operations. It demonstrates overall superior performance to current state-of-the-art approaches on five public datasets for topology-preserving segmentation, while substantially reducing computational overheads by more than 90%. In doing so, we introduce the first multi-class capable loss function for thin structure segmentation, excelling in both efficiency and efficacy for topology-preservation.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# VoicePilot:物理支援ロボットのための音声インタフェースとしてのLLMのハーネス化

VoicePilot: Harnessing LLMs as Speech Interfaces for Physically Assistive Robots ( http://arxiv.org/abs/2404.04066v2 )

ライセンス: Link先を確認
Akhil Padmanabha, Jessie Yuan, Janavi Gupta, Zulekha Karachiwalla, Carmel Majidi, Henny Admoni, Zackory Erickson, (参考訳) 身体支援ロボットは、日常生活の活動を完了できない運動障害や他の障害のある個人の健康と自立を著しく向上させる機会を提供する。 音声インタフェース、特にLarge Language Models (LLMs) を利用するものは、個人がロボットに対して高レベルなコマンドや微妙な好みを効果的に、そして自然に伝達することができる。 高度なタスク計画とコード生成のためのロボットへのインタフェースとしてLLMを統合するためのフレームワークが提案されているが、補助インタフェースを開発する際に不可欠な人間中心の考察を取り入れていない。 本研究では,身体支援ロボットの音声インタフェースとしてLLMを組み込むための枠組みを提案し,給餌ロボットを用いた3段階の試験を反復的に構築し,11人の高齢者を対象に独立した生活施設で評価を行った。 最終研究から得られた定量データと定性的データの両方を用いて、我々のフレームワークを検証するとともに、補助ロボットのための音声インタフェースとしてLLMを使用するための設計ガイドラインを提供する。 https://sites.google.com/andrew.cmu.edu/voicepilot/

Physically assistive robots present an opportunity to significantly increase the well-being and independence of individuals with motor impairments or other forms of disability who are unable to complete activities of daily living. Speech interfaces, especially ones that utilize Large Language Models (LLMs), can enable individuals to effectively and naturally communicate high-level commands and nuanced preferences to robots. Frameworks for integrating LLMs as interfaces to robots for high level task planning and code generation have been proposed, but fail to incorporate human-centric considerations which are essential while developing assistive interfaces. In this work, we present a framework for incorporating LLMs as speech interfaces for physically assistive robots, constructed iteratively with 3 stages of testing involving a feeding robot, culminating in an evaluation with 11 older adults at an independent living facility. We use both quantitative and qualitative data from the final study to validate our framework and additionally provide design guidelines for using LLMs as speech interfaces for assistive robots. Videos and supporting files are located on our project website: https://sites.google.com/andrew.cmu.edu/voicepilot/
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# StyleForge: デュアルバインディングを持つ任意のアーティファクトスタイルのためのテキストと画像の合成を強化する

StyleForge: Enhancing Text-to-Image Synthesis for Any Artistic Styles with Dual Binding ( http://arxiv.org/abs/2404.05256v2 )

ライセンス: Link先を確認
Junseo Park, Beomseok Ko, Hyeryung Jang, (参考訳) 安定拡散(Stable Diffusion)のようなテキスト・画像モデルの最近の進歩は、自然言語のプロンプトから視覚画像を作成する能力を示した。 しかし、DreamBoothのような既存の手法は、スタイリスティックな属性の抽象的で多面的な性質のために、任意のアートスタイルのキャプチャに苦労している。 多様な芸術様式にまたがるパーソナライズされたテキスト・ツー・イメージ合成のための新しいアプローチであるSingle-StyleForgeを紹介した。 ターゲットスタイルの約15~20の画像を使用して、Single-StyleForgeは、ターゲットスタイルの幅広い属性とユニークなトークン識別子の基本的なバインディングを確立する。 さらに、補助的なイメージは二重結合に組み込まれ、ターゲットスタイル内の人々のような重要な要素の一貫性のある表現を導く。 さらに,複数のトークンを部分的なスタイル属性に結合することで,画像の品質とテキストアライメントを向上させるマルチスタイルForgeを提案する。 FID,KID,CLIPスコアによる6つの異なる芸術様式の実験的評価により,画像品質と知覚的忠実度が有意に向上した。

Recent advancements in text-to-image models, such as Stable Diffusion, have showcased their ability to create visual images from natural language prompts. However, existing methods like DreamBooth struggle with capturing arbitrary art styles due to the abstract and multifaceted nature of stylistic attributes. We introduce Single-StyleForge, a novel approach for personalized text-to-image synthesis across diverse artistic styles. Using approximately 15 to 20 images of the target style, Single-StyleForge establishes a foundational binding of a unique token identifier with a broad range of attributes of the target style. Additionally, auxiliary images are incorporated for dual binding that guides the consistent representation of crucial elements such as people within the target style. Furthermore, we present Multi-StyleForge, which enhances image quality and text alignment by binding multiple tokens to partial style attributes. Experimental evaluations across six distinct artistic styles demonstrate significant improvements in image quality and perceptual fidelity, as measured by FID, KID, and CLIP scores.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# 局所拡散を用いた画像翻訳における構造的幻覚への対処

Tackling Structural Hallucination in Image Translation with Local Diffusion ( http://arxiv.org/abs/2404.05980v5 )

ライセンス: Link先を確認
Seunghoi Kim, Chen Jin, Tom Diethe, Matteo Figini, Henry F. J. Tregidgo, Asher Mullokandov, Philip Teare, Daniel C. Alexander, (参考訳) 拡散モデルにおける最近の進展は、条件付き画像の生成が進んでいるが、医療画像の未確認腫瘍などのアウト・オブ・ディストリビューション(OOD)画像の再構成に苦慮し、「イメージ幻覚」を引き起こし、誤診断のリスクを負っている。 このような幻覚は条件画像中の局所的なOOD領域から生じると仮定する。 我々は、OOD領域を分割し、別々の画像生成を行うことで幻覚を軽減できることを検証する。 そこで本研究では,複数の局所拡散プロセスによる幻覚を緩和する学習自由拡散フレームワークを提案する。 アプローチでは,OOD領域内と外部の両方でローカルに生成する"ブランチ"モジュールと,これらの予測をひとつのモジュールに統合する"フュージョン"モジュールという,2つのモジュールが続く。 本手法は, 実世界の医療・自然画像データセットの40%, 25%の誤診を減らし, ベースラインモデルに対する幻覚を定量的に, 質的に緩和するものである。 また、様々な事前訓練された拡散モデルとの互換性を示す。

Recent developments in diffusion models have advanced conditioned image generation, yet they struggle with reconstructing out-of-distribution (OOD) images, such as unseen tumors in medical images, causing "image hallucination" and risking misdiagnosis. We hypothesize such hallucinations result from local OOD regions in the conditional images. We verify that partitioning the OOD region and conducting separate image generations alleviates hallucinations in several applications. From this, we propose a training-free diffusion framework that reduces hallucination with multiple Local Diffusion processes. Our approach involves OOD estimation followed by two modules: a "branching" module generates locally both within and outside OOD regions, and a "fusion" module integrates these predictions into one. Our evaluation shows our method mitigates hallucination over baseline models quantitatively and qualitatively, reducing misdiagnosis by 40% and 25% in the real-world medical and natural image datasets, respectively. It also demonstrates compatibility with various pre-trained diffusion models.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# Qiskit-Torch-Module:量子ニューラルネットワークの高速プロトタイピング

Qiskit-Torch-Module: Fast Prototyping of Quantum Neural Networks ( http://arxiv.org/abs/2404.06314v2 )

ライセンス: Link先を確認
Nico Meyer, Christian Ufrecht, Maniraman Periyasamy, Axel Plinge, Christopher Mutschler, Daniel D. Scherer, Andreas Maier, (参考訳) 量子コンピュータシミュレーションソフトウェアは、量子コンピューティングコミュニティの研究に不可欠なツールである。 重要な側面は、特に変分量子アルゴリズムのトレーニングにおいて、それぞれのフレームワークの効率性である。 広く使われているQiskitソフトウェア環境に着目し,qiskit-torch-moduleを開発した。 既存のコードベースとの低オーバーヘッド統合を容易にしながら、同等のライブラリよりも2桁のパフォーマンス向上を実現している。 さらにこのフレームワークは、量子ニューラルネットワークとPyTorchを統合するための高度なツールを提供する。 パイプラインはシングルマシンの計算システム向けに調整されており、日々の研究で広く利用されている。

Quantum computer simulation software is an integral tool for the research efforts in the quantum computing community. An important aspect is the efficiency of respective frameworks, especially for training variational quantum algorithms. Focusing on the widely used Qiskit software environment, we develop the qiskit-torch-module. It improves runtime performance by two orders of magnitude over comparable libraries, while facilitating low-overhead integration with existing codebases. Moreover, the framework provides advanced tools for integrating quantum neural networks with PyTorch. The pipeline is tailored for single-machine compute systems, which constitute a widely employed setup in day-to-day research efforts.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# 言語モデルにおける(Near)duplicateサブワードの効果について

On the Effect of (Near) Duplicate Subwords in Language Modelling ( http://arxiv.org/abs/2404.06508v3 )

ライセンス: Link先を確認
Anton Schäfer, Thomas Hofmann, Imanol Schlag, Tiago Pimentel, (参考訳) トークン化は言語モデル(LM)の中核部分である。 文字列をサブワードに分割し、任意のインデックスが割り当てられてLMに渡される。 文字レベルの情報を除去するので、LMが Now や Now のような類似のサブワードをまたいで一般化することが難しくなる可能性がある。 我々はそのような副語をほぼ重複として言及する。 本稿では,ほぼ重複したサブワードがLMトレーニング効率に与える影響について検討する。 まず、ほぼ重複するモデルを完全に一般化できれば、モデルがどの程度改善されるか、という上限を与える実験を設計する。 私たちは、LMの語彙で各サブワードを複製し、完全に等価なサブワードのクラスを作成します。 実験により、完全に複製された環境でのトレーニングでは、LMには約17%以上のデータが必要であることがわかった。 第2に,複製近傍の自然発生がLMに与える影響について検討した。 ここでは、それらのマージがLMのパフォーマンスを著しく損なうことが分かります。 したがって、サブワード重複はLMトレーニング効率に悪影響を及ぼすが、自然に重複の近くで起こることは予想されるほどに似ていないため、性能改善の可能性を制限することができる。

Tokenisation is a core part of language models (LMs). It involves splitting a character sequence into subwords which are assigned arbitrary indices before being served to the LM. While typically lossless, however, this process may lead to less sample efficient LM training: as it removes character-level information, it could make it harder for LMs to generalise across similar subwords, such as now and Now. We refer to such subwords as near duplicates. In this paper, we study the impact of near duplicate subwords on LM training efficiency. First, we design an experiment that gives us an upper bound to how much we should expect a model to improve if we could perfectly generalise across near duplicates. We do this by duplicating each subword in our LM's vocabulary, creating perfectly equivalent classes of subwords. Experimentally, we find that LMs need roughly 17% more data when trained in a fully duplicated setting. Second, we investigate the impact of naturally occurring near duplicates on LMs. Here, we see that merging them considerably hurts LM performance. Therefore, although subword duplication negatively impacts LM training efficiency, naturally occurring near duplicates may not be as similar as anticipated, limiting the potential for performance improvements.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# 動的3次元走査における動作誤差の2次元自己補償

Binomial Self-compensation for Motion Error in Dynamic 3D Scanning ( http://arxiv.org/abs/2404.06693v2 )

ライセンス: Link先を確認
Geyou Zhang, Ce Zhu, Kai Liu, (参考訳) 位相シフトプロファイロメトリー (PSP) は, 高精度, 堅牢性, 画素ワイド特性により高精度な3次元走査に好適である。 しかしながら、物体が静的でなければならないというPSPの基本的な仮定は、動的測定において破られ、PSPは物体の動きに敏感になり、点雲のリップルのようなエラーをもたらす。 本研究では,4ステップPSPの動作誤差を効果的かつ柔軟に除去するBSCアルゴリズムを提案する。 数理モデルにより、二項係数で重み付けされた連続的な運動影響相フレームを和らげることで、二項次数が増加するにつれて運動誤差は指数関数的に減少し、中間変数の助けなしに、運動影響相シーケンスによる自動誤差補償が達成されることを示した。 広汎な実験により,BSCはカメラの取得速度(90fps)に匹敵する深度マップのフレームレートを実現し,擬似ショットフレームレートで高精度な3D再構成を実現するとともに,従来の動作誤差低減手法よりも優れた性能を示した。

Phase shifting profilometry (PSP) is favored in high-precision 3D scanning due to its high accuracy, robustness, and pixel-wise property. However, a fundamental assumption of PSP that the object should remain static is violated in dynamic measurement, making PSP susceptible to object moving, resulting in ripple-like errors in the point clouds. We propose a pixel-wise and frame-wise loopable binomial self-compensation (BSC) algorithm to effectively and flexibly eliminate motion error in the four-step PSP. Our mathematical model demonstrates that by summing successive motion-affected phase frames weighted by binomial coefficients, motion error exponentially diminishes as the binomial order increases, accomplishing automatic error compensation through the motion-affected phase sequence, without the assistance of any intermediate variable. Extensive experiments show that our BSC outperforms the existing methods in reducing motion error, while achieving a depth map frame rate equal to the camera's acquisition rate (90 fps), enabling high-accuracy 3D reconstruction with a quasi-single-shot frame rate.
翻訳日:2024-07-18 22:19:21 公開日:2024-07-17
# 言語間一般化における言語不均衡の役割:クローン言語実験から

The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments ( http://arxiv.org/abs/2404.07982v4 )

ライセンス: Link先を確認
Anton Schäfer, Shauli Ravfogel, Thomas Hofmann, Tiago Pimentel, Imanol Schlag, (参考訳) 言語モデリングの最近の進歩を多様な言語コミュニティに拡張するために、多言語性は不可欠である。 複数の言語を表現しながら高いパフォーマンスを維持するために、多言語モデルは表現を理想的に整列させ、ある言語で学んだことを他の言語に一般化させる。 先行研究は、このようなアライメントの鍵となる要素として、並列データと共有語彙要素の重要性を強調してきた。 本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。 完全同値なクローン言語に関する制御実験では、トレーニング中の支配的な言語の存在が、あまり頻度の低い言語の性能を高め、言語間のモデル表現の整合性を高めることが観察された。 さらに、この傾向は規模によって増幅されていることが判明した: 十分に大きなモデルや十分なトレーニングがある場合、90/10言語分割によるバイリンガルトレーニングデータがバランスの取れた50/50言語分割よりも、両言語のパフォーマンスが向上する。 これらの知見に基づいて、トレーニングデータを変更することなく、すべてのクローン言語のパフォーマンスを向上させるトレーニングスキームを設計する。 しかし、言語不均衡が言語間の一般化を引き起こすか否かは決定的ではない。

Multilinguality is crucial for extending recent advancements in language modelling to diverse linguistic communities. To maintain high performance while representing multiple languages, multilingual models ideally align representations, allowing what is learned in one language to generalise to others. Prior research has emphasised the importance of parallel data and shared vocabulary elements as key factors for such alignment. In this study, we investigate an unintuitive novel driver of cross-lingual generalisation: language imbalance. In controlled experiments on perfectly equivalent cloned languages, we observe that the existence of a predominant language during training boosts the performance of less frequent languages and leads to stronger alignment of model representations across languages. Furthermore, we find that this trend is amplified with scale: with large enough models or long enough training, we observe that bilingual training data with a 90/10 language split yields better performance on both languages than a balanced 50/50 split. Building on these insights, we design training schemes that can improve performance in all cloned languages, even without altering the training data. As we extend our analysis to real languages, we find that infrequent languages still benefit from frequent ones, yet whether language imbalance causes cross-lingual generalisation there is not conclusive.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# 障害UnetLM:効率的なタンパク質内因性障害予測のためのタンパク質Unetの検証

DisorderUnetLM: Validating ProteinUnet for efficient protein intrinsic disorder prediction ( http://arxiv.org/abs/2404.08108v3 )

ライセンス: Link先を確認
Krzysztof Kotowski, Irena Roterman, Katarzyna Stapor, (参考訳) 内因性障害領域の予測は、タンパク質の機能やダイナミクスを理解する上で重要な意味を持つ。 新しい薬物や酵素を設計するのに不可欠なタンパク質とタンパク質の相互作用を発見するのに役立つ。 近年,タンパク質言語モデル(pLM)に基づく新しい世代の予測器が出現している。 これらのアルゴリズムは、時間を要する多重シーケンスアライメント(MSA)を計算し、最先端の精度に達する。 本稿では、タンパク質Unetの考え方に基づく新しい障害UnetLM障害予測器について紹介する。 Attention U-Net畳み込みニューラルネットワークを使用し、ProtTrans pLMの機能を組み込んでいる。 障害UnetLMはMSAとpLMを併用した最近の予測器と直接比較することで最上位となる。 さらに、最新のCAID-2ベンチマークの43の予測器のうち、障害-NOXサブセット(ROC-AUC 0.844)では1位、障害-PDBサブセット(ROC-AUC 0.924)では10位である。 コードとモデルは公開されており、doi.org/10.24433/CO.7350682.v1で完全に再現可能である。

The prediction of intrinsic disorder regions has significant implications for understanding protein functions and dynamics. It can help to discover novel protein-protein interactions essential for designing new drugs and enzymes. Recently, a new generation of predictors based on protein language models (pLMs) is emerging. These algorithms reach state-of-the-art accuracy with-out calculating time-consuming multiple sequence alignments (MSAs). The article introduces the new DisorderUnetLM disorder predictor, which builds upon the idea of ProteinUnet. It uses the Attention U-Net convolutional neural network and incorporates features from the ProtTrans pLM. DisorderUnetLM achieves top results in the direct comparison with recent predictors exploiting MSAs and pLMs. Moreover, among 43 predictors from the latest CAID-2 benchmark, it ranks 1st for the Disorder-NOX subset (ROC-AUC of 0.844) and 10th for the Disorder-PDB subset (ROC-AUC of 0.924). The code and model are publicly available and fully reproducible at doi.org/10.24433/CO.7350682.v1.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# オムニサット:地球観測のための自己監督されたモーダリティ融合

OmniSat: Self-Supervised Modality Fusion for Earth Observation ( http://arxiv.org/abs/2404.08351v3 )

ライセンス: Link先を確認
Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu, (参考訳) 地球観測(EO)で利用可能なセンサーの多様性と相補性は、自制的なマルチモーダル学習アプローチを開発することを要求する。 しかしながら、現在のマルチモーダルなEOデータセットとモデルは通常、単一日付の画像または時系列のいずれかで、その影響を制限する単一のデータタイプにフォーカスする。 この問題に対処するため、我々はOmniSatを紹介した。OmniSatは、多種多様なEOモダリティをラベルなしで表現的特徴にマージできる新しいアーキテクチャで、アライメントを活用できる。 このアプローチの利点を実証するために、既存のデータセットを新しいモダリティで拡張することで、2つの新しいマルチモーダルデータセットを作成します。 OmniSatは3つの下流タスク(林業、土地被覆分類、作物マッピング)で実証されているように、監督なしでリッチな表現を学習できるため、半監督と完全に監督された環境下での最先端のパフォーマンスに繋がる。 さらに,マルチモーダル事前学習方式では,1つのモーダルしか推論できない場合でも,性能が向上する。 コードとデータセットはhttps://github.com/gastruc/OmniSat.comで入手できる。

The diversity and complementarity of sensors available for Earth Observations (EO) calls for developing bespoke self-supervised multimodal learning approaches. However, current multimodal EO datasets and models typically focus on a single data type, either mono-date images or time series, which limits their impact. To address this issue, we introduce OmniSat, a novel architecture able to merge diverse EO modalities into expressive features without labels by exploiting their alignment. To demonstrate the advantages of our approach, we create two new multimodal datasets by augmenting existing ones with new modalities. As demonstrated for three downstream tasks -- forestry, land cover classification, and crop mapping -- OmniSat can learn rich representations without supervision, leading to state-of-the-art performances in semi- and fully supervised settings. Furthermore, our multimodal pretraining scheme improves performance even when only one modality is available for inference. The code and dataset are available at https://github.com/gastruc/OmniSat.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# Tango 2: 直接参照最適化による拡散に基づくテキスト・ツー・オーディオ生成の調整

Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization ( http://arxiv.org/abs/2404.09956v4 )

ライセンス: Link先を確認
Navonil Majumder, Chia-Yu Hung, Deepanway Ghosal, Wei-Ning Hsu, Rada Mihalcea, Soujanya Poria, (参考訳) 生成的マルチモーダルコンテンツは、アーティストやメディアのスタッフが、アイデアを迅速に生かして、制作前のモックアップを作成できる可能性があるため、コンテンツ制作の領域の多くでますます普及している。 テキストプロンプトからの音声の生成は、音楽や映画産業におけるそのようなプロセスの重要な側面である。 最近の拡散に基づくテキスト・ツー・オーディオモデルの多くは、プロンプト・オーディオペアの大規模なデータセットに基づいて、ますます洗練された拡散モデルのトレーニングに重点を置いている。 これらのモデルは、入力プロンプトに関して、概念やイベントの存在と、出力オーディオにおける時間的順序に明示的に焦点を絞らない。 我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。 そこで本研究では,既存のテキスト音声モデルであるTangoを用いて,各プロンプトが勝者音声出力と敗者音声出力を有して学習する選好データセットを合成する。 敗者出力は、理論上、即時欠落または誤った順序からいくつかの概念を持つ。 そこで我々は,TangoとAudioLDM2における拡散DPOの損失を利用して,公開されているTangoテキスト音声モデルを微調整し,自動評価と手動評価の両方の観点から,TangoとAudioLDM2による音声出力の改善につながることを示す。

Generative multimodal content is increasingly prevalent in much of the content creation arena, as it has the potential to allow artists and media personnel to create pre-production mockups by quickly bringing their ideas to life. The generation of audio from text prompts is an important aspect of such processes in the music and film industry. Many of the recent diffusion-based text-to-audio models focus on training increasingly sophisticated diffusion models on a large set of datasets of prompt-audio pairs. These models do not explicitly focus on the presence of concepts or events and their temporal ordering in the output audio with respect to the input prompt. Our hypothesis is focusing on how these aspects of audio generation could improve audio generation performance in the presence of limited data. As such, in this work, using an existing text-to-audio model Tango, we synthetically create a preference dataset where each prompt has a winner audio output and some loser audio outputs for the diffusion model to learn from. The loser outputs, in theory, have some concepts from the prompt missing or in an incorrect order. We fine-tune the publicly available Tango text-to-audio model using diffusion-DPO (direct preference optimization) loss on our preference dataset and show that it leads to improved audio output over Tango and AudioLDM2, in terms of both automatic- and manual-evaluation metrics.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# 温度スタート変分量子ポリシーイテレーション

Warm-Start Variational Quantum Policy Iteration ( http://arxiv.org/abs/2404.10546v2 )

ライセンス: Link先を確認
Nico Meyer, Jakob Murauer, Alexander Popov, Christian Ufrecht, Axel Plinge, Christopher Mutschler, Daniel D. Scherer, (参考訳) 強化学習は、非常に複雑な意思決定シナリオにおける最適な行動を決定するための強力なフレームワークである。 この目的は、典型的には大きな線形方程式系を解く必要があるポリシー反復を用いて達成できる。 NISQ互換の量子化サブルーチンを用いて,変分量子ポリシー反復(VarQPI)アルゴリズムを提案する。 そのスケーラビリティは、汎用的な強化学習環境の構造の分析によって支えられ、ユーティリティスケールの量子コンピュータによる潜在的な量子優位性の基礎を築いた。 さらに、リソースオーバーヘッドを大幅に削減するウォームスタート初期化変種(WS-VarQPI)を導入する。 このアルゴリズムは、256×256次元線形系を基礎とする大規模なフロズンレイク環境を解き、その実用的堅牢性を示している。

Reinforcement learning is a powerful framework aiming to determine optimal behavior in highly complex decision-making scenarios. This objective can be achieved using policy iteration, which requires to solve a typically large linear system of equations. We propose the variational quantum policy iteration (VarQPI) algorithm, realizing this step with a NISQ-compatible quantum-enhanced subroutine. Its scalability is supported by an analysis of the structure of generic reinforcement learning environments, laying the foundation for potential quantum advantage with utility-scale quantum computers. Furthermore, we introduce the warm-start initialization variant (WS-VarQPI) that significantly reduces resource overhead. The algorithm solves a large FrozenLake environment with an underlying 256x256-dimensional linear system, indicating its practical robustness.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# CausalMed:患者の健康状態を中心とした因果性に基づくパーソナライズドメディケーション勧告

CausalMed: Causality-Based Personalized Medication Recommendation Centered on Patient health state ( http://arxiv.org/abs/2404.12228v2 )

ライセンス: Link先を確認
Xiang Li, Shunpan Liang, Yu Lei, Chen Li, Yulei Hou, Tengfei Ma, (参考訳) 特定の患者に適した薬剤を推奨する薬剤推奨システムを開発した。 これまでの研究は主に薬品表現の学習に焦点が当てられ、顕著な進歩をもたらした。 しかし、これらの方法は、以下の主な制限により、パーソナライズされた患者表現をキャプチャすることに限定されている。 一 病原体が各種患者の健康状態に与える影響の相違を把握できないこと。 (ii) 薬剤と患者の特定の健康状態の直接的な因果関係をモデル化できないため、各薬剤がどの疾患を治療しているかを判断できない。 これらの制約に対処するため,患者表現のパーソナライズを向上できる健康状態中心モデルCausalMedを提案する。 具体的には、CausalMedはまず因果関係を因果的発見によって捉え、その因果的影響を評価する。 これに基づいて、CausalMedは患者の健康状態を分析し、患者の異なる健康状態における疾患や栄養素の動的な相違を捉え、直接的な因果関係に基づいて疾患や栄養素を薬に変えることに焦点を当てている。 最終的にCausalMedは、長期訪問からの情報を統合して、医薬品の組み合わせを推奨する。 実世界のデータセットに対する大規模な実験により、我々の手法はよりパーソナライズされた患者の表現を学習し、最先端のモデルの精度と安全性を向上することが示された。

Medication recommendation systems are developed to recommend suitable medications tailored to specific patient. Previous researches primarily focus on learning medication representations, which have yielded notable advances. However, these methods are limited to capturing personalized patient representations due to the following primary limitations: (i) unable to capture the differences in the impact of diseases/procedures on patients across various patient health states; (ii) fail to model the direct causal relationships between medications and specific health state of patients, resulting in an inability to determine which specific disease each medication is treating. To address these limitations, we propose CausalMed, a patient health state-centric model capable of enhancing the personalization of patient representations. Specifically, CausalMed first captures the causal relationship between diseases/procedures and medications through causal discovery and evaluates their causal effects. Building upon this, CausalMed focuses on analyzing the health state of patients, capturing the dynamic differences of diseases/procedures in different health states of patients, and transforming diseases/procedures into medications on direct causal relationships. Ultimately, CausalMed integrates information from longitudinal visits to recommend medication combinations. Extensive experiments on real-world datasets show that our method learns more personalized patient representation and outperforms state-of-the-art models in accuracy and safety.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# CaBaFL: 階層的なキャッシュと機能バランスによる非同期フェデレーション学習

CaBaFL: Asynchronous Federated Learning via Hierarchical Cache and Feature Balance ( http://arxiv.org/abs/2404.12850v2 )

ライセンス: Link先を確認
Zeke Xia, Ming Hu, Dengke Yan, Xiaofei Xie, Tianlin Li, Anran Li, Junlong Zhou, Mingsong Chen, (参考訳) 有望な分散機械学習パラダイムとしてのフェデレートラーニング(FL)は、AIoT(Artificial Intelligence of Things)アプリケーションで広く採用されている。 しかし、FLの効率と推論能力は、トラグラーの存在と、巨大なAIoTデバイス間でのデータ不均衡のため、著しく制限されている。 上記の課題に対処するために,階層型キャッシュベースの集約機構と機能バランス誘導デバイス選択戦略を含む,CaBaFLという新しい非同期FLアプローチを提案する。 CaBaFLは、ローカルトレーニングのために複数の中間モデルを同時に維持する。 階層的なキャッシュベースのアグリゲーション機構により、各中間モデルを複数のデバイスでトレーニングし、トレーニング時間を調整し、ストラグラー問題を緩和することができる。 具体的には、各中間モデルはローカルトレーニングのために低レベルのキャッシュに格納され、十分なローカルデバイスによってトレーニングされた場合、集約のために高レベルのキャッシュに格納される。 不均衡データの問題を解決するため、CaBaFLにおける機能バランス誘導デバイス選択戦略では、アクティベーション分布をメトリックとして採用し、アグリゲーション前に完全にバランスの取れたデータ分布を持つデバイス間で各中間モデルをトレーニングすることができる。 実験の結果,CaBaFLは最先端のFL法と比較して最大9.26Xのトレーニングアクセラレーションと19.71\%の精度向上を達成した。

Federated Learning (FL) as a promising distributed machine learning paradigm has been widely adopted in Artificial Intelligence of Things (AIoT) applications. However, the efficiency and inference capability of FL is seriously limited due to the presence of stragglers and data imbalance across massive AIoT devices, respectively. To address the above challenges, we present a novel asynchronous FL approach named CaBaFL, which includes a hierarchical Cache-based aggregation mechanism and a feature Balance-guided device selection strategy. CaBaFL maintains multiple intermediate models simultaneously for local training. The hierarchical cache-based aggregation mechanism enables each intermediate model to be trained on multiple devices to align the training time and mitigate the straggler issue. In specific, each intermediate model is stored in a low-level cache for local training and when it is trained by sufficient local devices, it will be stored in a high-level cache for aggregation. To address the problem of imbalanced data, the feature balance-guided device selection strategy in CaBaFL adopts the activation distribution as a metric, which enables each intermediate model to be trained across devices with totally balanced data distributions before aggregation. Experimental results show that compared with the state-of-the-art FL methods, CaBaFL achieves up to 9.26X training acceleration and 19.71\% accuracy improvements.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# オフザシェルフ拡散モデルを用いたゼロショット医療薬効接地

Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models ( http://arxiv.org/abs/2404.12920v2 )

ライセンス: Link先を確認
Konstantinos Vilouras, Pedro Sanchez, Alison Q. O'Neil, Sotirios A. Tsaftaris, (参考訳) 与えられた医療スキャンにおける正確な病理領域の局在は、大量の境界ボックス基底真理アノテーションを正確に解決する必要がある重要な画像問題である。 しかし、自由テキストレポートが付属するなど、潜在的に弱い監督形態の代替が存在しているため、すぐに利用できる。 テキストガイダンスでローカライズを行うタスクは、通常、フレーズグラウンドディング( phrase grounding)と呼ばれる。 この作業では、この課題を解決するために、公開のFoundation Model、すなわちLatent Diffusion Modelを使用します。 この選択は、ラテント拡散モデルが本質的に生成的であるにもかかわらず、視覚的特徴とテキスト的特徴を暗黙的に整列する機構(クロスアテンション)を含んでいるという事実によって支持され、手作業に適した中間表現が導かれる。 さらに、このタスクをゼロショットで実行すること、すなわち、ターゲットデータに関するさらなるトレーニングを伴わず、モデルの重みは凍結状態のままである、という目標を掲げる。 この目的のために、我々は、追加の学習可能なパラメータを使わずに、特徴を選定し、後処理によって洗練する戦略を考案した。 提案手法を,コントラスト学習による共同埋め込み空間における画像テキストアライメントを明示的に実施する最先端手法と比較した。 胸部X線検査の結果から, 胸部X線検査では, 異なる種類の病理組織でSOTAと競合し, 2つの指標(平均IoU, AUC-ROC)で平均よりも優れていたことが示唆された。 ソースコードは受理時に公開される。

Localizing the exact pathological regions in a given medical scan is an important imaging problem that requires a large amount of bounding box ground truth annotations to be accurately solved. However, there exist alternative, potentially weaker, forms of supervision, such as accompanying free-text reports, which are readily available. The task of performing localization with textual guidance is commonly referred to as phrase grounding. In this work, we use a publicly available Foundation Model, namely the Latent Diffusion Model, to solve this challenging task. This choice is supported by the fact that the Latent Diffusion Model, despite being generative in nature, contains mechanisms (cross-attention) that implicitly align visual and textual features, thus leading to intermediate representations that are suitable for the task at hand. In addition, we aim to perform this task in a zero-shot manner, i.e., without any further training on target data, meaning that the model's weights remain frozen. To this end, we devise strategies to select features and also refine them via post-processing without extra learnable parameters. We compare our proposed method with state-of-the-art approaches which explicitly enforce image-text alignment in a joint embedding space via contrastive learning. Results on a popular chest X-ray benchmark indicate that our method is competitive wih SOTA on different types of pathology, and even outperforms them on average in terms of two metrics (mean IoU and AUC-ROC). Source code will be released upon acceptance.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# PV-S3:セミスーパービジョンによるエレクトロルミネッセンス画像のセマンティックセグメンテーションによる自動太陽電池欠陥検出の改善

PV-S3: Advancing Automatic Photovoltaic Defect Detection using Semi-Supervised Semantic Segmentation of Electroluminescence Images ( http://arxiv.org/abs/2404.13693v2 )

ライセンス: Link先を確認
Abhishek Jha, Yogesh Rawat, Shruti Vyas, (参考訳) 太陽光発電(PV)システムにより、豊富な太陽エネルギーを利用できるが、高い効率と劣化防止のためには定期的なメンテナンスが必要である。 エレクトロルミネッセンス(EL)イメージングを用いた従来の手動健康チェックは高価で、論理的に難しいため、自動欠陥検出が不可欠である。 現在の自動化アプローチでは、大規模な手作業による専門家のラベル付けが必要になります。 EL画像における欠陥のセマンティックセグメンテーションのための半教師付き学習手法であるPV-S3(Photovoltaic-Semi Supervised Segmentation)を提案する。 PV-S3は、ラベル付きイメージと多数のラベル付きイメージを使用してトレーニングされたディープラーニングモデルである。 PV-S3を複数のデータセット上で評価し,その有効性と適応性を示す。 単に20%のラベル付きサンプルでIoUで9.7%、精度で13.5%、リコールで29.15%、F1-Scoreで20.42%という絶対的な改善を実現した。

Photovoltaic (PV) systems allow us to tap into all abundant solar energy, however they require regular maintenance for high efficiency and to prevent degradation. Traditional manual health check, using Electroluminescence (EL) imaging, is expensive and logistically challenging which makes automated defect detection essential. Current automation approaches require extensive manual expert labeling, which is time-consuming, expensive, and prone to errors. We propose PV-S3 (Photovoltaic-Semi Supervised Segmentation), a Semi-Supervised Learning approach for semantic segmentation of defects in EL images that reduces reliance on extensive labeling. PV-S3 is a Deep learning model trained using a few labeled images along with numerous unlabeled images. We evaluate PV-S3 on multiple datasets and demonstrate its effectiveness and adaptability. With merely 20% labeled samples, we achieve an absolute improvement of 9.7% in IoU, 13.5% in Precision, 29.15% in Recall, and 20.42% in F1-Score over prior state-of-the-art supervised method (which uses 100% labeled samples) on UCF-EL dataset (largest dataset available for semantic segmentation of EL images)showing improvement in performance while reducing the annotation costs by 80%.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# 因果的抽象化マルチアームバンド

Causally Abstracted Multi-armed Bandits ( http://arxiv.org/abs/2404.17493v2 )

ライセンス: Link先を確認
Fabio Massimo Zennaro, Nicholas Bishop, Joel Dyer, Yorgos Felekis, Anisoara Calinescu, Michael Wooldridge, Theodoros Damoulas, (参考訳) マルチアームバンディット (MAB) と因果MAB (CMAB) は意思決定問題の枠組みとして確立されている。 先行研究の大部分は、通常、与えられた問題と関連するデータに対して、個別のMABとCMABを分離して研究し、解決する。 しかし、意思決定者は、問題構造やデータ依存関係を効率的に活用するために、複数の関連する問題や共同定式化が必要なマルチスケールな観察に直面していることが多い。 CMABの転送学習は、因果関係が異なるとしても、モデルが同一変数上で定義される状況に対処する。 本研究は,変換学習を,多種多様な変数に対して定義したCMABを含む設定に拡張する。 本稿では,因果的抽象マップを表現するために因果的抽象理論に頼って因果的抽象MAB(CAMAB)の問題を導入する。 本稿では,CAMABで学習するアルゴリズムを提案し,その後悔について検討する。 オンライン広告に関連する現実のシナリオにおいて、アルゴリズムの限界と強みについて説明する。

Multi-armed bandits (MAB) and causal MABs (CMAB) are established frameworks for decision-making problems. The majority of prior work typically studies and solves individual MAB and CMAB in isolation for a given problem and associated data. However, decision-makers are often faced with multiple related problems and multi-scale observations where joint formulations are needed in order to efficiently exploit the problem structures and data dependencies. Transfer learning for CMABs addresses the situation where models are defined on identical variables, although causal connections may differ. In this work, we extend transfer learning to setups involving CMABs defined on potentially different variables, with varying degrees of granularity, and related via an abstraction map. Formally, we introduce the problem of causally abstracted MABs (CAMABs) by relying on the theory of causal abstraction in order to express a rigorous abstraction map. We propose algorithms to learn in a CAMAB, and study their regret. We illustrate the limitations and the strengths of our algorithms on a real-world scenario related to online advertising.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# 大規模言語モデルを用いた低炭素人工知能のための生成AI

Generative AI for Low-Carbon Artificial Intelligence of Things with Large Language Models ( http://arxiv.org/abs/2404.18077v2 )

ライセンス: Link先を確認
Jinbo Wen, Ruichen Zhang, Dusit Niyato, Jiawen Kang, Hongyang Du, Yang Zhang, Zhu Han, (参考訳) 人工知能(AI)とIoT(Internet of Things)を統合することで、AIoT(Artificial Intelligence of Things)は多くの分野に革命をもたらした。 しかしAIoTは、モバイル技術の継続的な進歩により、エネルギー消費と二酸化炭素排出量の課題に直面している。 幸いなことに、Generative AI(GAI)は、その優れた推論と生成能力のために、AIoTの二酸化炭素排出量を減らす大きな可能性を秘めている。 本稿では, 炭素排出量削減のためのGAIの可能性について検討し, 低炭素AIoTのための新しいGAI対応ソリューションを提案する。 具体的には、まず、AIoTにおける炭素排出量の原因となる主な影響について研究し、次に、GAI技術とその炭素排出量との関係について紹介する。 次に、低炭素AIoTにおけるGAIの適用可能性について検討し、GAIがネットワークコンポーネントの二酸化炭素排出量を減らす方法に焦点を当てる。 次に,Large Language Model (LLM) 対応の炭素排出最適化フレームワークを提案し,より正確で信頼性の高い最適化問題を生成するために,プラグブルLLMとRetrieval Augmented Generation (RAG)モジュールを設計する。 さらに, 生成拡散モデル(GDM)を用いて, 二酸化炭素排出削減のための最適戦略を同定する。 その結果,提案手法の有効性が示唆された。 最後に、低炭素AIoTのオープンな研究指針について考察する。

By integrating Artificial Intelligence (AI) with the Internet of Things (IoT), Artificial Intelligence of Things (AIoT) has revolutionized many fields. However, AIoT is facing the challenges of energy consumption and carbon emissions due to the continuous advancement of mobile technology. Fortunately, Generative AI (GAI) holds immense potential to reduce carbon emissions of AIoT due to its excellent reasoning and generation capabilities. In this article, we explore the potential of GAI for carbon emissions reduction and propose a novel GAI-enabled solution for low-carbon AIoT. Specifically, we first study the main impacts that cause carbon emissions in AIoT, and then introduce GAI techniques and their relations to carbon emissions. We then explore the application prospects of GAI in low-carbon AIoT, focusing on how GAI can reduce carbon emissions of network components. Subsequently, we propose a Large Language Model (LLM)-enabled carbon emission optimization framework, in which we design pluggable LLM and Retrieval Augmented Generation (RAG) modules to generate more accurate and reliable optimization problems. Furthermore, we utilize Generative Diffusion Models (GDMs) to identify optimal strategies for carbon emission reduction. Numerical results demonstrate the effectiveness of the proposed framework. Finally, we insightfully provide open research directions for low-carbon AIoT.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# IHTを用いたスパースニューラルネットワークの学習

Learning a Sparse Neural Network using IHT ( http://arxiv.org/abs/2404.18414v2 )

ライセンス: Link先を確認
Saeed Damadi, Soroush Zolfaghari, Mahdi Rezaie, Jinglai Shen, (参考訳) 優れたモデルのコアとなるのは、基本的なパターンとコンピテンシーを反映した重要な情報のみに焦点を当て、データセットから明確なノイズのない信号を取り出す能力である。 これは、より少ないパラメータで定義された単純化されたモデルを使用する必要がある。 この文脈において理論基盤の重要性は明らかとなり、この論文は高度なスパース最適化の領域、特に非線形微分可能関数に対処する領域からの確立された結果に依存している。 このような理論基盤の必要性は、NNの訓練のための計算能力が増大するにつれて、より高いパラメータ数のモデルが複雑化する傾向によってさらに強調される。 現実的なシナリオでは、これらの大きなモデルは、より少ないパラメータを持つより管理しやすいバージョンに単純化されることが多い。 パラメータ数が少ないこれらの単純化されたモデルが有効である理由を理解することは、決定的な疑問を提起する。 パラメータの少ないこれらの単純化されたモデルが有効である理由を理解することは、重要な疑問を提起する。 このことは、これらの経験的観察を明確に説明できる理論的な枠組みが存在するかどうかというより広い疑問につながります。 繰り返し硬度閾値(IHT)の局所的最小値(勾配降下に類似したスパース法)への収束に必要な条件の確立など,近年の進展が期待できる。 非ゼロパラメータの位置を正確に識別し、学習するIHTアルゴリズムの顕著な能力は、その実用性と有用性を示している。 本稿では, ニューラルネットワーク(NN)トレーニングの領域において, 収束に必要な条件をすべて正当化することで, 収束の理論的前提が適用可能であるかを検討することを目的とする。 そして、これらの条件は、IRISデータセットをテストベッドとして、単層NNの実験によって検証される。

The core of a good model is in its ability to focus only on important information that reflects the basic patterns and consistencies, thus pulling out a clear, noise-free signal from the dataset. This necessitates using a simplified model defined by fewer parameters. The importance of theoretical foundations becomes clear in this context, as this paper relies on established results from the domain of advanced sparse optimization, particularly those addressing nonlinear differentiable functions. The need for such theoretical foundations is further highlighted by the trend that as computational power for training NNs increases, so does the complexity of the models in terms of a higher number of parameters. In practical scenarios, these large models are often simplified to more manageable versions with fewer parameters. Understanding why these simplified models with less number of parameters remain effective raises a crucial question. Understanding why these simplified models with fewer parameters remain effective raises an important question. This leads to the broader question of whether there is a theoretical framework that can clearly explain these empirical observations. Recent developments, such as establishing necessary conditions for the convergence of iterative hard thresholding (IHT) to a sparse local minimum (a sparse method analogous to gradient descent) are promising. The remarkable capacity of the IHT algorithm to accurately identify and learn the locations of nonzero parameters underscores its practical effectiveness and utility. This paper aims to investigate whether the theoretical prerequisites for such convergence are applicable in the realm of neural network (NN) training by providing justification for all the necessary conditions for convergence. Then, these conditions are validated by experiments on a single-layer NN, using the IRIS dataset as a testbed.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# In-Contextシンボリック回帰:関数発見のための大規模言語モデルを活用する

In-Context Symbolic Regression: Leveraging Large Language Models for Function Discovery ( http://arxiv.org/abs/2404.19094v2 )

ライセンス: Link先を確認
Matteo Merler, Katsiaryna Haitsiukevich, Nicola Dainese, Pekka Marttinen, (参考訳) State of the Art Symbolic Regression (SR) メソッドは現在、特殊なモデルを構築しているが、Large Language Models (LLMs) の応用はいまだほとんど検討されていない。 本稿では,SR のタスクに LLM を利用する最初の包括的フレームワークを紹介する。 本稿では,LLMを用いて関数形式を反復的に洗練し,外部オプティマイザを用いてその係数を決定するSR手法であるIn-Context Symbolic Regression (ICSR)を提案する。 ICSR は LLM の強い数学的先行性を利用して、観測値から可能な関数の初期セットを提案し、それらの誤差に基づいてそれらを洗練する。 この結果から, LLM は与えられたデータに適合するシンボリック方程式の発見に成功し, 4つの一般的なベンチマークにおいて, 最高のSRベースラインの全体的な性能を一致または向上し, 分布の一般化を良くしたより単純な方程式が得られることがわかった。

State of the art Symbolic Regression (SR) methods currently build specialized models, while the application of Large Language Models (LLMs) remains largely unexplored. In this work, we introduce the first comprehensive framework that utilizes LLMs for the task of SR. We propose In-Context Symbolic Regression (ICSR), an SR method which iteratively refines a functional form with an LLM and determines its coefficients with an external optimizer. ICSR leverages LLMs' strong mathematical prior both to propose an initial set of possible functions given the observations and to refine them based on their errors. Our findings reveal that LLMs are able to successfully find symbolic equations that fit the given data, matching or outperforming the overall performance of the best SR baselines on four popular benchmarks, while yielding simpler equations with better out of distribution generalization.
翻訳日:2024-07-18 22:07:40 公開日:2024-07-17
# 視覚言語モデルの敵対的ロバスト性を再考する:マルチモーダル視点

Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective ( http://arxiv.org/abs/2404.19287v2 )

ライセンス: Link先を確認
Wanqi Zhou, Shuanghao Bai, Qibin Zhao, Badong Chen, (参考訳) CLIPのような事前訓練された視覚言語モデル(VLM)は、様々な下流タスクにまたがる優れた一般化性能を示しているが、敵の攻撃には弱いままである。 従来の研究は主に、画像に対する攻撃を防ぐために画像エンコーダの対向的堅牢性を改善することに集中してきたが、テキストベースおよびマルチモーダル攻撃の探索は概ね見過ごされてきた。 本研究は,マルチモーダル攻撃下での対角的ロバスト性に対する適応型視覚言語モデルの研究を初めて開始する。 まず,マルチモーダル攻撃戦略を導入し,異なる攻撃の影響について検討する。 次に,CLIPの画像エンコーダとテキストエンコーダの双方の対向的堅牢性を高めるために,クリーン・対向的テキスト埋め込みと,逆向的かつクリーンな視覚的特徴とを整合させるマルチモーダル対向的トレーニング損失を提案する。 2つのタスクにまたがる15のデータセットに対する大規模な実験により、我々の手法はCLIPの対角的堅牢性を大幅に改善することを示した。 興味深いことに、マルチモーダル攻撃に対して微調整されたモデルの方が、画像ベースの攻撃に対してのみ微調整されたモデルよりも堅牢性が高いことが判明した。

Pretrained vision-language models (VLMs) like CLIP have shown impressive generalization performance across various downstream tasks, yet they remain vulnerable to adversarial attacks. While prior research has primarily concentrated on improving the adversarial robustness of image encoders to guard against attacks on images, the exploration of text-based and multimodal attacks has largely been overlooked. In this work, we initiate the first known and comprehensive effort to study adapting vision-language models for adversarial robustness under the multimodal attack. Firstly, we introduce a multimodal attack strategy and investigate the impact of different attacks. We then propose a multimodal contrastive adversarial training loss, aligning the clean and adversarial text embeddings with the adversarial and clean visual features, to enhance the adversarial robustness of both image and text encoders of CLIP. Extensive experiments on 15 datasets across two tasks demonstrate that our method significantly improves the adversarial robustness of CLIP. Interestingly, we find that the model fine-tuned against multimodal adversarial attacks exhibits greater robustness than its counterpart fine-tuned solely against image-based attacks, even in the context of image attacks, which may open up new possibilities for enhancing the security of VLMs.
翻訳日:2024-07-18 21:57:43 公開日:2024-07-17
# Muting Whisper: 音声基礎モデルに対するユニバーサルアコースティック・アタック

Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation Models ( http://arxiv.org/abs/2405.06134v2 )

ライセンス: Link先を確認
Vyas Raina, Rao Ma, Charles McGhee, Kate Knill, Mark Gales, (参考訳) Whisperのような大規模音声基盤モデルの最近の発展は、多くの自動音声認識(ASR)アプリケーションで広く利用されている。 これらのシステムは、言語生成プロセスを導くために、 $\texttt{<|endoftext|>}$ のような 'special tokens' を語彙に含めている。 しかし,これらのトークンは,敵攻撃によってモデル動作を操作できることが実証された。 本稿では,Whisperの$\texttt{<|endoftext|>}$ tokenの普遍的な音響的実現法を提案する。 実験により, 対象のWhisper ASRモデルに対して, 音声サンプルの97倍の精度で0.64秒対逆音声セグメントをミュートできることが確認された。 さらに,このユニバーサル音声セグメントは,しばしば新しいデータセットやタスクに転送される。 例えば、攻撃は音声モデレーションシステムを回避したり、逆に、攻撃はプライベートな音声データを保護するためにも使用できる。

Recent developments in large speech foundation models like Whisper have led to their widespread use in many automatic speech recognition (ASR) applications. These systems incorporate `special tokens' in their vocabulary, such as $\texttt{<|endoftext|>}$, to guide their language generation process. However, we demonstrate that these tokens can be exploited by adversarial attacks to manipulate the model's behavior. We propose a simple yet effective method to learn a universal acoustic realization of Whisper's $\texttt{<|endoftext|>}$ token, which, when prepended to any speech signal, encourages the model to ignore the speech and only transcribe the special token, effectively `muting' the model. Our experiments demonstrate that the same, universal 0.64-second adversarial audio segment can successfully mute a target Whisper ASR model for over 97\% of speech samples. Moreover, we find that this universal adversarial audio segment often transfers to new datasets and tasks. Overall this work demonstrates the vulnerability of Whisper models to `muting' adversarial attacks, where such attacks can pose both risks and potential benefits in real-world settings: for example the attack can be used to bypass speech moderation systems, or conversely the attack can also be used to protect private speech data.
翻訳日:2024-07-18 21:57:43 公開日:2024-07-17
# 機能的に重要な部位と小分子の基質によって誘導される生成酵素設計

Generative Enzyme Design Guided by Functionally Important Sites and Small-Molecule Substrates ( http://arxiv.org/abs/2405.08205v3 )

ライセンス: Link先を確認
Zhenqiao Song, Yunlong Zhao, Wenxian Shi, Wengong Jin, Yang Yang, Lei Li, (参考訳) 酵素は、化学反応を加速できる遺伝子コード化された生体触媒である。 機能性酵素をどのように設計するか? 本稿では,酵素設計のための統一モデルであるEnzyGenを提案する。 我々のキーとなるアイデアは、酵素のアミノ酸配列とその3次元(3D)座標を、所望の触媒機能に対応する機能的に重要な部位と基質に基づいて生成することである。 これらの部位は酵素データベースから自動的に採掘される。 EnzyGenは、タンパク質配列全体における長距離相関と、3D空間における最も近いアミノ酸の局所的影響の両方を捉える、新しいインターリービングネットワークと近隣の同変層で構成されている。 生成モデルを学習するために、配列生成損失、位置予測損失、酵素-基質相互作用損失を含む共同学習目標を考案する。 さらに、タンパク質データバンク(PDB)内のすべての利用可能な酵素をカバーする3157の酵素ファミリーを持つデータセットであるEnzyBenchを構築した。 実験の結果、EnzyGenは323の試験ファミリで一貫して最高のパフォーマンスを達成し、基質結合親和性の点で10.79%のベースラインを上回りました。 これらの結果から, 高い親和性を有する特定の基質に結合する, 十分に折りたたみされた, 効果的な酵素を設計する上で, EnzyGenが優れていることが示唆された。

Enzymes are genetically encoded biocatalysts capable of accelerating chemical reactions. How can we automatically design functional enzymes? In this paper, we propose EnzyGen, an approach to learn a unified model to design enzymes across all functional families. Our key idea is to generate an enzyme's amino acid sequence and their three-dimensional (3D) coordinates based on functionally important sites and substrates corresponding to a desired catalytic function. These sites are automatically mined from enzyme databases. EnzyGen consists of a novel interleaving network of attention and neighborhood equivariant layers, which captures both long-range correlation in an entire protein sequence and local influence from nearest amino acids in 3D space. To learn the generative model, we devise a joint training objective, including a sequence generation loss, a position prediction loss and an enzyme-substrate interaction loss. We further construct EnzyBench, a dataset with 3157 enzyme families, covering all available enzymes within the protein data bank (PDB). Experimental results show that our EnzyGen consistently achieves the best performance across all 323 testing families, surpassing the best baseline by 10.79% in terms of substrate binding affinity. These findings demonstrate EnzyGen's superior capability in designing well-folded and effective enzymes binding to specific substrates with high affinities.
翻訳日:2024-07-18 21:57:43 公開日:2024-07-17
# マルチ受容場戦略に基づく低照度・欠陥条件下での壁画画像のプログレッシブ・エンハンスメントと復元

Progressive enhancement and restoration for mural images under low-light and defected conditions based on multi-receptive field strategy ( http://arxiv.org/abs/2405.08245v2 )

ライセンス: Link先を確認
Xiameng Wei, Binbin Fan, Ying Wang, Yanxiang Feng, Laiyi Fu, (参考訳) 古代の壁画は貴重な文化遺産であり、考古学的価値が高い。 彼らはその内容を通じて古代の宗教、儀式、民俗学などについての洞察を提供する。 しかし、長期の酸化や保護が不十分なため、古代の壁画は皮剥きや金型など、継続的な被害を受けている。 また、古代の壁画は一般的に屋内で描かれていたため、デジタル装置で撮影した画像の光度は低いことが多い。 視界の低さは、損傷した地域のさらなる修復を妨げている。 遺跡における古壁画の損傷の増大とバッチ復元を容易にするため, 被害を受けた古壁画のMER(Mural Enhancement and Restoration net)と呼ばれる自動欠陥領域検出戦略を用いた2段階復元モデルを提案する。 我々の2段階モデルは、復元された画像の視覚的品質を向上するだけでなく、他の競技者と比較して、関連する計量評価において満足できる結果を得る。 さらに,提案したモデルを用いて,古壁画の復元のためのウェブサイトを開設した。 コードはhttps://gitee.com/bbfan2024/MER.gitで入手できる。

Ancient murals are valuable cultural heritage with great archaeological value. They provide insights into ancient religions, ceremonies, folklore, among other things through their content. However, due to long-term oxidation and inadequate protection, ancient murals have suffered continuous damage, including peeling and mold etc. Additionally, since ancient murals were typically painted indoors, the light intensity in images captured by digital devices is often low. The poor visibility hampers the further restoration of damaged areas. To address the escalating damage to ancient murals and facilitate batch restoration at archaeological sites, we propose a two-stage restoration model with automatic defect area detection strategy which called MER(Mural Enhancement and Restoration net) for ancient murals that are damaged and have been captured in low light. Our two-stage model not only enhances the visual quality of restored images but also achieves commendable results in relevant metric evaluations compared with other competitors. Furthermore, we have launched a website dedicated to the restoration of ancient mural paintings, utilizing the proposed model. Code is available at https://gitee.com/bbfan2024/MER.git.
翻訳日:2024-07-18 21:57:43 公開日:2024-07-17
# チームSamsung-RAL:2024 RoboDrive Challenge-Robust Map Segmentation Trackの技術レポート

Team Samsung-RAL: Technical Report for 2024 RoboDrive Challenge-Robust Map Segmentation Track ( http://arxiv.org/abs/2405.10567v2 )

ライセンス: Link先を確認
Xiaoshuai Hao, Yifan Yang, Hui Zhang, Mengchuan Wei, Yi Zhou, Haimei Zhao, Jing Zhang, (参考訳) 本稿では,RoboDrive Challenge Robust Map Segmentation Track(RoboDriveチャレンジロバストマップセグメンテーショントラック)への提出の技術的詳細について述べる。 ロバストマップセグメンテーショントラックは、様々な運転条件下でのBEVマップにおける複雑な運転シーン要素のセグメンテーションに焦点を当てている。 セマンティックマップセグメンテーションは、自律運転システムの計画とナビゲーションに不可欠な、豊富で正確な静的環境情報を提供する。 現在の手法は、例えば、晴れた昼の状況や完全に機能するセンサーなど、理想的な状況では優れているが、悪天候やセンサーの故障といった現実の課題に対するレジリエンスは依然として不明であり、システムの安全性に対する懸念が高まる。 本稿では,地図分割作業の堅牢性向上のためのいくつかの手法について検討した。 詳細は以下の通り。 1) 時間的情報を活用したロバスト性分析 2) 異なる背骨を用いたロバスト性解析,及び 3)腐敗の堅牢性を高めるためのデータ強化。 評価結果から,いくつかの重要な知見が得られた。 1) 時間融合モジュールは,地図分割モデルの堅牢性向上に有効である。 2 強いバックボーンは、腐敗の堅牢性を改善するのに有効である。 3)データ拡張手法は,地図分割モデルの堅牢性向上に有効である。 これらの新たな発見により、2024年のRoboDrive Challenge-Robust Map Segmentation Trackで有望な結果が得られた。

In this report, we describe the technical details of our submission to the 2024 RoboDrive Challenge Robust Map Segmentation Track. The Robust Map Segmentation track focuses on the segmentation of complex driving scene elements in BEV maps under varied driving conditions. Semantic map segmentation provides abundant and precise static environmental information crucial for autonomous driving systems' planning and navigation. While current methods excel in ideal circumstances, e.g., clear daytime conditions and fully functional sensors, their resilience to real-world challenges like adverse weather and sensor failures remains unclear, raising concerns about system safety. In this paper, we explored several methods to improve the robustness of the map segmentation task. The details are as follows: 1) Robustness analysis of utilizing temporal information; 2) Robustness analysis of utilizing different backbones; and 3) Data Augmentation to boost corruption robustness. Based on the evaluation results, we draw several important findings including 1) The temporal fusion module is effective in improving the robustness of the map segmentation model; 2) A strong backbone is effective for improving the corruption robustness; and 3) Some data augmentation methods are effective in improving the robustness of map segmentation models. These novel findings allowed us to achieve promising results in the 2024 RoboDrive Challenge-Robust Map Segmentation Track.
翻訳日:2024-07-18 21:57:43 公開日:2024-07-17
# OpenRLHF: 使いやすくスケーラブルで高性能なRLHFフレームワーク

OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework ( http://arxiv.org/abs/2405.11143v3 )

ライセンス: Link先を確認
Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao, (参考訳) 大規模言語モデル(LLM)は法則のスケーリングによって成長し続けており、人間のフィードバックからの強化学習(RLHF)はその卓越した性能のために大きな注目を集めている。 しかし、1つのモデルの事前訓練や微調整とは異なり、人間のフィードバック(RLHF)からの強化学習を拡大して、大きな言語モデルをトレーニングすることは、4つのモデル間で協調的な課題を引き起こす。 提案するOpenRLHFは,効率的なRLHFスケーリングを実現するオープンソースフレームワークである。 同じGPU上で4つのモデルを同時に配置する既存のRLHFフレームワークとは異なり、OpenRLHFは、Ray、vLLM、DeepSpeedを使用して70Bパラメータを超えるモデルのスケジューリングを再設計し、リソース利用の改善と多様なトレーニングアプローチを活用する。 Hugging Faceとシームレスに統合されたOpenRLHFは、最適化されたアルゴリズムとローンチスクリプトを備えたアウト・オブ・ボックスソリューションを提供する。 OpenRLHFはRLHF、DPO、拒絶サンプリング、その他のアライメント技術を実装している。 OpenRLHF のコードは、最先端の LLM 開発を活用し、 \url{https://github.com/OpenRLHF/OpenRLHF} で利用可能である。

As large language models (LLMs) continue to grow by scaling laws, reinforcement learning from human feedback (RLHF) has gained significant attention due to its outstanding performance. However, unlike pretraining or fine-tuning a single model, scaling reinforcement learning from human feedback (RLHF) for training large language models poses coordination challenges across four models. We present OpenRLHF, an open-source framework enabling efficient RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF provides an out-of-the-box solution with optimized algorithms and launch scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO, rejection sampling, and other alignment techniques. Empowering state-of-the-art LLM development, OpenRLHF's code is available at \url{https://github.com/OpenRLHF/OpenRLHF}.
翻訳日:2024-07-18 21:57:43 公開日:2024-07-17
# 連続パラメータ効率的なチューニングのための勾配投影

Gradient Projection For Continual Parameter-Efficient Tuning ( http://arxiv.org/abs/2405.13383v3 )

ライセンス: Link先を確認
Jingyang Qiao, Zhizhong Zhang, Xin Tan, Yanyun Qu, Wensheng Zhang, Zhi Han, Yuan Xie, (参考訳) パラメータ効率チューニング(PET)は、大きなモデルのトレーニングにおいて、目覚ましいパフォーマンスと有望な視点を示してきたが、それでも共通の問題に直面している。 本稿では、勾配投影の観点からAdapter、LoRA、Prefix-tuning、Prompt-tuningを再構成し、まずパラメータ有効勾配投影(PEGP)と呼ばれる統一されたフレームワークを提案する。 異なるPETパラダイムに直交勾配投影を導入し,大規模モデルにおいても,勾配の直交条件が効果的に無視に抵抗できることを理論的に証明した。 したがって、古い特徴空間への影響の少ない方向への勾配を調整し、余分なメモリスペースとトレーニング時間を減らします。 我々は,VTやCLIPなどさまざまなバックボーンを多種多様なデータセットで評価し,クラス,オンラインクラス,ドメイン,タスク,マルチモダリティの連続的な設定を忘れることの効率性を総合的に実証した。 プロジェクトページはhttps://dmcv-ecnu-pegp.github.io/で公開されている。

Parameter-efficient tunings (PETs) have demonstrated impressive performance and promising perspectives in training large models, while they are still confronted with a common problem: the trade-off between learning new content and protecting old knowledge, leading to zero-shot generalization collapse, and cross-modal hallucination. In this paper, we reformulate Adapter, LoRA, Prefix-tuning, and Prompt-tuning from the perspective of gradient projection, and firstly propose a unified framework called Parameter Efficient Gradient Projection (PEGP). We introduce orthogonal gradient projection into different PET paradigms and theoretically demonstrate that the orthogonal condition for the gradient can effectively resist forgetting even for large-scale models. It therefore modifies the gradient towards the direction that has less impact on the old feature space, with less extra memory space and training time. We extensively evaluate our method with different backbones, including ViT and CLIP, on diverse datasets, and experiments comprehensively demonstrate its efficiency in reducing forgetting in class, online class, domain, task, and multi-modality continual settings. The project page is available at https://dmcv-ecnu-pegp.github.io/.
翻訳日:2024-07-18 21:57:43 公開日:2024-07-17
# Open-Vocabulary Object Detector:分散シフト下でのロバスト性問題

Open-Vocabulary Object Detectors: Robustness Challenges under Distribution Shifts ( http://arxiv.org/abs/2405.14874v3 )

ライセンス: Link先を確認
Prakash Chandra Chhipa, Kanjar De, Meenakshi Subhash Chippa, Rajkumar Saini, Marcus Liwicki, (参考訳) Out-Of-Distribution (OOD)の堅牢性の課題は、ディープビジョンモデルをデプロイする上で、依然として重要なハードルである。 VLM(Vision-Language Models)は近年,画期的な成果を上げている。 VLMベースのオープン語彙オブジェクト検出は、従来のオブジェクト検出フレームワークの機能を拡張し、事前定義されたカテゴリを超えてオブジェクトの認識と分類を可能にする。 近年のオープン語彙オブジェクト検出におけるOODロバスト性の調査は,これらのモデルの信頼性向上に不可欠である。 本研究では,最近のオープンボキャブラリ (OV) 基礎オブジェクト検出モデルであるOWL-ViT, YOLO World, Grounding DINOのゼロショット機能について,包括的ロバスト性評価を行った。 COCO-O、COCO-DC、COCO-Cは、情報損失、腐敗、敵対攻撃、幾何学的変形による分布変化を包含し、ロバスト性を達成するための研究を促進するためのモデルの堅牢性の課題を強調した。 ソースコードはGitHubのリサーチコミュニティで入手することができる。

The challenge of Out-Of-Distribution (OOD) robustness remains a critical hurdle towards deploying deep vision models. Vision-Language Models (VLMs) have recently achieved groundbreaking results. VLM-based open-vocabulary object detection extends the capabilities of traditional object detection frameworks, enabling the recognition and classification of objects beyond predefined categories. Investigating OOD robustness in recent open-vocabulary object detection is essential to increase the trustworthiness of these models. This study presents a comprehensive robustness evaluation of the zero-shot capabilities of three recent open-vocabulary (OV) foundation object detection models: OWL-ViT, YOLO World, and Grounding DINO. Experiments carried out on the robustness benchmarks COCO-O, COCO-DC, and COCO-C encompassing distribution shifts due to information loss, corruption, adversarial attacks, and geometrical deformation, highlighting the challenges of the model's robustness to foster the research for achieving robustness. Source code shall be made available to the research community on GitHub.
翻訳日:2024-07-18 21:57:43 公開日:2024-07-17
# Occam Gradient Descent

Occam Gradient Descent ( http://arxiv.org/abs/2405.20194v3 )

ライセンス: Link先を確認
B. N. Kausik, (参考訳) ディープラーニングニューラルネットワークモデルは、問題領域に適応するのに十分な大きさでなければならないが、勾配降下時のトレーニングデータの過度な適合を回避するには十分である。 これらの競合する要求のバランスをとるために、トランスフォーマーのような過剰な予測されたディープラーニングモデルは、大きなデータセット上で1つのエポックのために訓練されるため、コンピューティングリソースとトレーニングデータの両方で非効率である。 これらの非効率性に対応するために、我々は学習理論を利用してOccam Gradient Descentを導出する。Occam Gradient Descentはモデルサイズを適応的に減少させ、一般化誤差を最小限に抑えるアルゴリズムである。 対照的に、従来の勾配降下は、一般化誤差によらず、嵌合誤差を極度に最小化する。 提案アルゴリズムは, ニューラルネットワークの重みとトポロジカルサイズを同時に下降させるとともに, 従来の勾配勾配よりも, 損失, 計算, モデルサイズを向上させる画像分類実験に有効である。 さらに,このアルゴリズムを表型データ分類に適用すると,Occam Gradient Descentでトレーニングされたニューラルネットワークは,勾配降下法でトレーニングされたニューラルネットワークとランダムフォレストを,損失とモデルサイズの両方で向上することがわかった。

Deep learning neural network models must be large enough to adapt to their problem domain, while small enough to avoid overfitting training data during gradient descent. To balance these competing demands, overprovisioned deep learning models such as transformers are trained for a single epoch on large data sets, and hence inefficient with both computing resources and training data. In response to these inefficiencies, we exploit learning theory to derive Occam Gradient Descent, an algorithm that interleaves adaptive reduction of model size to minimize generalization error, with gradient descent on model weights to minimize fitting error. In contrast, traditional gradient descent greedily minimizes fitting error without regard to generalization error. Our algorithm simultaneously descends the space of weights and topological size of any neural network without modification, and is effective in our image classification experiments in outperforming traditional gradient descent with or without post-train pruning in loss, compute and model size. Furthermore, applying our algorithm to tabular data classification we find that across a range of data sets, neural networks trained with Occam Gradient Descent outperform neural networks trained with gradient descent, as well as Random Forests, in both loss and model size.
翻訳日:2024-07-18 21:57:43 公開日:2024-07-17
# LLMのスケーラブルな自動アライメントに向けた調査

Towards Scalable Automated Alignment of LLMs: A Survey ( http://arxiv.org/abs/2406.01252v2 )

ライセンス: Link先を確認
Boxi Cao, Keming Lu, Xinyu Lu, Jiawei Chen, Mengjie Ren, Hao Xiang, Peilin Liu, Yaojie Lu, Ben He, Xianpei Han, Le Sun, Hongyu Lin, Bowen Yu, (参考訳) アライメントは、人間のニーズを満たす大規模言語モデル(LLM)を構築する上で最も重要なステップである。 LLMの急速な開発が徐々に人間の能力を超えていく中、人間のアノテーションに基づく従来のアライメント手法は、スケーラビリティの要求を満たすことができなくなっている。 そのため、自動アライメント信号と技術的アプローチの新たな源を探究する必要がある。 本稿では,最近の自動化アライメントの手法を体系的に検討し,LLMの能力が人間の能力を超えれば,効果的でスケーラブルで自動化アライメントを実現する方法について検討する。 具体的には、既存の自動アライメント手法をアライメント信号の源泉に基づく4つの主要なカテゴリに分類し、各カテゴリの現状と潜在的な発展について論じる。 さらに、自動アライメントを可能にするメカニズムについて検討し、アライメントの基本的役割から自動化アライメント技術を実現可能かつ効果的にするための重要な要因について議論する。

Alignment is the most critical step in building large language models (LLMs) that meet human needs. With the rapid development of LLMs gradually surpassing human capabilities, traditional alignment methods based on human-annotation are increasingly unable to meet the scalability demands. Therefore, there is an urgent need to explore new sources of automated alignment signals and technical approaches. In this paper, we systematically review the recently emerging methods of automated alignment, attempting to explore how to achieve effective, scalable, automated alignment once the capabilities of LLMs exceed those of humans. Specifically, we categorize existing automated alignment methods into 4 major categories based on the sources of alignment signals and discuss the current status and potential development of each category. Additionally, we explore the underlying mechanisms that enable automated alignment and discuss the essential factors that make automated alignment technologies feasible and effective from the fundamental role of alignment.
翻訳日:2024-07-18 21:57:43 公開日:2024-07-17
# LLMを信じるか信じないか

To Believe or Not to Believe Your LLM ( http://arxiv.org/abs/2406.02543v2 )

ライセンス: Link先を確認
Yasin Abbasi Yadkori, Ilja Kuzborskij, András György, Csaba Szepesvári, (参考訳) 本稿では,大規模言語モデル(LLM)における不確実性定量化について検討する。 前者は基礎的真理(事実や言語など)に関する知識の欠如から、後者は既約無作為性(複数の可能な答えなど)から来ている。 特に、疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論メトリクスを導出し、その場合、モデルの出力は信頼できない。 この条件は、単に前の応答に基づいた特別な反復的プロンプトによって得られたモデルの出力のみに基づいて計算することができる。 このような定量化は、例えば、単一応答と複数応答の両方において幻覚(てんかんの不確かさが高い場合)を検出することができる。 これは、マルチ・アンサー・ケースにおける幻覚を検出できない多くの標準的な不確実性定量化戦略(応答の対数のようなしきい値の閾値付けなど)とは対照的である。 定式化の利点を実証する一連の実験を行う。 さらに,本研究は, LLMによって与えられた出力に割り当てられる確率が, 独立性のある反復的プロンプトによって増幅される可能性について, 若干の光を当てた。

We explore uncertainty quantification in large language models (LLMs), with the goal to identify when uncertainty in responses given a query is large. We simultaneously consider both epistemic and aleatoric uncertainties, where the former comes from the lack of knowledge about the ground truth (such as about facts or the language), and the latter comes from irreducible randomness (such as multiple possible answers). In particular, we derive an information-theoretic metric that allows to reliably detect when only epistemic uncertainty is large, in which case the output of the model is unreliable. This condition can be computed based solely on the output of the model obtained simply by some special iterative prompting based on the previous responses. Such quantification, for instance, allows to detect hallucinations (cases when epistemic uncertainty is high) in both single- and multi-answer responses. This is in contrast to many standard uncertainty quantification strategies (such as thresholding the log-likelihood of a response) where hallucinations in the multi-answer case cannot be detected. We conduct a series of experiments which demonstrate the advantage of our formulation. Further, our investigations shed some light on how the probabilities assigned to a given output by an LLM can be amplified by iterative prompting, which might be of independent interest.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# 量子ウェーブフロントセンシングによるバイフォトン空間波動関数ダイナミクスのキャラクタリゼーション

Characterizing Biphoton Spatial Wave Function Dynamics with Quantum Wavefront Sensing ( http://arxiv.org/abs/2406.04973v2 )

ライセンス: Link先を確認
Yi Zheng, Zhao-Di Liu, Rui-Heng Miao, Jin-Ming Cui, Mu Yang, Xiao-Ye Xu, Jin-Shi Xu, Chuan-Feng Li, Guang-Can Guo, (参考訳) 非常に高次元で、絡み合った光子の空間的自由度は、量子基盤と応用量子技術の鍵となるツールである。 この特徴を十分に活用するには、異なる進化段階において、絡み合った振幅と位相情報を含む多光子空間波関数を実験的に特徴づけることが不可欠である。 しかし、それを測定する効果的な方法はない。 量子状態トモグラフィーは高価であり、量子ホログラフィーには追加の参照が必要である。 ここでは、二光子空間波動関数の効率的かつ参照不要な測定を行うために量子シャック・ハートマン波面センシングを導入する。 マイクロレンズアレイの後方焦点面における光子対の結合確率分布を測定し、振幅抽出と位相再構成に利用する。 実験では,自由空間伝播中に位相相関が現れると,バイフォトン振幅の相関が弱くなるのが観察された。 我々の研究は、量子物理および適応光学における決定的なステップであり、高次相関やトポロジカルパターンで量子光学場を特徴づける道を開く。

With an extremely high dimensionality, the spatial degree of freedom of entangled photons is a key tool for quantum foundation and applied quantum techniques. To fully utilize the feature, the essential task is to experimentally characterize the multiphoton spatial wave function including the entangled amplitude and phase information at different evolutionary stages. However, there is no effective method to measure it. Quantum state tomography is costly, and quantum holography requires additional references. Here we introduce quantum Shack-Hartmann wavefront sensing to perform efficient and reference-free measurement of the biphoton spatial wave function. The joint probability distribution of photon pairs at the back focal plane of a microlens array is measured and used for amplitude extraction and phase reconstruction. In the experiment, we observe that the biphoton amplitude correlation becomes weak while phase correlation shows up during free-space propagation. Our work is a crucial step in quantum physical and adaptive optics and paves the way for characterizing quantum optical fields with high-order correlations or topological patterns.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# MBBQ: 生成LDMにおけるステレオタイプ間比較用データセット

MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs ( http://arxiv.org/abs/2406.07243v3 )

ライセンス: Link先を確認
Vera Neplenbroek, Arianna Bisazza, Raquel Fernández, (参考訳) 生成的大規模言語モデル(LLM)は有害なバイアスやステレオタイプを示すことが示されている。 安全性の微調整は通常英語で行われているが、少なくともこれらのモデルは様々な言語の話者によって使用されている。 これらのモデルの性能は言語間で矛盾しておらず、ユーザの人口統計学的要因に基づいて識別されているという証拠は存在する。 そこで我々は, LLMが提示する社会的ステレオタイプが, 文化的差異やタスク精度を制御しつつ, それらを促進するために使用する言語の機能として異なるか否かを考察した。 MBBQ(Multilingual Bias Benchmark for Question-Awering)は、オランダ語、スペイン語、トルコ語に拡張された英語のBBQデータセットを慎重にキュレートしたバージョンで、これらの言語に共通するステレオタイプを測定する。 さらにMBBQを並列制御データセットで補完し、偏りによらず質問応答タスクにおけるタスク性能を計測する。 いくつかのオープンソースおよびプロプライエタリなLCMをベースとした研究結果から,一部の非英語言語は,文化的な変化を抑えつつも,英語よりも偏見に悩まされていることが確認された。 さらに、最も正確なモデルを除いて、バイアス行動の言語間差が顕著に観察される。 MBBQのリリースにより、多言語環境におけるバイアスのさらなる研究が望まれる。 データセットとコードはhttps://github.com/Veranep/MBBQ.comで公開されている。

Generative large language models (LLMs) have been shown to exhibit harmful biases and stereotypes. While safety fine-tuning typically takes place in English, if at all, these models are being used by speakers of many different languages. There is existing evidence that the performance of these models is inconsistent across languages and that they discriminate based on demographic factors of the user. Motivated by this, we investigate whether the social stereotypes exhibited by LLMs differ as a function of the language used to prompt them, while controlling for cultural differences and task accuracy. To this end, we present MBBQ (Multilingual Bias Benchmark for Question-answering), a carefully curated version of the English BBQ dataset extended to Dutch, Spanish, and Turkish, which measures stereotypes commonly held across these languages. We further complement MBBQ with a parallel control dataset to measure task performance on the question-answering task independently of bias. Our results based on several open-source and proprietary LLMs confirm that some non-English languages suffer from bias more than English, even when controlling for cultural shifts. Moreover, we observe significant cross-lingual differences in bias behaviour for all except the most accurate models. With the release of MBBQ, we hope to encourage further research on bias in multilingual settings. The dataset and code are available at https://github.com/Veranep/MBBQ.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# ブラックウェルの接近性に対する保存率低減

Rate-Preserving Reductions for Blackwell Approachability ( http://arxiv.org/abs/2406.07585v2 )

ライセンス: Link先を確認
Christoph Dann, Yishay Mansour, Mehryar Mohri, Jon Schneider, Balasubramanian Sivan, (参考訳) Abernethy et al (2011) は、特定のブラックウェルアプローチ性インスタンスを解くアルゴリズムは、特定の非回帰学習インスタンスのサブ線形後悔アルゴリズムに変換できるという意味で、ブラックウェルアプローチ性と非回帰学習は等価であることを示した。 本稿では,このような縮小のよりきめ細かな形式について検討し,この問題間の変換が収束のサブ線形率だけでなく,収束の最適率も保持するかどうかを問う。 つまり、対応するアプローチ可能性インスタンスに対する最適収束率を求めるために、非回帰学習インスタンスに対する最適後悔境界を見つけるのに十分である場合がありますか? Abernethy et al (2011) の減少は、例えば、$d$-dimensional approachability instance $I_1$ を、最適収束率$R_1$ を任意の再帰学習インスタンス $R_2$ に還元する(特に、$R_{2}/R_{1}$ は、$R_1 = 0$ と $R_{2} > 0$ が任意に大きい)。 一方、任意のアプローチ可能性のインスタンスを、不適切な$\phi$-regret最小化(Gordon et al (2008) の$\phi$-regret最小化の変種)と呼ぶ一般的な後悔の形のインスタンスに厳密に還元することは可能である。 最後に, 線形変換が不適切な$\phi$-regret最小化問題を, 保留率で最小化問題の標準クラスに還元するのに十分である場合を特徴付ける。 このような方法では,いくつかの不適切な$\phi$-regret最小化インスタンスをインスタンスのいずれのサブクラスにも還元できないことを証明する。

Abernethy et al. (2011) showed that Blackwell approachability and no-regret learning are equivalent, in the sense that any algorithm that solves a specific Blackwell approachability instance can be converted to a sublinear regret algorithm for a specific no-regret learning instance, and vice versa. In this paper, we study a more fine-grained form of such reductions, and ask when this translation between problems preserves not only a sublinear rate of convergence, but also preserves the optimal rate of convergence. That is, in which cases does it suffice to find the optimal regret bound for a no-regret learning instance in order to find the optimal rate of convergence for a corresponding approachability instance? We show that the reduction of Abernethy et al. (2011) does not preserve rates: their reduction may reduce a $d$-dimensional approachability instance $I_1$ with optimal convergence rate $R_1$ to a no-regret learning instance $I_2$ with optimal regret-per-round of $R_2$, with $R_{2}/R_{1}$ arbitrarily large (in particular, it is possible that $R_1 = 0$ and $R_{2} > 0$). On the other hand, we show that it is possible to tightly reduce any approachability instance to an instance of a generalized form of regret minimization we call improper $\phi$-regret minimization (a variant of the $\phi$-regret minimization of Gordon et al. (2008) where the transformation functions may map actions outside of the action set). Finally, we characterize when linear transformations suffice to reduce improper $\phi$-regret minimization problems to standard classes of regret minimization problems in a rate preserving manner. We prove that some improper $\phi$-regret minimization instances cannot be reduced to either subclass of instance in this way, suggesting that approachability can capture some problems that cannot be phrased in the language of online learning.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# MMVR:ミリ波マルチビューレーダデータセットと屋内知覚のためのベンチマーク

MMVR: Millimeter-wave Multi-View Radar Dataset and Benchmark for Indoor Perception ( http://arxiv.org/abs/2406.10708v2 )

ライセンス: Link先を確認
M. Mahbubur Rahman, Ryoma Yataka, Sorachi Kato, Pu Perry Wang, Peizhao Li, Adriano Cardace, Petros Boufounos, (参考訳) 自律走行をサポートする自動車レーダデータセットの広範なリストと比較すると、屋内レーダデータセットは低解像度レーダポイントクラウドの形式では小さく、通常はオープンスペースの単一ルーム設定の下では不十分である。 本稿では,マルチ日,マルチルーム,マルチオブジェクト設定におけるマルチビュー高分解能レーダヒートマップを用いた屋内レーダデータ収集を,環境と対象の多様性に着目してスケールアップする。 ミリ波マルチビューレーダ(MMVR)データセットとして参照され、異なる部屋から25ドルの被験者から収集された345ドルのマルチビューレーダフレームと、446ドルの注釈付きバウンディングボックス/セグメンテーションインスタンスと、オブジェクト検出、ポーズ推定、インスタンスセグメンテーションの3つの主要な認識タスクをサポートする7.59ドルの注釈付きキーポイントで構成されている。 各タスクに対して、オープンスペースの1つの被験者と、乱数分割とクロス環境分割の2つのデータ分割を持つ複数の乱雑な部屋の複数の被験者の2つのプロトコルによるパフォーマンスベンチマークを報告する。 我々はMMVRが屋内車両(ロボット/ヒューマノイド)航法、建築エネルギー管理、高齢者介護のための屋内レーダ認識開発を促進し、効率、ユーザエクスペリエンス、安全性の向上を期待する。 MMVRデータセットはhttps://doi.org/10.5281/zenodo.1261 1978で公開されている。

Compared with an extensive list of automotive radar datasets that support autonomous driving, indoor radar datasets are scarce at a smaller scale in the format of low-resolution radar point clouds and usually under an open-space single-room setting. In this paper, we scale up indoor radar data collection using multi-view high-resolution radar heatmap in a multi-day, multi-room, and multi-subject setting, with an emphasis on the diversity of environment and subjects. Referred to as the millimeter-wave multi-view radar (MMVR) dataset, it consists of $345$K multi-view radar frames collected from $25$ human subjects over $6$ different rooms, $446$K annotated bounding boxes/segmentation instances, and $7.59$ million annotated keypoints to support three major perception tasks of object detection, pose estimation, and instance segmentation, respectively. For each task, we report performance benchmarks under two protocols: a single subject in an open space and multiple subjects in several cluttered rooms with two data splits: random split and cross-environment split over $395$ 1-min data segments. We anticipate that MMVR facilitates indoor radar perception development for indoor vehicle (robot/humanoid) navigation, building energy management, and elderly care for better efficiency, user experience, and safety. The MMVR dataset is available at https://doi.org/10.5281/zenodo.12611978.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# 平均逆対象による制約付き強化学習:モデルベースおよびモデルフリーアルゴリズム

Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms ( http://arxiv.org/abs/2406.11481v3 )

ライセンス: Link先を確認
Vaneet Aggarwal, Washim Uddin Mondal, Qinbo Bai, (参考訳) 強化学習(Reinforcement Learning, RL)は、ロボット工学、自律運転、レコメンデーションシステム、サプライチェーン最適化、生物学、メカニクス、ファイナンスなど、さまざまな分野にまたがる応用を見つける、シーケンシャルな意思決定のための汎用的なフレームワークとして機能する。 これらのアプリケーションの主な目的は、平均的な報酬を最大化することです。 現実世界のシナリオは、学習プロセス中に特定の制約に固執する必要があることが多い。 このモノグラフは、平均報酬マルコフ決定過程(MDP)の文脈における制約付きRLに対する様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている。 調査はモデルに基づく戦略の検証から始まり、不確実性に直面した楽観主義と後続サンプリングという2つの基礎的手法を掘り下げる。 その後、この議論はパラメタライズドモデルフリーアプローチに移行し、そこでは、制約付きMDPの解として、原始双対ポリシー勾配に基づくアルゴリズムを探索する。 モノグラフは後悔の保証を提供し、議論された各設定に対する制約違反を分析します。 以上の調査では,基礎となるMDPがエルゴディックであると仮定する。 さらに、このモノグラフは、MDPの弱い通信に適した結果を含むように議論を拡張し、その結果の範囲を広げ、より広い範囲の実践シナリオとの関連性を広げる。

Reinforcement Learning (RL) serves as a versatile framework for sequential decision-making, finding applications across diverse domains such as robotics, autonomous driving, recommendation systems, supply chain optimization, biology, mechanics, and finance. The primary objective in these applications is to maximize the average reward. Real-world scenarios often necessitate adherence to specific constraints during the learning process. This monograph focuses on the exploration of various model-based and model-free approaches for Constrained RL within the context of average reward Markov Decision Processes (MDPs). The investigation commences with an examination of model-based strategies, delving into two foundational methods - optimism in the face of uncertainty and posterior sampling. Subsequently, the discussion transitions to parametrized model-free approaches, where the primal-dual policy gradient-based algorithm is explored as a solution for constrained MDPs. The monograph provides regret guarantees and analyzes constraint violation for each of the discussed setups. For the above exploration, we assume the underlying MDP to be ergodic. Further, this monograph extends its discussion to encompass results tailored for weakly communicating MDPs, thereby broadening the scope of its findings and their relevance to a wider range of practical scenarios.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# 実行フィードバックによるセルフプレイ:大規模言語モデルの指示追従能力の向上

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models ( http://arxiv.org/abs/2406.13542v2 )

ライセンス: Link先を確認
Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou, (参考訳) 大規模言語モデル(LLM)のコア機能のひとつは、自然言語命令に従うことだ。 しかし、手動のアノテーションを使わずにLLMの複雑な命令追従能力を高めるために、高品質なトレーニングデータを自動的に構築するという問題は未解決のままである。 本稿では,命令追従学習データを自動的に生成する最初のスケーラブルで信頼性の高い手法であるAutoIFを紹介する。 AutoIFは命令追従データ品質の検証をコード検証に変換し、命令を生成するためにLCM、命令応答の正しさをチェックするための対応するコード、コードの正しさを検証するための単体テストサンプルを生成する。 そして、実行フィードバックに基づく拒否サンプリングにより、監視された微調整(SFT)と人間フィードバック(RLHF)トレーニングからの強化学習のためのデータを生成することができる。 AutoIFは、SFT、オフラインDPO、オンラインDPOの3つのトレーニングアルゴリズムにおいて、自己調整と強弱蒸留設定において、トップオープンソースLLM、Qwen2、LLaMA3に適用することで、大幅な改善を実現している。 私たちのコードはhttps://github.com/QwenLM/AutoIF.comで公開されています。

One core capability of large language models (LLMs) is to follow natural language instructions. However, the issue of automatically constructing high-quality training data to enhance the complex instruction-following abilities of LLMs without manual annotation remains unresolved. In this paper, we introduce AutoIF, the first scalable and reliable method for automatically generating instruction-following training data. AutoIF transforms the validation of instruction-following data quality into code verification, requiring LLMs to generate instructions, the corresponding code to check the correctness of the instruction responses, and unit test samples to verify the code's correctness. Then, execution feedback-based rejection sampling can generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) training. AutoIF achieves significant improvements across three training algorithms, SFT, Offline DPO, and Online DPO, when applied to the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and strong-to-weak distillation settings. Our code is publicly available at https://github.com/QwenLM/AutoIF.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# 自己適応型フォワードネットワークを用いた資源効率の高い医用画像解析

Resource-efficient Medical Image Analysis with Self-adapting Forward-Forward Networks ( http://arxiv.org/abs/2406.14038v2 )

ライセンス: Link先を確認
Johanna P. Müller, Bernhard Kainz, (参考訳) 本稿では,医療画像解析,省電力化,資源制限のための高速自己適応型フォワードネットワーク(SaFF-Net)について紹介する。 最近提案されたフォワード・フォワード・アルゴリズム(FFA)に基づいて、先進的な画像解析に適したパラメータ効率のアルゴリズムである畳み込みフォワード・フォワード・アルゴリズム(CFFA)を導入し、元のFFAの速度と一般化の制約を克服する。 FFAのハイパーパラメータ感度に対処するため、ウォームアップと並列トレーニングの間に、自己適応型のフレームワークSaFF-Netファインチューニングパラメータも導入しています。 提案手法により、より効果的なモデルトレーニングが可能となり、FFAにおいて任意に選択されたグッドネス関数に対して、これまで必要とされていた要求を排除できる。 我々は、標準的なバックプロパゲーション(BP)ニューラルネットワークと比較して、いくつかのベンチマークデータセットに対するアプローチを評価し、特にワンショットシナリオや大きなバッチサイズにおいて、パラメータや関数評価の少ないFFAベースのネットワークが標準モデルと競合できることを示す。 コードはカンファレンスの時点で利用可能になる。

We introduce a fast Self-adapting Forward-Forward Network (SaFF-Net) for medical imaging analysis, mitigating power consumption and resource limitations, which currently primarily stem from the prevalent reliance on back-propagation for model training and fine-tuning. Building upon the recently proposed Forward-Forward Algorithm (FFA), we introduce the Convolutional Forward-Forward Algorithm (CFFA), a parameter-efficient reformulation that is suitable for advanced image analysis and overcomes the speed and generalisation constraints of the original FFA. To address hyper-parameter sensitivity of FFAs we are also introducing a self-adapting framework SaFF-Net fine-tuning parameters during warmup and training in parallel. Our approach enables more effective model training and eliminates the previously essential requirement for an arbitrarily chosen Goodness function in FFA. We evaluate our approach on several benchmarking datasets in comparison with standard Back-Propagation (BP) neural networks showing that FFA-based networks with notably fewer parameters and function evaluations can compete with standard models, especially, in one-shot scenarios and large batch sizes. The code will be available at the time of the conference.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# 複雑な感染を伴う社会学習

Social learning with complex contagion ( http://arxiv.org/abs/2406.14922v2 )

ライセンス: Link先を確認
Hiroaki Chiba-Okabe, Joshua B. Plotkin, (参考訳) 複雑な感染の概念とペイオフバイアスの模倣を結合した数学的モデルを導入し、社会行動が集団を通してどのように広まるかを説明する。 模倣による社会学習の伝統的なモデルは、単純な伝染に基づいており、個人は単一の相互作用によってより成功した隣人を模倣することができる。 当社のフレームワークはこのプロセスを一般化し,個別に異なる行動を採用することを検討する前に複数の露光を必要とする複雑な感染を包含する。 これを有限集団における離散時間および状態確率過程として定式化し、進化ゲーム理論において最も広く用いられる力学モデルである複製子方程式を一般化する常微分方程式として連続極限を導出する。 線形周波数依存型ゲームに適用すると、複雑な感染を伴う社会学習は、従来の模倣力学とは異なる質的な結果をもたらす: 囚人のジレンマは、独特な全欠陥均衡から、集団における安定なコオペレータと欠陥の混合、または双安定システムへと移行できる; 単体から双安定平衡に変化する; そして、座標ゲームは、境界における不安定性から2つの内部平衡に変化する。 長期的な結果は、感染プロセスの複雑さと、より成功したタイプに模倣をバイアスする選択の強さのバランスに依存する。 我々の分析は、進化ゲーム理論の分野を複雑な感染とインターカレーションし、社会システムにおけるより現実的な行動変化の形式を記述するための合成フレームワークを提供する。

We introduce a mathematical model that combines the concepts of complex contagion with payoff-biased imitation, to describe how social behaviors spread through a population. Traditional models of social learning by imitation are based on simple contagion -- where an individual may imitate a more successful neighbor following a single interaction. Our framework generalizes this process to incorporate complex contagion, which requires multiple exposures before an individual considers adopting a different behavior. We formulate this as a discrete time and state stochastic process in a finite population, and we derive its continuum limit as an ordinary differential equation that generalizes the replicator equation, the most widely used dynamical model in evolutionary game theory. When applied to linear frequency-dependent games, our social learning with complex contagion produces qualitatively different outcomes than traditional imitation dynamics: it can shift the Prisoner's Dilemma from a unique all-defector equilibrium to either a stable mixture of cooperators and defectors in the population, or a bistable system; it changes the Snowdrift game from a single to a bistable equilibrium; and it can alter the Coordination game from bistability at the boundaries to two internal equilibria. The long-term outcome depends on the balance between the complexity of the contagion process and the strength of selection that biases imitation towards more successful types. Our analysis intercalates the fields of evolutionary game theory with complex contagions, and it provides a synthetic framework that describes more realistic forms of behavioral change in social systems.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# トラップイオン格子手術における資源オーバーヘッドと到達率

Resource overheads and attainable rates for trapped-ion lattice surgery ( http://arxiv.org/abs/2406.18764v2 )

ライセンス: Link先を確認
Hudson Leone, Thinh Le, S. Srikara, Simon Devitt, (参考訳) 本研究では,空間的に分離されたイオン表面符号間の耐故障性格子手術に必要なイオン数の推定を行う。 さらに、論理量子ビット当たりの「通信イオン」を多数与えて、達成可能な格子手術率を決定する。 我々の分析は、症候群抽出サイクルの発生率に大きく依存するため、技術の現状を調査し、特定の技術的マイルストーンが満たされた場合、合理的に実現できる10ドルから1000ドルまでの3つのサイクルタイムを提案する。 その結果,最も低速な症例では数百個の資源イオンが必要であり,最速の場合では数十万近い資源イオンが必要であることが示唆された。 これらの禁止的な見積もりに寄与する主な要因は、イオンがトラップ間で結合できる制限速度である。 以上の結果から,トラップイオン量子コンピュータをスケールさせるためには,光カップリングの改善が急務であることが示唆された。

We present estimates for the number of ions needed to implement fault-tolerant lattice surgery between spatially separated trapped-ion surface codes. Additionally, we determine attainable lattice surgery rates given a number of dedicated "communication ions" per logical qubit. Because our analysis depends heavily on the rate that syndrome extraction cycles take place, we survey the state-of the art and propose three possible cycle times between $10$ and $1000 \mu s$ that we could reasonably see realised provided certain technological milestones are met. Consequently, our numerical results indicate that hundreds of resource ions will be needed for lattice surgery in the slowest case, while close to a hundred thousand will be needed in the fastest case. The main factor contributing to these prohibitive estimates is the limited rate that ions can be coupled across traps. Our results therefore indicate an urgent need for improved optical coupling in order for trapped-ion quantum computers to scale.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# パーソナライズされた拡散モデルにおけるショートカット学習の検証と予防

Investigating and Defending Shortcut Learning in Personalized Diffusion Models ( http://arxiv.org/abs/2406.18944v2 )

ライセンス: Link先を確認
Yixin Liu, Ruoxi Chen, Lichao Sun, (参考訳) パーソナライズされた拡散モデルは、訓練済みのテキスト・ツー・イメージ・モデルを適用して、最小限のトレーニングデータで特定のトピックの画像を生成することで人気を集めている。 しかし、これらのモデルは小さな逆境の摂動に弱いため、破損したデータセットのパフォーマンスが低下する。 このような脆弱性は、不正な生成を防ぐポートレートのような機密性の高い画像に、保護的な摂動を作らせるためにさらに活用されている。 これに対し, これらの摂動を除去し, 生成性能を維持するため, 拡散法に基づく浄化法が提案されている。 しかし、既存の作品では画像の浄化が過度に行われ、情報が失われる。 本稿では、ショートカット学習のレンズを通してパーソナライズされた拡散モデルの微調整過程について詳しく検討する。 また,既存の摂動法の操作機構を説明する仮説を提案し,CLIPをベースとした潜伏空間において,摂動画像が元のプロンプトから著しく逸脱していることを示す。 この微調整時のミスアライメントは、モデルがノイズパターンと識別子を関連付ける原因となり、性能が低下する。 これらの知見に基づき, 浄化によるトレーニング性能維持のための体系的アプローチを導入する。 提案手法は,まず画像の清浄化を行い,その意味を潜在空間で意味づける。 そして,ノイズパターンからクリーンなアイデンティティの学習を分離するために,負のトークンを用いた対照的な学習を導入し,適応的摂動に対する強い潜在能力を示す。 本研究は,パーソナライズされた拡散モデルにおけるショートカット学習の脆弱性を明らかにし,将来の保護摂動研究のためのしっかりとした評価枠組みを提供する。 コードはhttps://github.com/liuyixin-louis/DiffShortcut.comで入手できる。

Personalized diffusion models have gained popularity for adapting pre-trained text-to-image models to generate images of specific topics with minimal training data. However, these models are vulnerable to minor adversarial perturbations, leading to degraded performance on corrupted datasets. Such vulnerabilities are further exploited to craft protective perturbations on sensitive images like portraits that prevent unauthorized generation. In response, diffusion-based purification methods have been proposed to remove these perturbations and retain generation performance. However, existing works turn to over-purifying the images, which causes information loss. In this paper, we take a closer look at the fine-tuning process of personalized diffusion models through the lens of shortcut learning. And we propose a hypothesis explaining the manipulation mechanisms of existing perturbation methods, demonstrating that perturbed images significantly deviate from their original prompts in the CLIP-based latent space. This misalignment during fine-tuning causes models to associate noisy patterns with identifiers, resulting in performance degradation. Based on these insights, we introduce a systematic approach to maintain training performance through purification. Our method first purifies the images to realign them with their original semantic meanings in latent space. Then, we introduce contrastive learning with negative tokens to decouple the learning of clean identities from noisy patterns, which shows a strong potential capacity against adaptive perturbation. Our study uncovers shortcut learning vulnerabilities in personalized diffusion models and provides a firm evaluation framework for future protective perturbation research. Code is available at https://github.com/liuyixin-louis/DiffShortcut.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# YZS-model: Graph Convolutional NetworksとTransformer-Attentionに基づく有機医薬品溶解度予測モデル

YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention ( http://arxiv.org/abs/2406.19136v4 )

ライセンス: Link先を確認
Chenxu Wang, Haowei Ming, Jian He, Yao Lu, Junhong Chen, (参考訳) 薬物分子溶解性の正確な予測は、薬のADMEプロセスに影響を与える治療効果と安全性を決定するために不可欠である。 従来の溶解度予測技術は、しばしば分子トラクチャーの複雑な性質を捉えるのに失敗し、予測と実際の結果の間に顕著な違いをもたらす。 例えば、先進的な薬物様化合物構造に関する議論である。 ルシは環構造を持つ分子において重要な循環構造情報を取得する際の問題を強調した。 そこで本研究では,注目に基づくトランスフォーマー,Long Short-Term Memory (LSTM) ネットワーク,および可溶性予測の精度向上を目的としたGraph Convolutional Networks (GCN) を組み合わせた新しいディープラーニングフレームワークを提案する。 9,943の化合物のトレーニングセットと抗がん化合物データセットを用いた試験により, 相関係数0.59, 根平均角誤差0.57, ベンチマークモデルのスコア0.52(R^2$)と0.61(RMSE)を上回った。 追加の独立試験では, RMSEが1.05, RMSEが1.28, 相対精度が45.9%であった。 本研究は, 溶解度予測精度を向上させるためのディープラーニングの可能性を示すだけでなく, 薬物の設計と選択に関する新たな知見を提供する。 継続的な取り組みは、モデルアーキテクチャの最適化と、薬物開発プロセスのより良いサポートのためにそのアプリケーションの拡張に向けられ、薬物発見における深層学習の重要な役割を浮き彫りにする。

The accurate prediction of drug molecule solubility is essential for determining their therapeutic effectiveness and safety, influencing the drug's ADME processes. Traditional solubility prediction techniques often fail to capture the complex nature of molecular tructures, leading to notable deviations between predictions and actual results. For example, the Discussion on Advanced Drug-Like Compound Structures. Lusci highlighted issues in capturing crucial cyclic structural information in molecules with ring structures. To overcome this issue, our research introduces a novel deep learning framework combining attention-based transformers, Long Short-Term Memory (LSTM) networks, and Graph Convolutional Networks (GCN), aimed at enhancing the precision of solubility predictions. Utilizing a training set of 9,943 compounds and testing on an anticancer compound dataset, our method achieved a correlation coefficient ($R^2$) of 0.59 and a Root Mean Square Error (RMSE) of 0.57, which outperforms the benchmark models' scores of 0.52 ($R^2$) and 0.61 (RMSE). Importantly, in an additional independent test, our model significantly outperformed the baseline with an RMSE of 1.05 compared to 1.28, a relative accuracy improvement of 45.9%. This research not only demonstrates the vast potential of deep learning for improving solubility prediction accuracy but also offers novel insights for drug design and selection in the future. Continued efforts will be directed towards optimizing the model architecture and extending its application to better support the drug development process, underscoring the pivotal role of deep learning in drug discovery.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# 完全テスト時間適応のためのビジュアルコンディショニングの学習

Learning Visual Conditioning Tokens to Correct Domain Shift for Fully Test-time Adaptation ( http://arxiv.org/abs/2406.19341v3 )

ライセンス: Link先を確認
Yushun Tang, Shuoshuo Chen, Zhehan Kan, Yi Zhang, Qinghai Guo, Zhihai He, (参考訳) 完全なテスト時間適応は、深層ニューラルネットワークのクロスドメイン性能劣化問題に対処するために、推論段階での入力サンプルのシーケンシャル分析に基づいてネットワークモデルを適用することを目的としている。 変換器に基づく画像分類では、第1変圧器エンコーダ層のクラストークンを学習して、テスト時間適応時のターゲットサンプルのドメイン固有の特性をキャプチャすることができる。 この学習トークンは、入力画像パッチ埋め込みと組み合わせることで、トランスフォーマー符号化プロセス中に入力サンプルの特徴表現から徐々にドメイン固有の情報を除去し、異なるドメインにわたるソースモデルのテスト時間適応性能を大幅に向上させることができる。 このクラストークンをビジュアルコンディショニングトークン(VCT)と呼ぶ。 VCTの学習に成功するために,2段階の学習手法を提案する。 ベンチマークデータセットを用いた実験結果から,提案手法はテスト時間適応性能を最大1.9%向上させることができることがわかった。

Fully test-time adaptation aims to adapt the network model based on sequential analysis of input samples during the inference stage to address the cross-domain performance degradation problem of deep neural networks. This work is based on the following interesting finding: in transformer-based image classification, the class token at the first transformer encoder layer can be learned to capture the domain-specific characteristics of target samples during test-time adaptation. This learned token, when combined with input image patch embeddings, is able to gradually remove the domain-specific information from the feature representations of input samples during the transformer encoding process, thereby significantly improving the test-time adaptation performance of the source model across different domains. We refer to this class token as visual conditioning token (VCT). To successfully learn the VCT, we propose a bi-level learning approach to capture the long-term variations of domain-specific characteristics while accommodating local variations of instance-specific characteristics. Experimental results on the benchmark datasets demonstrate that our proposed bi-level visual conditioning token learning method is able to achieve significantly improved test-time adaptation performance by up to 1.9%.
翻訳日:2024-07-18 21:47:53 公開日:2024-07-17
# ScanReason: 推論機能を備えた3Dビジュアルグラウンドの強化

ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities ( http://arxiv.org/abs/2407.01525v3 )

ライセンス: Link先を確認
Chenming Zhu, Tai Wang, Wenwei Zhang, Kai Chen, Xihui Liu, (参考訳) 3次元の視覚的グラウンドリングでは大きな進歩があったが、現在のモデルでは、グラウンド化のために明示的なテキスト記述に依存しており、暗黙の指示から人間の意図を推論する能力が欠如している。 我々は3D推論基底と呼ばれる新しいタスクを提案し、新しいベンチマークScanReasonを導入し、推論とグラウンドの相乗化を必要とする5つの推論タイプから10万以上の質問応答位置ペアを提供する。 さらに,マルチモーダル大言語モデル(MLLM)による視覚中心推論モジュールと3次元接地モジュールから構成されるReGround3Dを設計し,拡張された幾何学的手法や3次元シーンの細部の詳細を振り返って,正確な物体位置を求める。 提案手法は, 推論において, 分岐推論と接地ステップにより, さらなる性能向上を図っている。 提案手法の有効性を検証したベンチマーク実験を行った。

Although great progress has been made in 3D visual grounding, current models still rely on explicit textual descriptions for grounding and lack the ability to reason human intentions from implicit instructions. We propose a new task called 3D reasoning grounding and introduce a new benchmark ScanReason which provides over 10K question-answer-location pairs from five reasoning types that require the synerization of reasoning and grounding. We further design our approach, ReGround3D, composed of the visual-centric reasoning module empowered by Multi-modal Large Language Model (MLLM) and the 3D grounding module to obtain accurate object locations by looking back to the enhanced geometry and fine-grained details from the 3D scenes. A chain-of-grounding mechanism is proposed to further boost the performance with interleaved reasoning and grounding steps during inference. Extensive experiments on the proposed benchmark validate the effectiveness of our proposed approach.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# 閉塞型シームレスセグメンテーション

Occlusion-Aware Seamless Segmentation ( http://arxiv.org/abs/2407.02182v2 )

ライセンス: Link先を確認
Yihong Cao, Jiaming Zhang, Hao Shi, Kunyu Peng, Yuhongxuan Zhang, Hui Zhang, Rainer Stiefelhagen, Kailun Yang, (参考訳) パノラマ画像は視野(FoV)を広げ、オクルージョンを意識した予測はシーンの理解を深め、ドメイン適応は視野領域をまたいで転送することができる。 本稿では,OASS(Occlusion-Aware Seamless Segmentation)という新たな課題を紹介し,これら3つの課題に同時に取り組む。 OASSをベンチマークするために、Blending Panoramic Amodal Seamless Segmentation(BlendPASS)のための新しい人間アノテーションデータセットを構築した。 さらに,狭いFoV,オクルージョン,ドメインギャップを一度に解き放つことを目的とした,UnmaskFormerを提案する。 具体的には、UnmaskFormerには、Unmasking Attention (UA) と Amodal-oriented Mix (AoMix) の重要な設計が含まれている。 BlendPASSデータセットの最先端性能を達成し、26.58%、mIoU43.66%という驚くべきmAPQに達した。 公共パノラマセマンティックセマンティックセグメンテーションデータセット、すなわちSynPASSとDensePASSでは、従来の手法よりも優れ、mIoUでそれぞれ45.34%と48.08%を得る。 新しいBlendPASSデータセットとソースコードはhttps://github.com/yihong-97/OASS.comで入手できる。

Panoramic images can broaden the Field of View (FoV), occlusion-aware prediction can deepen the understanding of the scene, and domain adaptation can transfer across viewing domains. In this work, we introduce a novel task, Occlusion-Aware Seamless Segmentation (OASS), which simultaneously tackles all these three challenges. For benchmarking OASS, we establish a new human-annotated dataset for Blending Panoramic Amodal Seamless Segmentation, i.e., BlendPASS. Besides, we propose the first solution UnmaskFormer, aiming at unmasking the narrow FoV, occlusions, and domain gaps all at once. Specifically, UnmaskFormer includes the crucial designs of Unmasking Attention (UA) and Amodal-oriented Mix (AoMix). Our method achieves state-of-the-art performance on the BlendPASS dataset, reaching a remarkable mAPQ of 26.58% and mIoU of 43.66%. On public panoramic semantic segmentation datasets, i.e., SynPASS and DensePASS, our method outperforms previous methods and obtains 45.34% and 48.08% in mIoU, respectively. The fresh BlendPASS dataset and our source code are available at https://github.com/yihong-97/OASS.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# エンド・ツー・エンド自動運転における効率的な核融合とタスクガイド埋め込み

Efficient Fusion and Task Guided Embedding for End-to-end Autonomous Driving ( http://arxiv.org/abs/2407.02878v2 )

ライセンス: Link先を確認
Yipin Guo, Yilin Lang, Qinyuan Ren, (参考訳) センサフュージョンと安全リスク予測の課題に対処するためには、模倣学習を活用する現代のクローズドループ自律走行ニューラルネットワークは、ニューラルネットワークを実行するために大量のパラメータと計算資源を必要とするのが普通である。 搭載車載コンピュータの制約された計算能力を考えると、EfficientFuserというコンパクトで強力なソリューションを導入する。 このアプローチでは、視覚情報抽出にEfficientViTを使用し、クロスアテンションを介して特徴マップを統合する。 その後、デコーダのみの変換器を使用して、複数の特徴のアマルガメーションを行う。 予測のために、学習可能なベクトルをトークンとして埋め込み、注意を通してタスクとセンサの特徴の関係を探索する。 CARLAシミュレーションプラットフォームで評価されたEfficientFuserは、パラメータの37.6%と計算の8.7%しか使用せず、運転スコアがわずか0.4%低い最先端の軽量な方法と比較して、顕著な効率性を示し、安全スコアは主要な安全向上手法に近づき、自動運転システムの実用的展開の有効性と可能性を示している。

To address the challenges of sensor fusion and safety risk prediction, contemporary closed-loop autonomous driving neural networks leveraging imitation learning typically require a substantial volume of parameters and computational resources to run neural networks. Given the constrained computational capacities of onboard vehicular computers, we introduce a compact yet potent solution named EfficientFuser. This approach employs EfficientViT for visual information extraction and integrates feature maps via cross attention. Subsequently, it utilizes a decoder-only transformer for the amalgamation of multiple features. For prediction purposes, learnable vectors are embedded as tokens to probe the association between the task and sensor features through attention. Evaluated on the CARLA simulation platform, EfficientFuser demonstrates remarkable efficiency, utilizing merely 37.6% of the parameters and 8.7% of the computations compared to the state-of-the-art lightweight method with only 0.4% lower driving score, and the safety score neared that of the leading safety-enhanced method, showcasing its efficacy and potential for practical deployment in autonomous driving systems.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# ゲノミクスにおける説明可能なAIのための意味的にリッチな局所データセット生成

Semantically Rich Local Dataset Generation for Explainable AI in Genomics ( http://arxiv.org/abs/2407.02984v3 )

ライセンス: Link先を確認
Pedro Barbosa, Rosina Savisaar, Alcides Fonseca, (参考訳) ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。 したがって、これらのモデルを解釈することで、下流の生物医学的応用をサポートする基礎となる生物学に関する新たな洞察が得られるかもしれない。 その複雑さのため、解釈可能な代理モデルは局所的な説明(例:単一インスタンス)のためにのみ構築できる。 しかし、これを実現するには、入力の近傍にデータセットを生成する必要がある。これは、モデルの予測にセマンティック変数を導入しながら、元のデータと構文的類似性を維持する必要がある。 この課題はDNAの複雑な配列と機能の関係のため困難である。 本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。 我々のカスタムドメイン誘導型個人表現は、構文的類似性を効果的に制約し、計算労力なしで多様性を促進する2つの代替フィットネス関数を提供する。 本手法はRNAスプライシング領域に適用し, 優れた多様性を実現し, 検索空間を探索する際のランダムなベースラインを著しく上回っている。 さらに、その一般化性を評価し、より大きなシーケンスに対するスケーラビリティを実証し、ベースラインよりも約30%改善する。

Black box deep learning models trained on genomic sequences excel at predicting the outcomes of different gene regulatory mechanisms. Therefore, interpreting these models may provide novel insights into the underlying biology, supporting downstream biomedical applications. Due to their complexity, interpretable surrogate models can only be built for local explanations (e.g., a single instance). However, accomplishing this requires generating a dataset in the neighborhood of the input, which must maintain syntactic similarity to the original data while introducing semantic variability in the model's predictions. This task is challenging due to the complex sequence-to-function relationship of DNA. We propose using Genetic Programming to generate datasets by evolving perturbations in sequences that contribute to their semantic diversity. Our custom, domain-guided individual representation effectively constrains syntactic similarity, and we provide two alternative fitness functions that promote diversity with no computational effort. Applied to the RNA splicing domain, our approach quickly achieves good diversity and significantly outperforms a random baseline in exploring the search space, as shown by our proof-of-concept, short RNA sequence. Furthermore, we assess its generalizability and demonstrate scalability to larger sequences, resulting in a ~30% improvement over the baseline.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# 一般ロバスト・ファンドス・フォトグラフィーによる高近視の視力損失推定

Generalized Robust Fundus Photography-based Vision Loss Estimation for High Myopia ( http://arxiv.org/abs/2407.03699v2 )

ライセンス: Link先を確認
Zipei Yan, Zhile Liang, Zhengji Liu, Shuai Wang, Rachel Ka-Man Chun, Jizhou Li, Chea-su Kee, Dong Liang, (参考訳) 高近視は、不可逆的な視力喪失のリスクを著しく増大させる。 従来のペリメトリベースの視野評価(VF)は、視覚的損失の体系的な定量化を提供するが、主観的かつ時間を要する。 結果として、VFを推定するための基礎写真を利用した機械学習モデルが、有望な代替手段として登場した。 しかし、変動性が高く、VFデータの可用性が限られているため、既存のVF推定モデルは、特に様々なセンターや人口にまたがるアウト・オブ・ディストリビューションデータに直面すると、うまく一般化することができない。 この課題に対処するため,本研究では,VF推定の分散ロバスト性を高めるための,新しいパラメータ効率フレームワークを提案する。 具体的には、高エントロピー特徴表現を学習し、ドメインギャップを効果的かつ効率的に緩和することを目的として、事前訓練された視覚モデルから特徴改善と適応のためのRefinement-by-Denoising (RED)モジュールを設計する。 本手法は, RMSE, MAE, および相関係数において, 内部および外部両方の検証において, 従来の手法よりも優れていた。 提案手法は, 内外気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道外気道内気道内気道内気道内気道内気道内気道内気道内気

High myopia significantly increases the risk of irreversible vision loss. Traditional perimetry-based visual field (VF) assessment provides systematic quantification of visual loss but it is subjective and time-consuming. Consequently, machine learning models utilizing fundus photographs to estimate VF have emerged as promising alternatives. However, due to the high variability and the limited availability of VF data, existing VF estimation models fail to generalize well, particularly when facing out-of-distribution data across diverse centers and populations. To tackle this challenge, we propose a novel, parameter-efficient framework to enhance the generalized robustness of VF estimation on both in- and out-of-distribution data. Specifically, we design a Refinement-by-Denoising (RED) module for feature refinement and adaptation from pretrained vision models, aiming to learn high-entropy feature representations and to mitigate the domain gap effectively and efficiently. Through independent validation on two distinct real-world datasets from separate centers, our method significantly outperforms existing approaches in RMSE, MAE and correlation coefficient for both internal and external validation. Our proposed framework benefits both in- and out-of-distribution VF estimation, offering significant clinical implications and potential utility in real-world ophthalmic practices.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# GraphCNNpred: グラフベースのディープラーニングシステムを用いた株式市場の予測指標

GraphCNNpred: A stock market indices prediction using a Graph based deep learning system ( http://arxiv.org/abs/2407.03760v2 )

ライセンス: Link先を確認
Yuhui Jin, (参考訳) 株式市場価格を予測するためのディープラーニング技術の応用は、データサイエンス分野において顕著で広く研究されているトピックである。 市場の動向を効果的に予測するためには、多様化したデータセットを活用することが不可欠である。 本稿では,グラフニューラルネットワークをベースとした畳み込みニューラルネットワーク(CNN)モデルを提案する。これはさまざまなデータソースに適用可能であり,NASDAQ, DJI, NYSE, RUSSELのインデックスの傾向を予測するための特徴を抽出する。 実験の結果,F測度の観点からは,ベースラインアルゴリズム上のすべての指標の予測性能を約4\% \text{to } 15\%$で改善した。 予測からトレーディングシミュレーションが生成され,シャープ比が3。

The application of deep learning techniques for predicting stock market prices is a prominent and widely researched topic in the field of data science. To effectively predict market trends, it is essential to utilize a diversified dataset. In this paper, we give a graph neural network based convolutional neural network (CNN) model, that can be applied on diverse source of data, in the attempt to extract features to predict the trends of indices of \text{S}\&\text{P} 500, NASDAQ, DJI, NYSE, and RUSSEL. The experiments show that the associated models improve the performance of prediction in all indices over the baseline algorithms by about $4\% \text{ to } 15\%$, in terms of F-measure. A trading simulation is generated from predictions and gained a Sharpe ratio of over 3.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# 視点を超えて: 連立多部表現による任意視点下でのロバストな3次元物体認識

Beyond Viewpoint: Robust 3D Object Recognition under Arbitrary Views through Joint Multi-Part Representation ( http://arxiv.org/abs/2407.03842v2 )

ライセンス: Link先を確認
Linlong Fan, Ye Huang, Yanqi Ge, Wen Li, Lixin Duan, (参考訳) 既存のビューベース手法は、事前定義された視点から3Dオブジェクトを認識するのに優れているが、任意の視点下での認識の探索は限られている。 これは、各オブジェクトが異なる視点の位置と量を持ち、それらのポーズが一致していないため、難しくて現実的な設定です。 しかし、グローバルな特徴表現を得るために複数のビュー特徴を集約するビューベース手法のほとんどは、任意のビュー下での3Dオブジェクト認識に対処することが困難である。 任意のビューからのアンアラインインプットのため、機能を堅牢に集約することは困難であり、パフォーマンスの低下につながります。 本稿では,これらの問題に対処するためのパートベース表現である新しいパート・アウェア・ネットワーク(PANet)を提案する。 この部分に基づく表現は、飛行機の翼や尾などの3Dオブジェクトの異なる部分のローカライズと理解を目的としている。 視点不変性や回転ロバスト性などの特性を持ち、任意の視点下での3次元物体認識問題に対処する上で有利である。 提案手法は, 任意の視点下での3次元物体認識のタスクにおいて, 既存のビューベースアグリゲーションベースラインよりも優れており, 固定的な視点法よりも優れていることを示す。

Existing view-based methods excel at recognizing 3D objects from predefined viewpoints, but their exploration of recognition under arbitrary views is limited. This is a challenging and realistic setting because each object has different viewpoint positions and quantities, and their poses are not aligned. However, most view-based methods, which aggregate multiple view features to obtain a global feature representation, hard to address 3D object recognition under arbitrary views. Due to the unaligned inputs from arbitrary views, it is challenging to robustly aggregate features, leading to performance degradation. In this paper, we introduce a novel Part-aware Network (PANet), which is a part-based representation, to address these issues. This part-based representation aims to localize and understand different parts of 3D objects, such as airplane wings and tails. It has properties such as viewpoint invariance and rotation robustness, which give it an advantage in addressing the 3D object recognition problem under arbitrary views. Our results on benchmark datasets clearly demonstrate that our proposed method outperforms existing view-based aggregation baselines for the task of 3D object recognition under arbitrary views, even surpassing most fixed viewpoint methods.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# gFlora:土壌微生物群集における機能的共応答群発見のためのトポロジー認識手法

gFlora: a topology-aware method to discover functional co-response groups in soil microbial communities ( http://arxiv.org/abs/2407.03897v2 )

ライセンス: Link先を確認
Nan Chen, Merlijn Schram, Doina Bucur, (参考訳) 機能的共応答群: 機能的変数に対する共応答効果(分類の総トポロジカルな存在を示す群の代表的特徴)の共応答群: 機能的共応答群: 機能的変数に対する共応答群: 機能的共応答群: 機能的共応答群。 現状の方法とは違って, 土壌微生物群集は, 分類群をノードとし, それらの関係(空間的および機能的生態学的側面の組合せ)をエッジ(関係の強さによる重み付け)として, 生態的共起ネットワークとしてモデル化する。 そこで我々は,この共起ネットワーク上のグラフ畳み込みを利用して,ネットワークトポロジが発見過程において考慮されるような,グループ間の共応答効果を得るために,gFloraと呼ばれる手法を設計する。 実地土壌微生物叢(細菌および線虫類)を用いて, gFlora の評価を行い, 最先端の方法と比較した。 gFloraは全ての評価指標でこれより優れており、これまで研究されていない分類の新たな機能的証拠を発見している。 グラフ畳み込みの段階は, 比較的少ない分類群(高い分類群への偏見を除去するため)にとって重要であり, 異なる属の細菌は共起ネットワークに分布するが, 相変わらず相互に密接な関係を持ち, トポロジカルに, 生態学的に異なる機能的役割を担っていることを示す。

We aim to learn the functional co-response group: a group of taxa whose co-response effect (the representative characteristic of the group showing the total topological abundance of taxa) co-responds (associates well statistically) to a functional variable. Different from the state-of-the-art method, we model the soil microbial community as an ecological co-occurrence network with the taxa as nodes (weighted by their abundance) and their relationships (a combination from both spatial and functional ecological aspects) as edges (weighted by the strength of the relationships). Then, we design a method called gFlora which notably uses graph convolution over this co-occurrence network to get the co-response effect of the group, such that the network topology is also considered in the discovery process. We evaluate gFlora on two real-world soil microbiome datasets (bacteria and nematodes) and compare it with the state-of-the-art method. gFlora outperforms this on all evaluation metrics, and discovers new functional evidence for taxa which were so far under-studied. We show that the graph convolution step is crucial to taxa with relatively low abundance (thus removing the bias towards taxa with higher abundance), and the discovered bacteria of different genera are distributed in the co-occurrence network but still tightly connected among themselves, demonstrating that topologically they fill different but collaborative functional roles in the ecological community.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# DotaMath: 数学的推論のためのコードアシストと自己補正による思考の分解

DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning ( http://arxiv.org/abs/2407.04078v3 )

ライセンス: Link先を確認
Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu, (参考訳) 大規模言語モデル(LLM)は、単純な数学問題に対処する上で驚くべき進歩を遂げてきたが、それでもより困難で複雑な数学的タスクに苦戦している。 本稿では,数理推論にコードアシストと自己補正を併用した思考分解システムであるDotaMathについて紹介する。 DotaMathモデルは複雑な数学的タスクに対処し、それらをより単純な論理的なサブタスクに分解し、これらのサブタスクを解決するためにコードを活用し、コードインタプリタからきめ細かいフィードバックを取得し、自己回帰と修正を行う。 GSM8KとMATHデータセットに多種多様な対話型ツール利用トラジェクトリを付加し、クエリ進化を利用することにより、574Kのクエリ応答対を持つDotaMathQAと呼ばれる命令微調整データセットを生成する。 そこで我々は,DotaMathQAの模倣学習を用いて一連のベースLLMをトレーニングし,様々なドメイン内およびドメイン外ベンチマークにおけるオープンソースLLMと比較して,優れた性能を実現するDotaMathモデルを作成した。 特にDotaMath-Deepseek-7Bは、競合するMATHデータセットで64.8%、GSM8Kで86.7%の優れたパフォーマンスを示している。 さらにDotaMath-Deepseek-7Bは、一連のドメイン内およびドメイン外ベンチマーク(Avg. 80.1%)で強い競争力を維持している。 今後,DotaMathパラダイムが複雑な数学的問題に対処するための新たな経路を開拓することを期待している。 私たちのコードはhttps://github.com/ChengpengLi1003/DotaMath.comで公開されています。

Large language models (LLMs) have made impressive progress in handling simple math problems, yet they still struggle with more challenging and complex mathematical tasks. In this paper, we introduce a series of LLMs that employs the Decomposition of thought with code assistance and self-correction for mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex mathematical tasks by decomposing them into simpler logical subtasks, leveraging code to solve these subtasks, obtaining fine-grained feedback from the code interpreter, and engaging in self-reflection and correction. By annotating diverse interactive tool-use trajectories and employing query evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning dataset called DotaMathQA with 574K query-response pairs. We train a series of base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models that achieve remarkable performance compared to open-source LLMs across various in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases an outstanding performance of 64.8% on the competitive MATH dataset and 86.7% on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward, we anticipate that the DotaMath paradigm will open new pathways for addressing intricate mathematical problems. Our code is publicly available at https://github.com/ChengpengLi1003/DotaMath.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# T2IShield:テキストと画像の拡散モデルによるバックドアの防御

T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models ( http://arxiv.org/abs/2407.04215v2 )

ライセンス: Link先を確認
Zhongqi Wang, Jie Zhang, Shiguang Shan, Xilin Chen, (参考訳) テキストから画像への拡散モデルは印象的な生成能力を示す一方で、悪意のあるトリガーによるモデル出力の操作を含むバックドア攻撃に対する脆弱性も示している。 本稿では,T2IShieldという総合防衛手法を初めて提案し,攻撃の検知,局所化,緩和を行う。 具体的には、バックドアトリガーによって引き起こされた横断アテンションマップに「Assimilation Phenomenon」が現れる。 この重要な知見に基づいて,Frobenius Norm Threshold TruncationとCovariance Discriminant Analysisの2つの効果的なバックドア検出手法を提案する。 さらに,バックドア・サンプル内にトリガを局在させるバイナリ検索手法を導入し,バックドア・アタックを緩和するための既存の概念編集手法の有効性を評価する。 2つの高度なバックドア攻撃シナリオに対する実証的評価は,提案手法の有効性を示す。 バックドアサンプル検出では、T2IShieldは計算コストの低い88.9$\%のF1スコアを達成している。 さらに、T2IShield は 86.4$\%$ のローカライゼーション F1 スコアを達成し、99$\%$ の有毒試料を無効化する。 コードはhttps://github.com/Robin-WZQ/T2IShieldで公開されている。

While text-to-image diffusion models demonstrate impressive generation capabilities, they also exhibit vulnerability to backdoor attacks, which involve the manipulation of model outputs through malicious triggers. In this paper, for the first time, we propose a comprehensive defense method named T2IShield to detect, localize, and mitigate such attacks. Specifically, we find the "Assimilation Phenomenon" on the cross-attention maps caused by the backdoor trigger. Based on this key insight, we propose two effective backdoor detection methods: Frobenius Norm Threshold Truncation and Covariance Discriminant Analysis. Besides, we introduce a binary-search approach to localize the trigger within a backdoor sample and assess the efficacy of existing concept editing methods in mitigating backdoor attacks. Empirical evaluations on two advanced backdoor attack scenarios show the effectiveness of our proposed defense method. For backdoor sample detection, T2IShield achieves a detection F1 score of 88.9$\%$ with low computational cost. Furthermore, T2IShield achieves a localization F1 score of 86.4$\%$ and invalidates 99$\%$ poisoned samples. Codes are released at https://github.com/Robin-WZQ/T2IShield.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# アンロックされたテキストと視覚の知恵: テキストと画像からの包括的誘導によるオープンボキャブラリ3次元物体検出

Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image ( http://arxiv.org/abs/2407.05256v2 )

ライセンス: Link先を確認
Pengkun Jiao, Na Zhao, Jingjing Chen, Yu-Gang Jiang, (参考訳) Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーンで目に見えないものの両方をローカライズし、認識することを目的としている。 言語および視覚基盤モデルは、豊富なトレーニングデータで様々なオープン語彙タスクを扱うことに成功しているが、OV-3DDetは、トレーニングデータの可用性が限られているため、大きな課題に直面している。 いくつかの先駆的な取り組みは、視覚言語モデル(VLM)の知識をOV-3DDet学習に統合しているが、これらの基礎モデルの潜在能力は、まだ十分に活用されていない。 本稿では,言語と視覚基盤モデルを活用することで,オープンな3次元検出課題に取り組むために,テキストと視覚の知恵を解放する。 視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。 具体的には、画像中の物体のゼロショット発見を可能にするために、物体検出視覚基盤モデルを使用し、初期シードとして機能し、新しい3Dオブジェクトを特定するためのフィルタリングガイダンスを提供する。 さらに,3次元空間を強力な視覚言語空間に整合させるために,実例,カテゴリ,シーンレベルでのVLMを用いて3次元特徴空間を視覚言語特徴空間に整合させる階層的アライメント手法を導入する。 広範にわたる実験を通じて,実世界のシナリオにおけるオープンな3次元物体検出の進展における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。

Open-vocabulary 3D object detection (OV-3DDet) aims to localize and recognize both seen and previously unseen object categories within any new 3D scene. While language and vision foundation models have achieved success in handling various open-vocabulary tasks with abundant training data, OV-3DDet faces a significant challenge due to the limited availability of training data. Although some pioneering efforts have integrated vision-language models (VLM) knowledge into OV-3DDet learning, the full potential of these foundational models has yet to be fully exploited. In this paper, we unlock the textual and visual wisdom to tackle the open-vocabulary 3D detection task by leveraging the language and vision foundation models. We leverage a vision foundation model to provide image-wise guidance for discovering novel classes in 3D scenes. Specifically, we utilize a object detection vision foundation model to enable the zero-shot discovery of objects in images, which serves as the initial seeds and filtering guidance to identify novel 3D objects. Additionally, to align the 3D space with the powerful vision-language space, we introduce a hierarchical alignment approach, where the 3D feature space is aligned with the vision-language feature space using a pre-trained VLM at the instance, category, and scene levels. Through extensive experimentation, we demonstrate significant improvements in accuracy and generalization, highlighting the potential of foundation models in advancing open-vocabulary 3D object detection in real-world scenarios.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# LaSe-E2V:言語誘導型セマンティック・アウェア・イベント・ビデオ再構成を目指して

LaSe-E2V: Towards Language-guided Semantic-Aware Event-to-Video Reconstruction ( http://arxiv.org/abs/2407.05547v3 )

ライセンス: Link先を確認
Kanghao Chen, Hangyu Li, JiaZhou Zhou, Zeyu Wang, Lin Wang, (参考訳) イベントカメラは、標準カメラと比較して低レイテンシ、高時間分解能、高ダイナミックレンジ(HDR)などの利点を利用する。 画像パラダイムの相違により、イベント・ツー・ビデオ(E2V)の再構築が主流となり、イベントベースと標準的なコンピュータビジョンが橋渡しされる。 しかし、イベントカメラは、エッジとモーションの情報のみをローカルで検出する、本質的に不適切な性質のため、このタスクは依然として困難である。 その結果、再構成されたビデオは、主にイベントデータのあいまいな意味論によって引き起こされる、アーティファクトや地域的曖昧さに悩まされることが多い。 本稿では,言語は自然に豊富な意味情報を伝達し,E2V再構成のセマンティック一貫性を確保するのに驚くほど優れていることを示す。 そこで本稿では,テキスト条件拡散モデルを用いて,言語誘導の観点から意味認識による高品質なE2V再構築を実現する,LaSe-E2Vという新しいフレームワークを提案する。 しかし、拡散モデル固有の多様性とランダム性のため、E2V再構成のための空間的・時間的整合性を実現するために直接適用することは不可能である。 そこで,まずイベント誘導時空間アテンション(ESA)モジュールを提案する。 次に、時間的コヒーレンスを確保するためのイベント対応マスクロスと、空間的一貫性を高めるためのノイズ初期化戦略を導入する。 イベントテキストとビデオのペアデータがないため、既存のE2Vデータセットを集約し、トレーニングと評価のためにタグ付けモデルを使用してテキスト記述を生成する。 様々な難解なシナリオ(例えば、高速な動き、低光)をカバーする3つのデータセットの大規模な実験は、我々の手法の優位性を実証している。

Event cameras harness advantages such as low latency, high temporal resolution, and high dynamic range (HDR), compared to standard cameras. Due to the distinct imaging paradigm shift, a dominant line of research focuses on event-to-video (E2V) reconstruction to bridge event-based and standard computer vision. However, this task remains challenging due to its inherently ill-posed nature: event cameras only detect the edge and motion information locally. Consequently, the reconstructed videos are often plagued by artifacts and regional blur, primarily caused by the ambiguous semantics of event data. In this paper, we find language naturally conveys abundant semantic information, rendering it stunningly superior in ensuring semantic consistency for E2V reconstruction. Accordingly, we propose a novel framework, called LaSe-E2V, that can achieve semantic-aware high-quality E2V reconstruction from a language-guided perspective, buttressed by the text-conditional diffusion models. However, due to diffusion models' inherent diversity and randomness, it is hardly possible to directly apply them to achieve spatial and temporal consistency for E2V reconstruction. Thus, we first propose an Event-guided Spatiotemporal Attention (ESA) module to condition the event data to the denoising pipeline effectively. We then introduce an event-aware mask loss to ensure temporal coherence and a noise initialization strategy to enhance spatial consistency. Given the absence of event-text-video paired data, we aggregate existing E2V datasets and generate textual descriptions using the tagging models for training and evaluation. Extensive experiments on three datasets covering diverse challenging scenarios (e.g., fast motion, low light) demonstrate the superiority of our method.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# HTD-Mamba:ピラミッド状態空間モデルによる効率的なハイパースペクトルターゲット検出

HTD-Mamba: Efficient Hyperspectral Target Detection with Pyramid State Space Model ( http://arxiv.org/abs/2407.06841v2 )

ライセンス: Link先を確認
Dunbin Shen, Xuanbing Zhu, Jiacheng Tian, Jianjun Liu, Zhenrong Du, Hongyu Wang, Xiaorui Ma, (参考訳) ハイパースペクトル目標検出(HTD)は、複雑な背景からの興味の対象をピクセルレベルで特定し、地球観測において重要な役割を果たす。 しかし、HTDは事前知識やスペクトルの変動が限られており、不適合なモデルや信頼性の低い性能に直面する。 これらの課題に対処するために,HTD-Mambaというピラミッド状態空間モデル(SSM)を用いた効率的な自己教師型HTD手法を提案する。 具体的には、十分なトレーニングサンプルを取得し、空間的文脈情報を活用するために、パッチ内の周囲のすべてのピクセルを中心画素の変換ビューに符号化する空間符号化スペクトル拡張手法を提案する。 さらに,大域的帯域相関を探索するために,画素を連続的なグループワイドスペクトル埋め込みに分割し,スペクトル列の長距離依存性を線形複雑度でモデル化するために初めてMambaをHTDに導入する。 さらに、スペクトル変動を緩和し、ロバスト表現を高めるために、多分解能スペクトル固有特徴を捕捉・融合するバックボーンとしてピラミッドSSMを提案する。 4つの公開データセットで行った大規模な実験により,提案手法は定量評価と定性評価の両方において最先端の手法より優れていることが示された。 コードは \url{https://github.com/shendb2022/HTD-Mamba} で公開されている。

Hyperspectral target detection (HTD) identifies objects of interest from complex backgrounds at the pixel level, playing a vital role in Earth observation. However, HTD faces challenges due to limited prior knowledge and spectral variation, leading to underfitting models and unreliable performance. To address these challenges, this paper proposes an efficient self-supervised HTD method with a pyramid state space model (SSM), named HTD-Mamba, which employs spectrally contrastive learning to distinguish between target and background based on the similarity measurement of intrinsic features. Specifically, to obtain sufficient training samples and leverage spatial contextual information, we propose a spatial-encoded spectral augmentation technique that encodes all surrounding pixels within a patch into a transformed view of the center pixel. Additionally, to explore global band correlations, we divide pixels into continuous group-wise spectral embeddings and introduce Mamba to HTD for the first time to model long-range dependencies of the spectral sequence with linear complexity. Furthermore, to alleviate spectral variation and enhance robust representation, we propose a pyramid SSM as a backbone to capture and fuse multiresolution spectral-wise intrinsic features. Extensive experiments conducted on four public datasets demonstrate that the proposed method outperforms state-of-the-art methods in both quantitative and qualitative evaluations. Code is available at \url{https://github.com/shendb2022/HTD-Mamba}.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# 物理世界とサイバー空間の整合性: 体操AIに関する包括的調査

Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI ( http://arxiv.org/abs/2407.06886v3 )

ライセンス: Link先を確認
Yang Liu, Weixing Chen, Yongjie Bai, Jingzhou Luo, Xinshuai Song, Kaixuan Jiang, Zhida Li, Ganlong Zhao, Junyi Lin, Guanbin Li, Wen Gao, Liang Lin, (参考訳) Embodied Artificial Intelligence (Embodied AI)は、AGI(Artificial General Intelligence)を達成するために不可欠であり、サイバースペースと物理世界を橋渡しする様々なアプリケーションの基盤として機能する。 近年,MLM(Multi-modal Large Models)やWM(World Models)の出現が注目されている。 しかし、MLMの時代には、Embodied AIに関する包括的な調査は行われていない。 本調査では,Embodied AIの最近の進歩を包括的に調査する。 まず,ロボットとシミュレータの代表的な研究の最前線をナビゲートし,研究の焦点とその限界を十分に理解する。 そして、主な研究対象を4つ分析する。 1)知覚の具体化。 2) 相互作用の具体化。 3)具体化剤、及び 4)シム・トゥ・リアルな適応、最先端の手法、必須パラダイム、包括的なデータセットを網羅する。 さらに,仮想および実実施エージェントにおけるMLMの複雑さを考察し,動的デジタルおよび物理環境における相互作用を促進することの重要性を強調した。 最後に、具体化AIの課題と限界を要約し、今後の方向性について論じる。 この調査が研究コミュニティの基礎的な参考として役立ち、継続的なイノベーションを刺激することを期待しています。 関連するプロジェクトはhttps://github.com/HCPLab-SYSU/Embodied_AI_Paper_Listにある。

Embodied Artificial Intelligence (Embodied AI) is crucial for achieving Artificial General Intelligence (AGI) and serves as a foundation for various applications that bridge cyberspace and the physical world. Recently, the emergence of Multi-modal Large Models (MLMs) and World Models (WMs) have attracted significant attention due to their remarkable perception, interaction, and reasoning capabilities, making them a promising architecture for the brain of embodied agents. However, there is no comprehensive survey for Embodied AI in the era of MLMs. In this survey, we give a comprehensive exploration of the latest advancements in Embodied AI. Our analysis firstly navigates through the forefront of representative works of embodied robots and simulators, to fully understand the research focuses and their limitations. Then, we analyze four main research targets: 1) embodied perception, 2) embodied interaction, 3) embodied agent, and 4) sim-to-real adaptation, covering the state-of-the-art methods, essential paradigms, and comprehensive datasets. Additionally, we explore the complexities of MLMs in virtual and real embodied agents, highlighting their significance in facilitating interactions in dynamic digital and physical environments. Finally, we summarize the challenges and limitations of embodied AI and discuss their potential future directions. We hope this survey will serve as a foundational reference for the research community and inspire continued innovation. The associated project can be found at https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List.
翻訳日:2024-07-18 21:38:02 公開日:2024-07-17
# ステレオ画像からのカテゴリーレベルの物体検出・ポーズ推定・再構成

Category-level Object Detection, Pose Estimation and Reconstruction from Stereo Images ( http://arxiv.org/abs/2407.06984v2 )

ライセンス: Link先を確認
Chuanrui Zhang, Yonggen Ling, Minglei Lu, Minghan Qin, Haoqian Wang, (参考訳) 本研究では,物質特性の異なる日常的な物体(拡散,特異,透明,混合)を操作するための3次元物体理解タスクについて検討する。 既存の単分子法とRGB-D法は、欠落または不正確な深さ測定によるスケールの曖昧さに悩まされている。 ステレオ画像からのカテゴリーレベルの物体検出とポーズ推定と再構成のための一段階的アプローチであるCODERSを提案する。 パイプラインの基部はステレオ画像特徴と3D位置情報を組み合わせた暗黙のステレオマッチングモジュールである。 このモジュールと以下の変換デコーダアーキテクチャを組み合わせることで、ロボット操作に必要な複数のタスクをエンドツーエンドで学習することが可能になる。 我々のアプローチは、公開TODデータセットにおける競合するすべてのメソッドを著しく上回ります。 さらに、シミュレーションデータに基づいて訓練されたCODERSは、実世界のロボット操作実験において、目に見えないカテゴリレベルのオブジェクトインスタンスによく一般化する。 私たちのデータセット、コード、デモはプロジェクトのページで公開されます。

We study the 3D object understanding task for manipulating everyday objects with different material properties (diffuse, specular, transparent and mixed). Existing monocular and RGB-D methods suffer from scale ambiguity due to missing or imprecise depth measurements. We present CODERS, a one-stage approach for Category-level Object Detection, pose Estimation and Reconstruction from Stereo images. The base of our pipeline is an implicit stereo matching module that combines stereo image features with 3D position information. Concatenating this presented module and the following transform-decoder architecture leads to end-to-end learning of multiple tasks required by robot manipulation. Our approach significantly outperforms all competing methods in the public TOD dataset. Furthermore, trained on simulated data, CODERS generalize well to unseen category-level object instances in real-world robot manipulation experiments. Our dataset, code, and demos will be available on our project page.
翻訳日:2024-07-18 21:28:12 公開日:2024-07-17
# 静的・記号解析を用いたUEFI脆弱性信号生成

UEFI Vulnerability Signature Generation using Static and Symbolic Analysis ( http://arxiv.org/abs/2407.07166v2 )

ライセンス: Link先を確認
Md Shafiuzzaman, Achintya Desai, Laboni Sarker, Tevfik Bultan, (参考訳) 2006年にメジャーリリースされて以来、Unified Extensible Firmware Interface (UEFI) はBIOSに代わり、コンピュータのハードウェアとオペレーティングシステムにインターフェースするための業界標準となっている。 UEFIはシステムカーネルを含む他のソフトウェアコンポーネントよりも、システムリソースへの特権的なセキュリティアクセスがある。 したがって、UEFIの脆弱性の特定と識別は、コンピュータセキュリティにとって極めて重要である。 しかし、UEFI脆弱性の自動検出とキャラクタリゼーションは難しい問題である。 静的脆弱性解析技術はスケーラブルだが精度は乏しく(多くの偽陽性を報告している)、シンボリック解析技術は正確だが、パスの爆発や制約解決のコストによるスケーラビリティの問題によって妨げられている。 本稿では,STASE(Static Analysis Guided Symbolic Execution)と呼ばれる手法を紹介する。 まず、LLVMビットコードのルールベースの静的脆弱性分析から始め、シンボリック実行のための潜在的な脆弱性ターゲットを特定する。 次に、各ターゲットにシンボル実行を集中させて、正確な脆弱性検出と署名生成を実現する。 STASEは、再利用可能な脆弱性ルールと攻撃者が制御する入力のマニュアル仕様に依存している。 しかし、これはシンボル実行プロセスのガイドとなるハーネスの生成を自動化し、シンボル実行のユーザビリティとスケーラビリティに対処する。 我々はUEFIコードベースの実装にSTASEを実装し,適用した。 STASEは、最近報告されたPixieFail脆弱性と、TianocoreのEDKIIコードベースの13の新しい脆弱性を検知し、9つのうち5つで脆弱性シグネチャを生成する。

Since its major release in 2006, the Unified Extensible Firmware Interface (UEFI) has become the industry standard for interfacing a computer's hardware and operating system, replacing BIOS. UEFI has higher privileged security access to system resources than any other software component, including the system kernel. Hence, identifying and characterizing vulnerabilities in UEFI is extremely important for computer security. However, automated detection and characterization of UEFI vulnerabilities is a challenging problem. Static vulnerability analysis techniques are scalable but lack precision (reporting many false positives), whereas symbolic analysis techniques are precise but are hampered by scalability issues due to path explosion and the cost of constraint solving. In this paper, we introduce a technique called STatic Analysis guided Symbolic Execution (STASE), which integrates both analysis approaches to leverage their strengths and minimize their weaknesses. We begin with a rule-based static vulnerability analysis on LLVM bitcode to identify potential vulnerability targets for symbolic execution. We then focus symbolic execution on each target to achieve precise vulnerability detection and signature generation. STASE relies on the manual specification of reusable vulnerability rules and attacker-controlled inputs. However, it automates the generation of harnesses that guide the symbolic execution process, addressing the usability and scalability of symbolic execution, which typically requires manual harness generation to reduce the state space. We implemented and applied STASE to the implementations of UEFI code base. STASE detects and generates vulnerability signatures for 5 out of 9 recently reported PixieFail vulnerabilities and 13 new vulnerabilities in Tianocore's EDKII codebase.
翻訳日:2024-07-18 21:28:12 公開日:2024-07-17
# MIGS:テンソル分解による多密度ガウス平滑化

MIGS: Multi-Identity Gaussian Splatting via Tensor Decomposition ( http://arxiv.org/abs/2407.07284v2 )

ライセンス: Link先を確認
Aggelina Chatziagapi, Grigorios G. Chrysos, Dimitris Samaras, (参考訳) MIGS(Multi-Identity Gaussian Splatting)は、単眼ビデオのみを用いて、複数のアイデンティティの1つの神経表現を学習する新しい手法である。 人間のアバターに対する最近の3次元ガウススプラッティング(3DGS)アプローチは、同一性ごとの最適化を必要とする。 しかし、多元性表現の学習は、任意のポーズの下で人間を頑健にアニメーションする利点を示す。 本稿では,学習可能な3DGSパラメータをすべて組み合わせた高次テンソルの構築を提案する。 低ランク構造を仮定してテンソルを分解することにより、複数の対象の複雑な剛性および非剛性変形を統一ネットワークでモデル化し、パラメータの総数を大幅に削減する。 提案手法は,すべてのトレーニングアイデンティティからの情報を活用し,未確認のポーズで頑健なアニメーションを実現し,既存のアプローチより優れている。 未確認のアイデンティティを学習するために拡張することもできる。

We introduce MIGS (Multi-Identity Gaussian Splatting), a novel method that learns a single neural representation for multiple identities, using only monocular videos. Recent 3D Gaussian Splatting (3DGS) approaches for human avatars require per-identity optimization. However, learning a multi-identity representation presents advantages in robustly animating humans under arbitrary poses. We propose to construct a high-order tensor that combines all the learnable 3DGS parameters for all the training identities. By assuming a low-rank structure and factorizing the tensor, we model the complex rigid and non-rigid deformations of multiple subjects in a unified network, significantly reducing the total number of parameters. Our proposed approach leverages information from all the training identities and enables robust animation under challenging unseen poses, outperforming existing approaches. It can also be extended to learn unseen identities.
翻訳日:2024-07-18 21:28:12 公開日:2024-07-17
# 衝突を意識した3次元セグメンテーション事前学習のための非接触スイープ探索

Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining ( http://arxiv.org/abs/2407.07465v2 )

ライセンス: Link先を確認
Tianfang Sun, Zhizhong Zhang, Xin Tan, Yanyun Qu, Yuan Xie, (参考訳) LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。 しかし、このフレームワークには2つの問題がある。 1) 単独のキーフレームをトレーニングに使用する。 例えば、nuScenesでは、大量のLiDARとカメラフレームが未使用のままであり、事前訓練されたネットワークの表現能力を制限している。 2) コントラッシブ・ロスは, 同一のセマンティクスを持つ点や画像領域を, 異なるフレームから誤って距離を置き, 学習したプレゼンテーションのセマンティクスの整合性を阻害する。 本稿では、未探索フレームからLiDAR-画像ペアを慎重に選択し、元のトレーニングセットを豊かにするための、ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。 タイムスタンプとVFMのセマンティック先行情報を用いて、よく同期したトレーニングペアを特定し、多様な内容のサンプルを発見する。 さらに,VFMのセマンティックマスクラベルを用いて,相互・内部のコントラストを意識したコントラスト損失を設計し,セマンティックな類似点や画像領域のコントラストを回避する。 提案手法は, 3次元セマンティックセマンティックセマンティックセマンティクスにおいて, nuScenes, SemanticKITTI, Waymoの3次元セマンティックセマンティクスを, mIoUでは+3.0\%, +3.0\%, +3.3\%と, 既存の最先端プレトレーニングフレームワークを常に上回っている。 さらに, 本手法は, 異なる3次元バックボーンおよび非VFMモデルにより生成される典型的なセマンティックマスクに対する適応的な一般化を示す。

LiDAR-camera 3D representation pretraining has shown significant promise for 3D perception tasks and related applications. However, two issues widely exist in this framework: 1) Solely keyframes are used for training. For example, in nuScenes, a substantial quantity of unpaired LiDAR and camera frames remain unutilized, limiting the representation capabilities of the pretrained network. 2) The contrastive loss erroneously distances points and image regions with identical semantics but from different frames, disturbing the semantic consistency of the learned presentations. In this paper, we propose a novel Vision-Foundation-Model-driven sample exploring module to meticulously select LiDAR-Image pairs from unexplored frames, enriching the original training set. We utilized timestamps and the semantic priors from VFMs to identify well-synchronized training pairs and to discover samples with diverse content. Moreover, we design a cross- and intra-modal conflict-aware contrastive loss using the semantic mask labels of VFMs to avoid contrasting semantically similar points and image regions. Our method consistently outperforms existing state-of-the-art pretraining frameworks across three major public autonomous driving datasets: nuScenes, SemanticKITTI, and Waymo on 3D semantic segmentation by +3.0\%, +3.0\%, and +3.3\% in mIoU, respectively. Furthermore, our approach exhibits adaptable generalization to different 3D backbones and typical semantic masks generated by non-VFM models.
翻訳日:2024-07-18 21:28:12 公開日:2024-07-17
# SUMix: セマンティック情報と不確実情報との混成

SUMix: Mixup with Semantic and Uncertain Information ( http://arxiv.org/abs/2407.07805v2 )

ライセンス: Link先を確認
Huafeng Qin, Xin Jin, Hongyu Zhu, Hongchao Liao, Mounîm A. El-Yacoubi, Xinbo Gao, (参考訳) ディープニューラルネットワークの一般化能力を改善するために、様々なディープラーニングタスクにミックスアップデータ拡張アプローチが適用されている。 CutMixやSaliencyMixなど、既存のアプローチでは、あるイメージのパッチを別のイメージのパッチにランダムに置き換えて、混合イメージを生成する。 同様に、対応するラベルは、固定比$\lambda$ by lで線形に結合される。 2つの画像中のオブジェクトは混合プロセス中に重複する可能性があるため、混合サンプルで意味情報が破損する。 この場合、混合画像は混合ラベル情報と一致しない。 さらに、このようなラベルはディープラーニングモデルのトレーニングを誤解させ、結果としてパフォーマンスが低下する可能性がある。 そこで我々は,SUMixという新しい手法を提案し,混合率と混合試料の不確かさを学習した。 まず、正確な混合比を計算するために、学習可能な類似度関数を設計する。 第2に,混合試料の不確かさをモデル化するための正規化用語としてアプローチを検討する。 我々は5つの画像ベンチマーク実験を行い、その実験結果から、異なるカットベース混合手法による分類器の性能向上が可能であることが示唆された。 ソースコードはhttps://github.com/JinXins/SUMix.comで入手できる。

Mixup data augmentation approaches have been applied for various tasks of deep learning to improve the generalization ability of deep neural networks. Some existing approaches CutMix, SaliencyMix, etc. randomly replace a patch in one image with patches from another to generate the mixed image. Similarly, the corresponding labels are linearly combined by a fixed ratio $\lambda$ by l. The objects in two images may be overlapped during the mixing process, so some semantic information is corrupted in the mixed samples. In this case, the mixed image does not match the mixed label information. Besides, such a label may mislead the deep learning model training, which results in poor performance. To solve this problem, we proposed a novel approach named SUMix to learn the mixing ratio as well as the uncertainty for the mixed samples during the training process. First, we design a learnable similarity function to compute an accurate mix ratio. Second, an approach is investigated as a regularized term to model the uncertainty of the mixed samples. We conduct experiments on five image benchmarks, and extensive experimental results imply that our method is capable of improving the performance of classifiers with different cutting-based mixup approaches. The source code is available at https://github.com/JinXins/SUMix.
翻訳日:2024-07-18 21:28:12 公開日:2024-07-17
# バックドアグラフ凝縮

Backdoor Graph Condensation ( http://arxiv.org/abs/2407.11025v2 )

ライセンス: Link先を確認
Jiahao Wu, Ning Lu, Zeiyu Dai, Wenqi Fan, Shengcai Liu, Qing Li, Ke Tang, (参考訳) 近年,グラフニューラルネットワーク(GNN)のトレーニング効率を向上させるために,グラフ凝縮が主流となっている。 これは、大きなグラフを、この小さな合成グラフで訓練されたGNNが、大きなグラフで訓練されたGNNに匹敵する性能を達成できるような、小さなグラフに凝縮する。 しかし、既存のグラフ凝縮の研究は主にグラフサイズとGNNの性能(モデルユーティリティ)の最良のトレードオフに焦点を当てているが、グラフ凝縮のセキュリティ問題は研究されていない。 この研究ギャップを埋めるために,バックドアグラフ凝縮の課題を提案する。 グラフバックドア攻撃は広く研究されているが、グラフ凝縮に既存のグラフバックドア手法を適用することは実用的ではない。 これらの問題を緩和するために、グラフ凝縮に対するバックドアアタックの2つの主要な目的を紹介します。 1)トリガーの注入は凝縮グラフの品質に影響を与えず、その上で訓練されたGNNの実用性を維持する。 2) トリガーの有効性は, 凝縮過程を通じて維持され, 高い攻撃成功率を達成できる。 目的を追求するため,BGCと呼ばれるグラフ凝縮に対する最初のバックドア攻撃を考案した。 具体的には、凝縮中にトリガーを注入し、効果的な攻撃を保証するためにトリガーを反復的に更新する。 さらに, トリガが凝縮グラフの品質に与える影響を最小限に抑えるために, 有毒ノード選択モジュールを提案する。 大規模な実験は、我々の攻撃の有効性を実証している。 BGCは高い攻撃成功率(1.0に近づいた)と優れたモデルユーティリティをすべてのケースで達成する。 さらに, 本手法の複数の防御方法に対するレジリエンスを実証した。 最後に,攻撃性能に影響を与える要因を総合的に分析する。

Recently, graph condensation has emerged as a prevalent technique to improve the training efficiency for graph neural networks (GNNs). It condenses a large graph into a small one such that a GNN trained on this small synthetic graph can achieve comparable performance to a GNN trained on a large graph. However, while existing graph condensation studies mainly focus on the best trade-off between graph size and the GNNs' performance (model utility), the security issues of graph condensation have not been studied. To bridge this research gap, we propose the task of backdoor graph condensation. While graph backdoor attacks have been extensively explored, applying existing graph backdoor methods for graph condensation is not practical since they can undermine the model utility and yield low attack success rate. To alleviate these issues, we introduce two primary objectives for backdoor attacks against graph condensation: 1) the injection of triggers cannot affect the quality of condensed graphs, maintaining the utility of GNNs trained on them; and 2) the effectiveness of triggers should be preserved throughout the condensation process, achieving high attack success rate. To pursue the objectives, we devise the first backdoor attack against graph condensation, denoted as BGC. Specifically, we inject triggers during condensation and iteratively update the triggers to ensure effective attacks. Further, we propose a poisoned node selection module to minimize the influence of triggers on condensed graphs' quality. The extensive experiments demonstrate the effectiveness of our attack. BGC achieves a high attack success rate (close to 1.0) and good model utility in all cases. Furthermore, the results demonstrate our method's resilience against multiple defense methods. Finally, we conduct comprehensive studies to analyze the factors that influence the attack performance.
翻訳日:2024-07-18 21:28:12 公開日:2024-07-17
# クーポン割当における即時収益の均衡と今後のオフ・ポリティ・アセスメント

Balancing Immediate Revenue and Future Off-Policy Evaluation in Coupon Allocation ( http://arxiv.org/abs/2407.11039v2 )

ライセンス: Link先を確認
Naoki Nishimura, Ken Kobayashi, Kazuhide Nakata, (参考訳) クーポンの割り当ては顧客の購入を加速させ、収益を増大させる。 しかし、即時収益を最大化するための現在の最適政策の活用と、外部評価(OPE)を通じて将来の政策改善のためのデータ収集のための代替政策の探求の間には、根本的なトレードオフが生じる。 オンラインA/Bテストは、新しいポリシーを検証することができるが、短期的な収益を損なうリスクがある。 逆に、搾取政策のみに頼ることは、将来の政策を確実に見積り、拡張する能力を妨げます。 このトレードオフのバランスをとるために,モデルに基づく収益最大化政策とデータ収集のためのランダム化探索政策を組み合わせた新しいアプローチを提案する。 本フレームワークは、これらの2つの政策の混合比率を柔軟に調整し、短期収益と今後の政策改善のバランスを最適化する。 モデルに基づく収益最大化政策とデータ収集のためのランダム化探索政策との最適混合比を決定する問題を定式化する。 我々は,合成データと実世界のデータの両方を用いて,提案した混合政策の有効性を実証的に検証した。 1)データ収集と収益のトレードオフを柔軟に調整し、決定的・確率的な政策を組み合わせた混合政策を実証する。 2) 最適混合比問題を多目的最適化として定式化し, このトレードオフの定量的評価を可能にする。 混合比率を最適化することにより、企業は収益を最大化し、信頼性の高い将来のOPEと政策改善を保証できる。 この枠組みは、探査と探査のトレードオフが関係するあらゆる文脈に適用できる。

Coupon allocation drives customer purchases and boosts revenue. However, it presents a fundamental trade-off between exploiting the current optimal policy to maximize immediate revenue and exploring alternative policies to collect data for future policy improvement via off-policy evaluation (OPE). While online A/B testing can validate new policies, it risks compromising short-term revenue. Conversely, relying solely on an exploitative policy hinders the ability to reliably estimate and enhance future policies. To balance this trade-off, we propose a novel approach that combines a model-based revenue maximization policy and a randomized exploration policy for data collection. Our framework enables flexibly adjusting the mixture ratio between these two policies to optimize the balance between short-term revenue and future policy improvement. We formulate the problem of determining the optimal mixture ratio between a model-based revenue maximization policy and a randomized exploration policy for data collection. We empirically verified the effectiveness of the proposed mixed policy using both synthetic and real-world data. Our main contributions are: (1) Demonstrating a mixed policy combining deterministic and probabilistic policies, flexibly adjusting the data collection vs. revenue trade-off. (2) Formulating the optimal mixture ratio problem as multi-objective optimization, enabling quantitative evaluation of this trade-off. By optimizing the mixture ratio, businesses can maximize revenue while ensuring reliable future OPE and policy improvement. This framework is applicable in any context where the exploration-exploitation trade-off is relevant.
翻訳日:2024-07-18 21:28:12 公開日:2024-07-17
# 機械学習における疑わしい実践

Questionable practices in machine learning ( http://arxiv.org/abs/2407.12220v1 )

ライセンス: Link先を確認
Gavin Leech, Juan J. Vazquez, Misha Yagudin, Niclas Kupper, Laurence Aitchison, (参考訳) 最新のMLモデルを評価するのは難しい。 研究者や企業が何らかの指標で最先端の結果を報告する強いインセンティブは、しばしば疑わしい研究慣行(QRP)につながる。 報告結果を損なう可能性のある43のプラクティスについて説明する。 我々のリストは、公開ベンチマークにおける大規模言語モデル(LLM)の評価に重点を置いている。 また、他の研究者が以前の研究を再現し、構築し、監査することを困難または不可能にする「再現不可能な研究慣行」についても論じる。

Evaluating modern ML models is hard. The strong incentive for researchers and companies to report a state-of-the-art result on some metric often leads to questionable research practices (QRPs): bad practices which fall short of outright research fraud. We describe 43 such practices which can undermine reported results, giving examples where possible. Our list emphasises the evaluation of large language models (LLMs) on public benchmarks. We also discuss "irreproducible research practices", i.e. decisions that make it difficult or impossible for other researchers to reproduce, build on or audit previous research.
翻訳日:2024-07-18 18:58:45 公開日:2024-07-17
# 短時間ビデオ推薦における不確かさウォッチタイムの条件量子推定

Conditional Quantile Estimation for Uncertain Watch Time in Short-Video Recommendation ( http://arxiv.org/abs/2407.12223v1 )

ライセンス: Link先を確認
Chengzhi Lin, Shuchang Liu, Chuyuan Wang, Yongqi Liu, (参考訳) 短いビデオレコメンデーションの領域では、ユーザのウォッチタイムを予測することは重要な課題ですが、難しい作業です。 決定論的解は正確な偏りのある統計モデルを得るが、ユーザ環境に固有の本質的な不確実性は無視する。 この不確実性は,多数の機能や複雑なネットワークアーキテクチャを採用しているにも関わらず,我々のオンラインプラットフォーム上での監視時間予測において,これらの手法の精度を制限できる可能性が示唆された。 その結果、この不確実なウォッチタイムの条件分布をモデル化するより優れた解法があると信じている。 本稿では、量子回帰を利用して時計時間のニュアンス分布を推定する新しい推定手法、条件量子量推定法(CQE)を提案する。 学習した分布はユーザの確率的な性質を考慮し、より正確で堅牢な推定を提供する。 さらに、条件付き予測、保守的推定、動的量子化の組み合わせを含む量子化予測を強化するためのいくつかの戦略を設計する。 提案手法の有効性は,公開データセットを用いた広範囲なオフライン評価と,毎日3億人以上のアクティブユーザを持つ実世界のビデオアプリケーションへの展開を通じて検証する。

Within the domain of short video recommendation, predicting users' watch time is a critical but challenging task. Prevailing deterministic solutions obtain accurate debiased statistical models, yet they neglect the intrinsic uncertainty inherent in user environments. In our observation, we found that this uncertainty could potentially limit these methods' accuracy in watch-time prediction on our online platform, despite that we have employed numerous features and complex network architectures. Consequently, we believe that a better solution is to model the conditional distribution of this uncertain watch time. In this paper, we introduce a novel estimation technique -- Conditional Quantile Estimation (CQE), which utilizes quantile regression to capture the nuanced distribution of watch time. The learned distribution accounts for the stochastic nature of users, thereby it provides a more accurate and robust estimation. In addition, we also design several strategies to enhance the quantile prediction including conditional expectation, conservative estimation, and dynamic quantile combination. We verify the effectiveness of our method through extensive offline evaluations using public datasets as well as deployment in a real-world video application with over 300 million daily active users.
翻訳日:2024-07-18 18:58:45 公開日:2024-07-17
# 誤り駆動アグリゲーションによる交通予測のための個別化フェデレーション学習

Individualized Federated Learning for Traffic Prediction with Error Driven Aggregation ( http://arxiv.org/abs/2407.12226v1 )

ライセンス: Link先を確認
Hang Chen, Collin Meese, Mark Nejad, Chien-Chung Shen, (参考訳) 低遅延交通予測はスマートシティ交通管理にとって不可欠である。 フェデレートラーニングは、プライバシーの保護、通信オーバーヘッドの低減、予測精度の向上、交通条件の変更への適応性の向上など、トラフィック予測(FLTP)の有望なテクニックとして登場した。 しかし、現在のFLTPフレームワークの大半はリアルタイムモデル更新スキームを欠いているため、新しいトラフィックデータを継続的に組み込むことができず、トラフィックトレンドの変化に効果的に適応することができない。 既存のFLTPフレームワークのもう1つの懸念は、すべてのトラフィック監視装置に同一のモデル(すなわちグローバルモデル)を割り当て、それぞれのローカルトラフィックトレンドを予測することで、異なる場所で収集されたトラフィックデータの非IID特性を無視する、従来のFLモデル集約手法に依存していることである。 これらの知見に基づいて強化学習からの洞察を生かしたNeighborFLを提案する。これは、各トラフィックノードの観点からヒューリスティックなグループ化を行うハーシン距離ベースおよびエラー駆動型パーソナライズされたローカルモデルを導入する、個別化されたリアルタイムフェデレーション学習スキームである。 このアプローチにより、NeighborFLは、共同学習を促進しながら、各クライアントに対して位置認識および調整された予測モデルを作成することができる。 シミュレーションにより、NeighborFLの有効性が示され、3つのベースラインモデルに対するリアルタイム予測精度が向上した。

Low-latency traffic prediction is vital for smart city traffic management. Federated Learning has emerged as a promising technique for Traffic Prediction (FLTP), offering several advantages such as privacy preservation, reduced communication overhead, improved prediction accuracy, and enhanced adaptability to changing traffic conditions. However, majority of the current FLTP frameworks lack a real-time model updating scheme, which hinders their ability to continuously incorporate new incoming traffic data and adapt effectively to the changing dynamics of traffic trends. Another concern with the existing FLTP frameworks is their reliance on the conventional FL model aggregation method, which involves assigning an identical model (i.e., the global model) to all traffic monitoring devices to predict their individual local traffic trends, thereby neglecting the non-IID characteristics of traffic data collected in different locations. Building upon these findings and harnessing insights from reinforcement learning, we propose NeighborFL, an individualized real-time federated learning scheme that introduces a haversine distance-based and error-driven, personalized local models grouping heuristic from the perspective of each individual traffic node. This approach allows NeighborFL to create location-aware and tailored prediction models for each client while fostering collaborative learning. Simulations demonstrate the effectiveness of NeighborFL, offering improved real-time prediction accuracy over three baseline models, with one experimental setting showing a 16.9% reduction in MSE value compared to a naive FL setting.
翻訳日:2024-07-18 18:58:45 公開日:2024-07-17
# 光-物質相互作用に対する変分的アプローチ:ブリッジング量子と半古典的極限

Variational approach to light-matter interaction: Bridging quantum and semiclassical limits ( http://arxiv.org/abs/2407.12228v1 )

ライセンス: Link先を確認
Yiying Yan, Zhiguo Lü, JunYan Luo, (参考訳) フィールドが任意の有限平均光子数とのコヒーレントな状態にあるとき、複数のDavydov $D_2$トライアル状態を用いて光マター系の力学をシミュレートする。 変分的アプローチは系力学だけでなく場力学も捉え、ジェインズ・カミングスモデル、ラビモデル、ディックモデルのような光-物質相互作用の様々な量子モデルに適用でき、多重モードの量子化場に取り組むことが可能である。 系と体の両方の変分力学と半古典力学を比較することで、量子モデルからの変分力学は、光子の平均数が十分に大きい限り、対応する半古典的モデルの変分力学と一致することを示す。 さらに、量子的極限と半古典的極限の交叉において、量子的補正は、半古典的モデルにはない力学における振動の崩壊に繋がることを示した。 変分法は量子から半古典的極限への光-物質相互作用を統一的に扱う。

We present a time-dependent variational approach with the multiple Davydov $D_2$ trial state to simulate the dynamics of light-matter systems when the field is in a coherent state with an arbitrary finite mean photon number. The variational approach captures not only the system dynamics but also the field dynamics and is applicable to a variety of quantum models of light-matter interaction such as the Jaynes-Cummings model, Rabi model, and Dicke model, and is feasible to tackle the multimode quantized fields. By comparison of the variational and semiclassical dynamics of both the system and field, we illustrate that the variational dynamics from the quantum models agrees with those from the corresponding semiclassical models as long as the mean number of photons is sufficiently large. Moreover, we illustrate that in the crossover between the quantum and semiclassical limits, the quantum corrections lead to the collapse of the oscillations in dynamics, which is absent in the semiclassical models. The variational approach provides a unified treatment of light-matter interaction from the quantum to the semiclassical limit.
翻訳日:2024-07-18 18:58:45 公開日:2024-07-17
# Laugh Now Cry later: Flow-Matching-based Zero-Shot Text-to-Speechの時間変化感情状態制御

Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-to-Speech ( http://arxiv.org/abs/2407.12229v1 )

ライセンス: Link先を確認
Haibin Wu, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Daniel Tompkins, Chung-Hsien Tsai, Canrun Li, Zhen Xiao, Sheng Zhao, Jinyu Li, Naoyuki Kanda, (参考訳) 人々は声のトーンを変え、笑いや泣き声などの非言語発声(NV)を伴って、豊かな感情を伝える。 しかし、ほとんどのTTSシステムは、NVを含む豊かな感情を持つ音声を生成する能力に欠ける。 本稿では,感情制御可能なゼロショットTSであるEmoCtrl-TTSについて紹介する。 EmoCtrl-TTSは、フローマッチングベースのゼロショットTSを条件に、覚醒値と価値、および笑い埋め込みを利用する。 高品質な感情音声生成を実現するために、EmoCtrl-TTSは擬似ラベルに基づく27,000時間以上の表現データを用いて訓練される。 EmoCtrl-TTSは、音声から音声への翻訳シナリオにおいて、音声プロンプトの感情を模倣することに優れていることを示す。 また、EmoCtrl-TTSは、感情の変化を捉え、強い感情を表現し、ゼロショットTSで様々なNVを生成することができることを示す。 デモサンプルはhttps://aka.ms/emoctrl-ttsを参照。

People change their tones of voice, often accompanied by nonverbal vocalizations (NVs) such as laughter and cries, to convey rich emotions. However, most text-to-speech (TTS) systems lack the capability to generate speech with rich emotions, including NVs. This paper introduces EmoCtrl-TTS, an emotion-controllable zero-shot TTS that can generate highly emotional speech with NVs for any speaker. EmoCtrl-TTS leverages arousal and valence values, as well as laughter embeddings, to condition the flow-matching-based zero-shot TTS. To achieve high-quality emotional speech generation, EmoCtrl-TTS is trained using more than 27,000 hours of expressive data curated based on pseudo-labeling. Comprehensive evaluations demonstrate that EmoCtrl-TTS excels in mimicking the emotions of audio prompts in speech-to-speech translation scenarios. We also show that EmoCtrl-TTS can capture emotion changes, express strong emotions, and generate various NVs in zero-shot TTS. See https://aka.ms/emoctrl-tts for demo samples.
翻訳日:2024-07-18 18:58:45 公開日:2024-07-17
# パラボラ部分微分方程式の基底モデル

Base Models for Parabolic Partial Differential Equations ( http://arxiv.org/abs/2407.12234v1 )

ライセンス: Link先を確認
Xingzi Xu, Ali Hasan, Jie Ding, Vahid Tarokh, (参考訳) パラボラ偏微分方程式(PDE)は、確率フロー、制御理論における値関数、金融における微分価格など、様々な数学的対象の進化をモデル化するために多くの分野に現れる。 このPDEの異なるパラメータに対応する複数のシナリオにおいて、パラメトリックPDEに対する解の解や関数を計算することがしばしば必要である。 このプロセスでは、しばしば時間を要するPDEをゼロから解決する必要があります。 従来のPDEシミュレーションをよりよく活用するために,基礎となるベース分布をメタラーニングすることで,異なるシナリオにまたがるパラボリックPDEの解を見つけるためのフレームワークを提案する。 本研究では,パラメータ設定の異なるパラメトリックPDEに対する解の計算法を提案する。 最後に、生成モデル、確率制御、ファイナンスに関する広範な実験を通じて提案手法の適用について述べる。 実験結果から,提案手法は新たなパラメータ条件下でのPDEの解法に対する一般化を改善することが示唆された。

Parabolic partial differential equations (PDEs) appear in many disciplines to model the evolution of various mathematical objects, such as probability flows, value functions in control theory, and derivative prices in finance. It is often necessary to compute the solutions or a function of the solutions to a parametric PDE in multiple scenarios corresponding to different parameters of this PDE. This process often requires resolving the PDEs from scratch, which is time-consuming. To better employ existing simulations for the PDEs, we propose a framework for finding solutions to parabolic PDEs across different scenarios by meta-learning an underlying base distribution. We build upon this base distribution to propose a method for computing solutions to parametric PDEs under different parameter settings. Finally, we illustrate the application of the proposed methods through extensive experiments in generative modeling, stochastic control, and finance. The empirical results suggest that the proposed approach improves generalization to solving PDEs under new parameter regimes.
翻訳日:2024-07-18 18:58:45 公開日:2024-07-17
# コンフォーマルグラフニューラルネットワークを用いた都市交通予測

Urban Traffic Forecasting with Integrated Travel Time and Data Availability in a Conformal Graph Neural Network Framework ( http://arxiv.org/abs/2407.12238v1 )

ライセンス: Link先を確認
Mayur Patil, Qadeer Ahmed, Shawn Midlam-Mohler, (参考訳) 交通流の予測は交通機関にとって大きな課題であり、より良いインフラの計画と開発に役立つ。 最先端のモデルは、データを可能な限り最良の方法で、本質的な不確実性、そしてトラフィックの実際の物理について考えるのに苦労することが多い。 本研究では,各駅間の移動時間をグラフニューラルネットワーク(GNN)アーキテクチャの重み付き隣接行列に組み込む手法を提案する。 不確実性に対処するために、リアルタイムの検証残差に基づいて予測間隔を調整するAdaptive Conformal Prediction (ACP)法を利用した。 この結果を検証するため, 交通シナリオをモデル化し, モンテカルロシミュレーションを行い, 交通シナリオをナビゲートしながらVUTの走行時間分布を推定し, 実データと比較した。 実験の結果, 提案モデルでは, MAEで約24%, RMSEで約8%, シミュレーションした走行時間と観測した走行時間の95%は密に一致した。

Traffic flow prediction is a big challenge for transportation authorities as it helps in planning and developing better infrastructure. State-of-the-art models often struggle to consider the data in the best way possible, intrinsic uncertainties, and the actual physics of the traffic. In this study, we propose a novel framework to incorporate travel times between stations into a weighted adjacency matrix of a Graph Neural Network (GNN) architecture with information from traffic stations based on their data availability. To handle uncertainty, we utilized the Adaptive Conformal Prediction (ACP) method that adjusts prediction intervals based on real-time validation residuals. To validate our results, we model a microscopic traffic scenario and perform a Monte-Carlo simulation to get a travel time distribution for a Vehicle Under Test (VUT) while it is navigating the traffic scenario, and this distribution is compared against the actual data. Experiments show that the proposed model outperformed the next-best model by approximately 24% in MAE and 8% in RMSE and validation showed the simulated travel time closely matches the 95th percentile of the observed travel time value.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# イベントベース正規流からの運動と構造

Motion and Structure from Event-based Normal Flow ( http://arxiv.org/abs/2407.12239v1 )

ライセンス: Link先を確認
Zhongyang Ren, Bangyan Liao, Delei Kong, Jinghang Li, Peidong Liu, Laurent Kneip, Guillermo Gallego, Yi Zhou, (参考訳) 映像データからカメラの動きとシーンの形状を復元することは、コンピュータビジョンの分野における根本的な問題である。 標準的なビジョンにおけるその成功は、特徴抽出、データアソシエーション、多視点幾何学の成熟による。 近年のニューロモルフィックなイベントベースカメラの出現は、この根本的な問題を解決するために生のイベントデータを入力として利用するアプローチに大きな需要を生じさせ、既存の最先端のソリューションは、イベントデータ生成プロセスを反復的に反転させることで、暗黙的にデータ関連を推測する。 しかし, これらの手法の非線形性は, リアルタイムタスクにおける適用性を制限し, 一定運動仮定はアジャイル動作下での不安定な結果をもたらす。この結果から, イベントカメラの差動動作原理とよく一致する方法で問題定式化を再考する。 さらに,提案した幾何誤差項の上に,高速線形解法と連続時間非線形解法を開発し,その精度と効率の観点から,合成データと実データの両方で線形解法の優位性を示すとともに,既存の非線形解法の初期化手法としての相補的特徴を示す。 また, 連続時間非線形解法は, 一定運動仮定に依存しないため, 突然の運動変動を調節する異常な機能を示す。

Recovering the camera motion and scene geometry from visual data is a fundamental problem in the field of computer vision. Its success in standard vision is attributed to the maturity of feature extraction, data association and multi-view geometry. The recent emergence of neuromorphic event-based cameras places great demands on approaches that use raw event data as input to solve this fundamental problem.Existing state-of-the-art solutions typically infer implicitly data association by iteratively reversing the event data generation process. However, the nonlinear nature of these methods limits their applicability in real-time tasks, and the constant-motion assumption leads to unstable results under agile motion.To this end, we rethink the problem formulation in a way that aligns better with the differential working principle of event cameras.We show that the event-based normal flow can be used, via the proposed geometric error term, as an alternative to the full flow in solving a family of geometric problems that involve instantaneous first-order kinematics and scene geometry. Furthermore, we develop a fast linear solver and a continuous-time nonlinear solver on top of the proposed geometric error term.Experiments on both synthetic and real data show the superiority of our linear solver in terms of accuracy and efficiency, and indicate its complementary feature as an initialization method for existing nonlinear solvers. Besides, our continuous-time non-linear solver exhibits exceptional capability in accommodating sudden variations in motion since it does not rely on the constant-motion assumption.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# 連続テスト時間適応のための適応カスケードネットワーク

Adaptive Cascading Network for Continual Test-Time Adaptation ( http://arxiv.org/abs/2407.12240v1 )

ライセンス: Link先を確認
Kien X. Nguyen, Fengchun Qiao, Xi Peng, (参考訳) そこで本研究では,テスト時に対象ドメインの列に事前学習したソースモデルを適応させることを目標とする連続的なテスト時間適応の問題について検討する。 既存のテストタイムトレーニング手法には,(1)特徴抽出器と分類器のミスマッチ,(2)主課題と自己監督タスクの干渉,(3)現在の分布に迅速に適応する能力の欠如など,いくつかの制限がある。 これらの課題を踏まえ、我々は、機能抽出器とクラス化器を同時に更新し、それらの間のミスマッチを緩和し、長期モデル適応を可能にするカスケーディングパラダイムを提案する。 モデルの事前学習はメタラーニングフレームワーク内で構成され、メインタスクと自己監督タスク間の干渉を最小限に抑え、制限のないデータの存在下での迅速な適応を促す。 さらに,動的な実世界のシナリオにおけるモデルの適応能力を効果的に評価するために,革新的な評価指標,平均精度,前方転送を導入する。 画像分類,テキスト分類,音声認識など,幅広い課題において,我々のアプローチの優位性を示す実験とアブレーション研究を行った。

We study the problem of continual test-time adaption where the goal is to adapt a source pre-trained model to a sequence of unlabelled target domains at test time. Existing methods on test-time training suffer from several limitations: (1) Mismatch between the feature extractor and classifier; (2) Interference between the main and self-supervised tasks; (3) Lack of the ability to quickly adapt to the current distribution. In light of these challenges, we propose a cascading paradigm that simultaneously updates the feature extractor and classifier at test time, mitigating the mismatch between them and enabling long-term model adaptation. The pre-training of our model is structured within a meta-learning framework, thereby minimizing the interference between the main and self-supervised tasks and encouraging fast adaptation in the presence of limited unlabelled data. Additionally, we introduce innovative evaluation metrics, average accuracy and forward transfer, to effectively measure the model's adaptation capabilities in dynamic, real-world scenarios. Extensive experiments and ablation studies demonstrate the superiority of our approach in a range of tasks including image classification, text classification, and speech recognition.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# セキュアコードレビューのための静的解析ツールの実証的研究

An Empirical Study of Static Analysis Tools for Secure Code Review ( http://arxiv.org/abs/2407.12241v1 )

ライセンス: Link先を確認
Wachiraphan Charoenwet, Patanamon Thongtanunam, Van-Thuan Pham, Christoph Treude, (参考訳) ソフトウェア開発におけるセキュリティ問題の早期発見は、予想外の影響を最小限にするために不可欠である。 コードレビューは、セキュリティ問題とソフトウェアプロジェクトの他のコーディング問題を明らかにすることを目的とした、広く使われている手動分析手法である。 一部の研究では、自動静的アプリケーションセキュリティテストツール(SAST)がセキュリティ上の問題を特定する可能性を示唆しているが、セキュアなコードレビューをサポートする上でのSASTの実践的有効性は限定されている。 さらに、ほとんどのSAST研究は、コードレビュープロセスにおける実際のコード変更を正確に表現しない、合成または完全に脆弱なサブジェクトプログラムに依存している。 このギャップに対処するために、私たちは、悪用可能な脆弱性に寄与する実際のコード変更のデータセットを使用して、C/C++ SASTを調査します。 SASTの有効性を超えて、変更した関数がSAST警告によって優先順位付けされた場合の潜在的なメリットを定量化する。 我々のデータセットは、92のCプロジェクトとC++プロジェクトで815の脆弱性貢献コミット(VCC)から319の現実世界の脆弱性で構成されています。 その結果、単一のSASTがVCCの52%の脆弱な機能で警告を発生させることができることが明らかになった。 SAST警告による変更関数の優先順位付けにより、精度(精度12%、リコール5.6%)が向上し、Initial False Alarm(最初の脆弱性関数まで検査される非脆弱性関数のコード行)が13%削減される。 それでも、脆弱な機能の警告の少なくとも76%はVCCとは無関係であり、VCCの22%はSASTルールの制限により未検出のままである。 我々の発見は、将来の作業で対処すべき、SASTがサポートしているセキュアなコードレビューと課題のメリットと残りのギャップを浮き彫りにしています。

Early identification of security issues in software development is vital to minimize their unanticipated impacts. Code review is a widely used manual analysis method that aims to uncover security issues along with other coding issues in software projects. While some studies suggest that automated static application security testing tools (SASTs) could enhance security issue identification, there is limited understanding of SAST's practical effectiveness in supporting secure code review. Moreover, most SAST studies rely on synthetic or fully vulnerable versions of the subject program, which may not accurately represent real-world code changes in the code review process. To address this gap, we study C/C++ SASTs using a dataset of actual code changes that contributed to exploitable vulnerabilities. Beyond SAST's effectiveness, we quantify potential benefits when changed functions are prioritized by SAST warnings. Our dataset comprises 319 real-world vulnerabilities from 815 vulnerability-contributing commits (VCCs) in 92 C and C++ projects. The result reveals that a single SAST can produce warnings in vulnerable functions of 52% of VCCs. Prioritizing changed functions with SAST warnings can improve accuracy (i.e., 12% of precision and 5.6% of recall) and reduce Initial False Alarm (lines of code in non-vulnerable functions inspected until the first vulnerable function) by 13%. Nevertheless, at least 76% of the warnings in vulnerable functions are irrelevant to the VCCs, and 22% of VCCs remain undetected due to limitations of SAST rules. Our findings highlight the benefits and the remaining gaps of SAST-supported secure code reviews and challenges that should be addressed in future work.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# 拡散モデルを用いた量子近似最適化アルゴリズムのパラメータ生成

Parameter Generation of Quantum Approximate Optimization Algorithm with Diffusion Model ( http://arxiv.org/abs/2407.12242v1 )

ライセンス: Link先を確認
Fanxu Meng, Xiangzhen Zhou, (参考訳) 量子コンピューティングは、重ね合わせや絡み合いのような量子力学のユニークな特性により、組合せ最適化の分野に革命をもたらす可能性を示している。 変分型ハイブリッド量子古典アルゴリズムである量子近似最適化アルゴリズム(QAOA)は、組合せ最適化の代表的な例であるMax-Cut問題を効率的に解くための主要な提案である。 しかし、その約束された利点はパラメータの初期化戦略に強く依存しており、これは低品質の局所ミニマ問題によって特徴づけられる非凸および複雑な最適化の展望による重要な側面である。 そこで本研究では,生成機械学習モデル,特に拡散確率モデル (DDPM) を訓練し,QAOAの高性能初期パラメータを生成するための生成タスクとして,優れた初期パラメータを求める問題を定式化する。 拡散モデルは、高性能パラメータの分布を学習し、次に最適なパラメータに近い新しいパラメータを合成することができる。 様々なサイズのMax-Cut問題インスタンスを用いた実験により、我々の拡散過程はランダムパラメータの初期化と比較してQAOAの有効性を一貫して向上することを示した。 さらに,本フレームワークは,大規模インスタンスへの外挿による量子計算資源のオーバーヘッド低減を目的とした,小型で古典的にシミュラブルな問題インスタンスのトレーニングの可能性を示す。

Quantum computing presents a compelling prospect for revolutionizing the field of combinatorial optimization, in virtue of the unique attributes of quantum mechanics such as superposition and entanglement. The Quantum Approximate Optimization Algorithm (QAOA), a variational hybrid quantum-classical algorithm, stands out as leading proposals to efficiently solve the Max-Cut problem, a representative example of combinatorial optimization. However, its promised advantages strongly rely on parameters initialization strategy, a critical aspect due to the non-convex and complex optimization landscapes characterized by low-quality local minima issue. Therefore, in this work, we formulate the problem of finding good initial parameters as a generative task in which the generative machine learning model, specifically denoising diffusion probabilistic model (DDPM), is trained to generate high-performing initial parameters for QAOA. The diffusion model is capable of learning the distribution of high-performing parameters and then synthesizing new parameters closer to optimal ones. Experiments with various sized Max-Cut problem instances demonstrate that our diffusion process consistently enhance QAOA effectiveness compared to random parameters initialization. Moreover, our framework shows the possibility of training on small, classically simulatable problem instances, aiming at extrapolating to larger instances to reduce quantum computational resource overhead.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# 内在的手法を応用したディープニューラルネットワークの解説

Explaining Deep Neural Networks by Leveraging Intrinsic Methods ( http://arxiv.org/abs/2407.12243v1 )

ライセンス: Link先を確認
Biagio La Rosa, (参考訳) 社会への影響にもかかわらず、深層ニューラルネットワークは複雑な構造とそれらの決定に対する説明がないため、ブラックボックスモデルと見なされることが多い。 この不透明さは、AIシステムの広範な採用と信頼性に重大な課題をもたらします。 この論文は、ディープニューラルネットワークの解釈可能性の向上に重点を置いて、eXplainable AIの分野に貢献することで、この問題に対処する。 中心となる貢献は、これらのネットワークをより解釈しやすくすることを目的とした新しい技術の導入である。 特に、コントリビューションは3倍です。 まず、この論文では、解釈可能性のために外部メモリを統合することや、プロトタイプと制約ベースのレイヤを複数のドメインで使用することなど、自己説明型ディープニューラルネットワークの設計を紹介している。 第2に、この研究は、訓練された深層ニューラルネットワーク内のニューロンに関する新しい研究を掘り下げ、その活性化値に関連する見過ごされた現象に光を当てた。 最後に、この論文は、視覚分析の分野における説明技法の適用について分析を行い、それらの導入の成熟度と、ユーザへの説明を効果的に伝達するシステムの可能性を探る。

Despite their impact on the society, deep neural networks are often regarded as black-box models due to their intricate structures and the absence of explanations for their decisions. This opacity poses a significant challenge to AI systems wider adoption and trustworthiness. This thesis addresses this issue by contributing to the field of eXplainable AI, focusing on enhancing the interpretability of deep neural networks. The core contributions lie in introducing novel techniques aimed at making these networks more interpretable by leveraging an analysis of their inner workings. Specifically, the contributions are threefold. Firstly, the thesis introduces designs for self-explanatory deep neural networks, such as the integration of external memory for interpretability purposes and the usage of prototype and constraint-based layers across several domains. Secondly, this research delves into novel investigations on neurons within trained deep neural networks, shedding light on overlooked phenomena related to their activation values. Lastly, the thesis conducts an analysis of the application of explanatory techniques in the field of visual analytics, exploring the maturity of their adoption and the potential of these systems to convey explanations to users effectively.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# Lacuna言語学習: デジタル化されたコプト写本におけるランク付きテキスト補完のためのRNNの活用

Lacuna Language Learning: Leveraging RNNs for Ranked Text Completion in Digitized Coptic Manuscripts ( http://arxiv.org/abs/2407.12247v1 )

ライセンス: Link先を確認
Lauren Levine, Cindy Tung Li, Lydia Bremer-McCollum, Nicholas Wagner, Amir Zeldes, (参考訳) 古代の写本は頻繁に破損しており、ラグナエ(lacunae)として知られるテキストに隙間がある。 本稿では,原稿ラッカナにおけるコプト文字の文字予測のための双方向RNNモデルを提案する。 最適なモデルでは, 単一文字再構成では72%の精度で再現できるが, 様々な長さの漆を復元すると37%に低下する。 決定的な写本復元には適さないが,我々のRNNモデルは,文献復元の可能性のランク付けに役立てることができると論じる。 証拠として、我々のRNNモデルを用いて、2つの初期のコプト写本の復元をランク付けする。 我々の研究は、ニューラルモデルが従来のテキスト復元方法を強化し、研究者たちにコプト写本のラグネーを評価するための追加のツールを提供することを示唆している。

Ancient manuscripts are frequently damaged, containing gaps in the text known as lacunae. In this paper, we present a bidirectional RNN model for character prediction of Coptic characters in manuscript lacunae. Our best model performs with 72% accuracy on single character reconstruction, but falls to 37% when reconstructing lacunae of various lengths. While not suitable for definitive manuscript reconstruction, we argue that our RNN model can help scholars rank the likelihood of textual reconstructions. As evidence, we use our RNN model to rank reconstructions in two early Coptic manuscripts. Our investigation shows that neural models can augment traditional methods of textual restoration, providing scholars with an additional tool to assess lacunae in Coptic manuscripts.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# COKE: 製造データ不足の統計における時系列と専門知識による因果発見

COKE: Causal Discovery with Chronological Order and Expert Knowledge in High Proportion of Missing Manufacturing Data ( http://arxiv.org/abs/2407.12254v1 )

ライセンス: Link先を確認
Ting-Yun Ou, Ching Chang, Wen-Chih Peng, (参考訳) 機械間の因果関係を理解することは、製造プロセスにおける故障診断と最適化に不可欠である。 現実世界のデータセットは、最大90%の欠落したデータと数百のセンサーから高次元性を示す。 これらのデータセットにはドメイン固有の専門知識や時系列情報が含まれており、製造データ内の因果関係を識別する上で重要な、異なるマシン間での記録順序を反映している。 しかし、現実の状況に類似したシナリオで欠落したデータを扱う従来の手法では、専門家の知識を効果的に活用することはできなかった。 逆に、専門家の知識を取り入れた事前の方法は、欠落した値を示すデータセットと苦労する。 そこで本研究では,センサ間の知識と時系列の整合性を利用して,データセットの因果グラフを構築するためのCOKEを提案する。 レシピの特徴を利用して、不足値のサンプルの使用を最大化し、専門家の知識と時系列を組み込んだ初期グラフとの交点からの埋め込みを導出し、センサの順序付けグラフを作成する。 グラフ生成プロセスはアクター批判アーキテクチャによって最適化され、最大報酬を持つ最終グラフを得る。 センサ量の多様さと欠落率を実験的に評価した結果,F1スコアの平均39.9%の改善が確認された。 さらに、F1スコアの改善は、実世界のデータセットに似た構成を考えると62.6%、実世界の半導体データセットでは85.0%に達する。 ソースコードはhttps://github.com/OuTingYun/COKEで入手できる。

Understanding causal relationships between machines is crucial for fault diagnosis and optimization in manufacturing processes. Real-world datasets frequently exhibit up to 90% missing data and high dimensionality from hundreds of sensors. These datasets also include domain-specific expert knowledge and chronological order information, reflecting the recording order across different machines, which is pivotal for discerning causal relationships within the manufacturing data. However, previous methods for handling missing data in scenarios akin to real-world conditions have not been able to effectively utilize expert knowledge. Conversely, prior methods that can incorporate expert knowledge struggle with datasets that exhibit missing values. Therefore, we propose COKE to construct causal graphs in manufacturing datasets by leveraging expert knowledge and chronological order among sensors without imputing missing data. Utilizing the characteristics of the recipe, we maximize the use of samples with missing values, derive embeddings from intersections with an initial graph that incorporates expert knowledge and chronological order, and create a sensor ordering graph. The graph-generating process has been optimized by an actor-critic architecture to obtain a final graph that has a maximum reward. Experimental evaluations in diverse settings of sensor quantities and missing proportions demonstrate that our approach compared with the benchmark methods shows an average improvement of 39.9% in the F1-score. Moreover, the F1-score improvement can reach 62.6% when considering the configuration similar to real-world datasets, and 85.0% in real-world semiconductor datasets. The source code is available at https://github.com/OuTingYun/COKE.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# スペクトル光除去のためのデュアルハイブリドアテンションネットワーク

Dual-Hybrid Attention Network for Specular Highlight Removal ( http://arxiv.org/abs/2407.12255v1 )

ライセンス: Link先を確認
Xiaojiao Guo, Xuhang Chen, Shenghong Luo, Shuqiang Wang, Chi-Man Pun, (参考訳) 画像やビデオの品質と解釈性を高め、究極的には、コンテンツベースの検索、オブジェクト認識、シーン理解といった下流タスクのパフォーマンスを向上させる。 ディープラーニングベースの手法の大幅な進歩にもかかわらず、現在の最先端のアプローチは、しばしば追加の事前や監督に依存し、その実用性と一般化能力を制限する。 本稿では,DHAN-SHR(Dual-Hybrid Attention Network for Specular Highlight removal)を提案する。これは,新たなハイブリッドアテンション機構を導入し,様々なスケールや領域にわたる情報を効果的に捕捉・処理する。 DHAN-SHRは、Adaptive Local Hybrid-Domain Dual Attention Transformer (L-HD-DAT)とAdaptive Global Dual Attention Transformer (G-DAT)の2つの主要コンポーネントから構成されている。 L-HD-DATは、スペクトル領域の特徴を取り入れながら、局所的なチャネル間および画素間依存関係をキャプチャし、スペクトルハイライトと基礎となる表面特性の間の複雑な相互作用を効果的にモデル化する。 G-DATは、グローバルなチャネル間関係と長距離画素依存性をモデル化し、ネットワークが画像全体にわたってコンテキスト情報を伝達し、一貫性と一貫性のあるハイライトのない結果を生成する。 DHAN-SHRの性能評価と今後の研究の促進を目的として,様々なレベルのスペックハイライトを持つ多様な画像からなる大規模ベンチマークデータセットをコンパイルした。 実験により,DHAN-SHRは18種類の最先端手法を定量的かつ定性的に上回り,マルチメディアアプリケーションにおけるスペクトルハイライト除去のための新しい標準を設定した。

Specular highlight removal plays a pivotal role in multimedia applications, as it enhances the quality and interpretability of images and videos, ultimately improving the performance of downstream tasks such as content-based retrieval, object recognition, and scene understanding. Despite significant advances in deep learning-based methods, current state-of-the-art approaches often rely on additional priors or supervision, limiting their practicality and generalization capability. In this paper, we propose the Dual-Hybrid Attention Network for Specular Highlight Removal (DHAN-SHR), an end-to-end network that introduces novel hybrid attention mechanisms to effectively capture and process information across different scales and domains without relying on additional priors or supervision. DHAN-SHR consists of two key components: the Adaptive Local Hybrid-Domain Dual Attention Transformer (L-HD-DAT) and the Adaptive Global Dual Attention Transformer (G-DAT). The L-HD-DAT captures local inter-channel and inter-pixel dependencies while incorporating spectral domain features, enabling the network to effectively model the complex interactions between specular highlights and the underlying surface properties. The G-DAT models global inter-channel relationships and long-distance pixel dependencies, allowing the network to propagate contextual information across the entire image and generate more coherent and consistent highlight-free results. To evaluate the performance of DHAN-SHR and facilitate future research in this area, we compile a large-scale benchmark dataset comprising a diverse range of images with varying levels of specular highlights. Through extensive experiments, we demonstrate that DHAN-SHR outperforms 18 state-of-the-art methods both quantitatively and qualitatively, setting a new standard for specular highlight removal in multimedia applications.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# 配向コーナーによる多角形建築物セグメンテーションの強化

Enhancing Polygonal Building Segmentation via Oriented Corners ( http://arxiv.org/abs/2407.12256v1 )

ライセンス: Link先を確認
Mohammad Moein Sheikholeslami, Muhammad Kamran, Andreas Wichmann, Gunho Sohn, (参考訳) 様々なアプリケーションにまたがる高解像度マップの需要が高まっているため、オーバヘッド画像からビルドベクターを正確に分割する必要がある。 しかし、現在のディープニューラルネットワークは、しばしばラスタデータ出力を生成するため、表現の忠実さ、規則性、単純さを損なう広範な後処理が必要である。 そこで本研究では,入力画像からポリゴンを直接抽出する,OriCornerNetという新しいディープ畳み込みニューラルネットワークを提案する。 具体的には、隣接する角への方向を示すフットプリントマスク、コーナー、方向ベクトルを推定するディープモデルを含む。 これらの予測は初期ポリゴンの再構成に使用され、続いて意味的特徴と幾何学的特徴を利用するグラフ畳み込みネットワークを用いて反復的に洗練される。 本手法は, 予測角の精製過程を初期化することにより, 単純化されたポリゴンを本質的に生成する。 また、配向角からの幾何学的情報を含むことにより、より規則的で正確な結果が得られる。 SpaceNet Vegas と CrowdAI の小さなデータセットで行った性能評価は,頭上画像からの建物セグメンテーションにおける最先端技術と比較して,我々のアプローチの競争力を示す。

The growing demand for high-resolution maps across various applications has underscored the necessity of accurately segmenting building vectors from overhead imagery. However, current deep neural networks often produce raster data outputs, leading to the need for extensive post-processing that compromises the fidelity, regularity, and simplicity of building representations. In response, this paper introduces a novel deep convolutional neural network named OriCornerNet, which directly extracts delineated building polygons from input images. Specifically, our approach involves a deep model that predicts building footprint masks, corners, and orientation vectors that indicate directions toward adjacent corners. These predictions are then used to reconstruct an initial polygon, followed by iterative refinement using a graph convolutional network that leverages semantic and geometric features. Our method inherently generates simplified polygons by initializing the refinement process with predicted corners. Also, including geometric information from oriented corners contributes to producing more regular and accurate results. Performance evaluations conducted on SpaceNet Vegas and CrowdAI-small datasets demonstrate the competitive efficacy of our approach compared to the state-of-the-art in building segmentation from overhead imagery.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# ABAW7チャレンジのためのマルチモデルアンサンブルによる複合表現認識

Compound Expression Recognition via Multi Model Ensemble for the ABAW7 Challenge ( http://arxiv.org/abs/2407.12257v1 )

ライセンス: Link先を確認
Xuxiong Liu, Kang Shen, Jun Yao, Boyan Wang, Minrui Liu, Liuwei An, Zishun Cui, Weijie Feng, Xiao Sun, (参考訳) 複合表現認識(CER)は、効果的な対人相互作用に不可欠である。 ヒトの感情表現は、複合表現の存在により本質的に複雑であり、正確な判断には局所的およびグローバルな顔の手がかりの両方を考慮する必要がある。 本稿では,この複雑さに対処するアンサンブル学習に基づくソリューションを提案する。 提案手法では,畳み込みネットワーク,視覚変換器,マルチスケールローカルアテンションネットワークを用いて,3つの表現分類モデルを訓練する。 モデルアンサンブルに後期融合を用いることで、これらのモデルの出力を組み合わせて最終的な結果を予測する。 提案手法はRAF-DBデータセット上で高い精度を示し,ゼロショット学習によりC-EXPR-DBの一部の表現を認識できる。

Compound Expression Recognition (CER) is vital for effective interpersonal interactions. Human emotional expressions are inherently complex due to the presence of compound expressions, requiring the consideration of both local and global facial cues for accurate judgment. In this paper, we propose an ensemble learning-based solution to address this complexity. Our approach involves training three distinct expression classification models using convolutional networks, Vision Transformers, and multiscale local attention networks. By employing late fusion for model ensemble, we combine the outputs of these models to predict the final results. Our method demonstrates high accuracy on the RAF-DB datasets and is capable of recognizing expressions in certain portions of the C-EXPR-DB through zero-shot learning.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# ABAW7チャレンジにおけるマルチアーキテクチャエンコーダと特徴融合に基づく顔影響認識

Facial Affect Recognition based on Multi Architecture Encoder and Feature Fusion for the ABAW7 Challenge ( http://arxiv.org/abs/2407.12258v1 )

ライセンス: Link先を確認
Kang Shen, Xuxiong Liu, Boyan Wang, Jun Yao, Xin Liu, Yujie Guan, Yu Wang, Gengchen Li, Xiao Sun, (参考訳) 本稿では,第7回ABAWコンペティションの課題に対処するためのアプローチを提案する。 コンテストは、Valence Arousal(VA)推定、Expression(Expr)分類、AU(Action Unit)検出の3つのサブチャンジで構成されている。 これらの課題に対処するために、我々は最先端のモデルを用いて強力な視覚的特徴を抽出する。 その後、Transformer Encoderを使用して、VA、Expr、AUサブチャレンジのこれらの機能を統合する。 異なる特徴次元の影響を軽減するために,特徴を共通次元に整列させるアフィンモジュールを導入する。 総じて、我々の結果はベースラインを大きく上回っている。

In this paper, we present our approach to addressing the challenges of the 7th ABAW competition. The competition comprises three sub-challenges: Valence Arousal (VA) estimation, Expression (Expr) classification, and Action Unit (AU) detection. To tackle these challenges, we employ state-of-the-art models to extract powerful visual features. Subsequently, a Transformer Encoder is utilized to integrate these features for the VA, Expr, and AU sub-challenges. To mitigate the impact of varying feature dimensions, we introduce an affine module to align the features to a common dimension. Overall, our results significantly outperform the baselines.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# データ評価のための文脈内探索近似関数の影響

In-Context Probing Approximates Influence Function for Data Valuation ( http://arxiv.org/abs/2407.12259v1 )

ライセンス: Link先を確認
Cathy Jiao, Gary Gao, Chenyan Xiong, (参考訳) データバリュエーションは、トレーニングデータの価値を定量化し、データ属性(すなわち、モデルの予測に対するトレーニングデータの貢献を決定する)やデータ選択に使用される。 本稿では,テキスト内探索(LLM)によるデータ評価が,学習データを選択するための影響関数を近似することを示す。 この接続に関する理論的スケッチは、コンテクスト内入力に対して「単純」勾配降下を行うトランスフォーマーモデルに基づくものである。 実験結果から, 文脈内探索と勾配に基づく影響フレームワークは, トレーニングデータのランク付け方法に類似していることがわかった。 さらに、どちらの手法でも選択されたデータに対する微調整実験により、類似したモデル性能が明らかとなった。

Data valuation quantifies the value of training data, and is used for data attribution (i.e., determining the contribution of training data towards model predictions), and data selection; both of which are important for curating high-quality datasets to train large language models. In our paper, we show that data valuation through in-context probing (i.e., prompting a LLM) approximates influence functions for selecting training data. We provide a theoretical sketch on this connection based on transformer models performing "implicit" gradient descent on its in-context inputs. Our empirical findings show that in-context probing and gradient-based influence frameworks are similar in how they rank training data. Furthermore, fine-tuning experiments on data selected by either method reveal similar model performance.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# ニューロモルフィック拡散プロセスのための電圧制御型磁気素子

Voltage-Controlled Magnetoelectric Devices for Neuromorphic Diffusion Process ( http://arxiv.org/abs/2407.12261v1 )

ライセンス: Link先を確認
Yang Cheng, Qingyuan Shu, Albert Lee, Haoran He, Ivy Zhu, Haris Suhail, Minzhang Chen, Renhe Chen, Zirui Wang, Hantao Zhang, Chih-Yao Wang, Shan-Yi Yang, Yu-Chen Hsin, Cheng-Yi Shih, Hsin-Han Lee, Ran Cheng, Sudhakar Pamarti, Xufeng Kou, Kang L. Wang, (参考訳) 確率拡散過程は、一見不規則なブラウン運動から、シナプス的に結合されたスパイキングニューロンの複雑な相互作用まで、自然界に広く分布する。 近年、ランゲヴィン力学からインスピレーションを得て、ニューロモルフィック拡散モデルが提案され、生成人工知能分野における大きなブレークスルーの1つとなっている。 分類や回帰タスクに取り組むためによく開発された差別モデルとは異なり、拡散モデルだけでなく、ChatGPTのような他の生成モデルも、学習した文脈に基づいてコンテンツを作成することを目的としている。 しかし、これらのモデルのより複雑なアルゴリズムは、今日の技術による高い計算コストをもたらし、その効率のボトルネックを生み出し、さらなる開発を妨げる。 本稿では, スピントロニック電圧制御型磁気メモリハードウェアを開発し, ニューロモルフィック拡散プロセスについて述べる。 スピントロニクスデバイスのインメモリコンピューティング能力は、現在のVon Neumannアーキテクチャを超えており、メモリとコンピューティングユニットが分離されている。 磁気メモリの非ボラティリティと相まって、高速かつ低コストな計算が可能であり、現在の生成モデルの規模拡大に好適である。 本稿では,Frechet Inception distance (FID) スコアによって測定された,画像生成のためのハードウェアベースの真のランダム拡散プロセスが,従来のハードウェアよりも10^3よいエネルギー/ビット/領域のトレーニングを実現することを実験的に実証した。

Stochastic diffusion processes are pervasive in nature, from the seemingly erratic Brownian motion to the complex interactions of synaptically-coupled spiking neurons. Recently, drawing inspiration from Langevin dynamics, neuromorphic diffusion models were proposed and have become one of the major breakthroughs in the field of generative artificial intelligence. Unlike discriminative models that have been well developed to tackle classification or regression tasks, diffusion models as well as other generative models such as ChatGPT aim at creating content based upon contexts learned. However, the more complex algorithms of these models result in high computational costs using today's technologies, creating a bottleneck in their efficiency, and impeding further development. Here, we develop a spintronic voltage-controlled magnetoelectric memory hardware for the neuromorphic diffusion process. The in-memory computing capability of our spintronic devices goes beyond current Von Neumann architecture, where memory and computing units are separated. Together with the non-volatility of magnetic memory, we can achieve high-speed and low-cost computing, which is desirable for the increasing scale of generative models in the current era. We experimentally demonstrate that the hardware-based true random diffusion process can be implemented for image generation and achieve comparable image quality to software-based training as measured by the Frechet inception distance (FID) score, achieving ~10^3 better energy-per-bit-per-area over traditional hardware.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# フォトニック真空状態における強立方相転移

Strong cubic phase shifts on the photonic vacuum state ( http://arxiv.org/abs/2407.12265v1 )

ライセンス: Link先を確認
Hao Jeng, Lorcan Conlon, Ping Koy Lam, Syed Assad, (参考訳) コヒーレント状態への光子の付加は、真空状態に作用する立方相シフトと顕著な類似性を示す効果を示し、記録された忠実度は90%以上である。 立方体相互作用の強さは、コヒーレント状態の変位に逆らって変化し、最も強い相互作用は、以前の観測より1桁大きくなった。 相互作用は非摂動的です。

Addition of photons to coherent states is shown to produce effects that display remarkable similarities with cubic phase shifts acting on the vacuum state, with recorded fidelities in excess of 90 percent. The strength of the cubic interaction is found to vary inversely with the displacement of the coherent state and the strongest interactions were one order of magnitude greater than previous observations. The interaction is non-perturbative.
翻訳日:2024-07-18 18:49:00 公開日:2024-07-17
# セマンティックスによる3次元住宅ワイヤーフレームの生成

Generating 3D House Wireframes with Semantics ( http://arxiv.org/abs/2407.12267v1 )

ライセンス: Link先を確認
Xueqi Ma, Yilin Liu, Wenjun Zhou, Ruowei Wang, Hui Huang, (参考訳) 本稿では, 自己回帰モデルを用いて, セマンティックエンリッチメントを用いた3次元ハウスワイヤフレームの生成手法を提案する。 頂点,辺,面を独立に処理する従来の生成モデルとは異なり,本手法では,3次元ワイヤフレーム構造学習におけるコヒーレンス向上のために,統一されたワイヤベース表現を用いる。 意味的意味に基づくワイヤシーケンスを並べ替えることで、シーケンス生成時のシームレスなセマンティック統合を容易にする。 我々の2フェーズ技術はグラフベースのオートエンコーダとトランスフォーマーベースのデコーダを融合し、潜在幾何学的トークンを学習し、セマンティック・アウェア・ワイヤフレームを生成する。 推論中の反復的予測と復号化により,本モデルは,壁や屋根,部屋などの異なる構成要素に容易に分割可能な細かなワイヤフレームを生成し,形状のセマンティックな本質を反映する。 包括的住宅データセットを用いた実証実験の結果,既存の生産モデルと比較して,モデルの精度,斬新さ,意味的忠実度が優れていた。 さらなる結果と詳細はhttps://vcc.tech/research/2024/3DWireで確認できる。

We present a new approach for generating 3D house wireframes with semantic enrichment using an autoregressive model. Unlike conventional generative models that independently process vertices, edges, and faces, our approach employs a unified wire-based representation for improved coherence in learning 3D wireframe structures. By re-ordering wire sequences based on semantic meanings, we facilitate seamless semantic integration during sequence generation. Our two-phase technique merges a graph-based autoencoder with a transformer-based decoder to learn latent geometric tokens and generate semantic-aware wireframes. Through iterative prediction and decoding during inference, our model produces detailed wireframes that can be easily segmented into distinct components, such as walls, roofs, and rooms, reflecting the semantic essence of the shape. Empirical results on a comprehensive house dataset validate the superior accuracy, novelty, and semantic fidelity of our model compared to existing generative models. More results and details can be found on https://vcc.tech/research/2024/3DWire.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# UTG:テンポラルグラフのためのスナップショットとイベントベースモデルの統一ビューを目指して

UTG: Towards a Unified View of Snapshot and Event Based Models for Temporal Graphs ( http://arxiv.org/abs/2407.12269v1 )

ライセンス: Link先を確認
Shenyang Huang, Farimah Poursafaei, Reihaneh Rabbany, Guillaume Rabusseau, Emanuele Rossi, (参考訳) 時間グラフは、動的に進化する関係をモデル化する能力によって、重要性が増している。 これらのグラフは、エッジイベントのストリームまたはグラフスナップショットのシーケンスを通じて表現することができる。 これまで、両タイプの機械学習手法の開発はほとんど独立して行われており、実験的な比較と理論的補間が限られている。 本稿では,1つの傘の下にスナップショットベースおよびイベントベース機械学習モデルを統一するフレームワークである Unified Temporal Graph (UTG) を導入し,一方の表現のために開発されたモデルを他方のデータセットに効果的に適用できるようにする。 また,ストリーミング環境におけるスナップショットベースモデルの性能向上を目的とした,新しいUTGトレーニング手法を提案する。 時間的リンク予測タスクにおいて、スナップショットとイベントベースのモデルの両方を時間的グラフの種類で包括的に評価する。 まず、UTGトレーニングと組み合わせると、スナップショットベースのモデルは、イベントデータセットでもTGNやGraphMixerのようなイベントベースのモデルと競合して動作します。 第二に、スナップショットベースのモデルは、推論中のほとんどのイベントベースのモデルよりも少なくとも桁違い高速である。 第三に、NATやDyGFormerのようなイベントベースの手法は、どちらのタイプの時間グラフでもスナップショットベースの手法よりも優れているが、これは共同近傍構造の特徴を活用し、これらの特徴をスナップショットベースのモデルに組み込む可能性を強調しているためである。 これらの知見は、データ形式に依存しないモデルアーキテクチャを比較することの重要性を強調し、スナップショットベースのモデルとイベントベースのモデルの性能を結合する可能性を示唆している。

Temporal graphs have gained increasing importance due to their ability to model dynamically evolving relationships. These graphs can be represented through either a stream of edge events or a sequence of graph snapshots. Until now, the development of machine learning methods for both types has occurred largely in isolation, resulting in limited experimental comparison and theoretical crosspollination between the two. In this paper, we introduce Unified Temporal Graph (UTG), a framework that unifies snapshot-based and event-based machine learning models under a single umbrella, enabling models developed for one representation to be applied effectively to datasets of the other. We also propose a novel UTG training procedure to boost the performance of snapshot-based models in the streaming setting. We comprehensively evaluate both snapshot and event-based models across both types of temporal graphs on the temporal link prediction task. Our main findings are threefold: first, when combined with UTG training, snapshotbased models can perform competitively with event-based models such as TGN and GraphMixer even on event datasets. Second, snapshot-based models are at least an order of magnitude faster than most event-based models during inference. Third, while event-based methods such as NAT and DyGFormer outperforms snapshotbased methods on both types of temporal graphs, this is because they leverage joint neighborhood structural features thus emphasizing the potential to incorporate these features into snapshot-based models as well. These findings highlight the importance of comparing model architectures independent of the data format and suggest the potential of combining the efficiency of snapshot-based models with the performance of event-based models in the future.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# RBAD: 網膜血管分岐角検出のためのデータセットとベンチマーク

RBAD: A Dataset and Benchmark for Retinal Vessels Branching Angle Detection ( http://arxiv.org/abs/2407.12271v1 )

ライセンス: Link先を確認
Hao Wang, Wenhui Zhu, Jiayou Qin, Xin Li, Oana Dumitrascu, Xiwen Chen, Peijie Qiu, Abolfazl Razi, (参考訳) 網膜画像解析(特に分岐点の幾何学的特徴)の検出は、眼疾患の診断において重要な役割を担っている。 しかし、この目的のために使われている既存の手法は、しばしば粗いレベルであり、効率的なアノテーションのためのきめ細かい分析を欠いている。 これらの問題を緩和するために,自己設定画像処理技術を用いて網膜分岐角を検出する新しい手法を提案する。 さらに、オープンソースのアノテーションツールと、網膜分岐角を付加した40の画像からなるベンチマークデータセットを提供する。 網膜分枝角検出法と計算法について詳述し, 従来手法と比較したベンチマーク解析を行った。 以上より, 本手法は, 各種条件下で高い精度, 効率で頑健であり, 眼科研究や臨床応用に有用な手段であることが示唆された。

Detecting retinal image analysis, particularly the geometrical features of branching points, plays an essential role in diagnosing eye diseases. However, existing methods used for this purpose often are coarse-level and lack fine-grained analysis for efficient annotation. To mitigate these issues, this paper proposes a novel method for detecting retinal branching angles using a self-configured image processing technique. Additionally, we offer an open-source annotation tool and a benchmark dataset comprising 40 images annotated with retinal branching angles. Our methodology for retinal branching angle detection and calculation is detailed, followed by a benchmark analysis comparing our method with previous approaches. The results indicate that our method is robust under various conditions with high accuracy and efficiency, which offers a valuable instrument for ophthalmic research and clinical applications.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# GRIDS: 画像劣化類似性を考慮したグループ多重劣化修復

GRIDS: Grouped Multiple-Degradation Restoration with Image Degradation Similarity ( http://arxiv.org/abs/2407.12273v1 )

ライセンス: Link先を確認
Shuo Cao, Yihao Liu, Wenlong Zhang, Yu Qiao, Chao Dong, (参考訳) 従来のシングルタスク画像復元法は、特定の劣化タイプを扱うのに優れているが、複数の劣化に苦慮している。 この制限に対処するため,画像劣化類似度を用いたグループ修復(GRIDS)を提案する。 まず, 深部劣化表現の統計的モデリングを用いて, 画像劣化の関係を定量的に評価する手法を提案する。 この分析により、類似したタスクの戦略的グループ化が促進され、修復プロセスの効率性と有効性の両方が向上する。 劣化類似性に基づいて、GRIDSは復元タスクを最適群の1つに分割する。 例えば、GRIDSは11の分解型を4つの凝集基に効果的に分類する。 各グループのトレーニングモデルでは、シングルタスクの上限モデルよりも平均0.09dB、ミックストレーニングベースラインモデルよりも平均2.24dB、大幅な改善が見られた。 GRIDSには推論のための適応モデル選択機構が組み込まれており、入力劣化に基づいて適切なグループ学習モデルを自動的に選択する。 このメカニズムは、明確な分解分類モジュールに依存しないので、未知の劣化を伴う現実世界のシナリオで特に有用である。 さらに,提案手法は,ネットワーク推論を必要とせずにモデル一般化能力を予測し,実践者にとって貴重な洞察を提供する。

Traditional single-task image restoration methods excel in handling specific degradation types but struggle with multiple degradations. To address this limitation, we propose Grouped Restoration with Image Degradation Similarity (GRIDS), a novel approach that harmonizes the competing objectives inherent in multiple-degradation restoration. We first introduce a quantitative method for assessing relationships between image degradations using statistical modeling of deep degradation representations. This analysis facilitates the strategic grouping of similar tasks, enhancing both the efficiency and effectiveness of the restoration process. Based on the degradation similarity, GRIDS divides restoration tasks into one of the optimal groups, where tasks within the same group are highly correlated. For instance, GRIDS effectively groups 11 degradation types into 4 cohesive groups. Trained models within each group show significant improvements, with an average improvement of 0.09dB over single-task upper bound models and 2.24dB over the mix-training baseline model. GRIDS incorporates an adaptive model selection mechanism for inference, automatically selecting the appropriate grouped-training model based on the input degradation. This mechanism is particularly useful for real-world scenarios with unknown degradations as it does not rely on explicit degradation classification modules. Furthermore, our method can predict model generalization ability without the need for network inference, providing valuable insights for practitioners.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# MDPE:パーソナリティと感情特性を備えたマルチモーダル・デセプション・データセット

MDPE: A Multimodal Deception Dataset with Personality and Emotional Characteristics ( http://arxiv.org/abs/2407.12274v1 )

ライセンス: Link先を確認
Cong Cai, Shan Liang, Xuefei Liu, Kang Zhu, Zhengqi Wen, Jianhua Tao, Heng Xie, Jizhou Cui, Yiming Ma, Zhenhua Cheng, Hanzhe Xu, Ruibo Fu, Bin Liu, Yongwei Li, (参考訳) 近年、デジタルメディアの著しい成長と倫理的・セキュリティ上の懸念の高まりにより、偽造検出が注目を集めている。 ビデオ、音声、テキストなど、多モーダルな手法で広く研究されている。 また, 偽証生成と検出の個人差が重要な役割を担っていると考えられるが, 個人特性などの個別情報を用いて偽証検出の性能を向上させる研究もあるが, 性能評価に十分なデータセットが不足していることもあって, 現状のシステムには限界がある。 この問題に対処するために,マルチモーダルな偽装データセットMDPEを導入する。 このデータセットは、騙しの特徴に加えて、個性や感情的表現の特徴の個人差情報も含んでいる。 個人差が詐欺行動に与える影響を調べることができる。 193人の被験者による104時間以上の騙しと感情的なビデオで構成されている。 さらに,今後の偽造検出研究に有用な知見を提供するために,多数の実験を行った。 MDPEは詐欺検出だけでなく、人格認識や感情認識といったタスクの条件も提供し、それらの関係を研究できる。 我々はMDPEが感情コンピューティングの分野での研究を促進する貴重な資源になると信じている。

Deception detection has garnered increasing attention in recent years due to the significant growth of digital media and heightened ethical and security concerns. It has been extensively studied using multimodal methods, including video, audio, and text. In addition, individual differences in deception production and detection are believed to play a crucial role.Although some studies have utilized individual information such as personality traits to enhance the performance of deception detection, current systems remain limited, partly due to a lack of sufficient datasets for evaluating performance. To address this issue, we introduce a multimodal deception dataset MDPE. Besides deception features, this dataset also includes individual differences information in personality and emotional expression characteristics. It can explore the impact of individual differences on deception behavior. It comprises over 104 hours of deception and emotional videos from 193 subjects. Furthermore, we conducted numerous experiments to provide valuable insights for future deception detection research. MDPE not only supports deception detection, but also provides conditions for tasks such as personality recognition and emotion recognition, and can even study the relationships between them. We believe that MDPE will become a valuable resource for promoting research in the field of affective computing.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# 変換器はコンテクスト内でどのように一般化できるのか?

When can transformers compositionally generalize in-context? ( http://arxiv.org/abs/2407.12275v1 )

ライセンス: Link先を確認
Seijin Kobayashi, Simon Schug, Yassir Akram, Florian Redhardt, Johannes von Oswald, Razvan Pascanu, Guillaume Lajoie, João Sacramento, (参考訳) 多くのタスクはいくつかの独立したコンポーネントから構成できる。 これにより、可能なタスクが組み合わさって爆発し、トレーニング中に遭遇する可能性のあるタスクのいくつかのみが発生します。 どのような状況下で、トランスフォーマーは、タスクのサブセットから、同様のコンポーネントを共有するタスクの可能なすべての組み合わせまで、構成的に一般化できますか? 本稿では,データ生成プロセスにおける構成構造を正確に制御できるモジュール型マルチタスク設定について検討する。 本研究は,この課題に対して,文脈内で学習するトランスフォーマーが,原理的に十分表現できるにもかかわらず,構成的に一般化する上で苦労する証拠を提示する。 構成的一般化は、タスク推論とタスク実行を明確に分離するボトルネックを導入する場合にのみ可能になる。

Many tasks can be composed from a few independent components. This gives rise to a combinatorial explosion of possible tasks, only some of which might be encountered during training. Under what circumstances can transformers compositionally generalize from a subset of tasks to all possible combinations of tasks that share similar components? Here we study a modular multitask setting that allows us to precisely control compositional structure in the data generation process. We present evidence that transformers learning in-context struggle to generalize compositionally on this task despite being in principle expressive enough to do so. Compositional generalization becomes possible only when introducing a bottleneck that enforces an explicit separation between task inference and task execution.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# VCP-CLIP:ゼロショット異常セグメンテーションのための視覚的コンテキストプロンプトモデル

VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation ( http://arxiv.org/abs/2407.12276v1 )

ライセンス: Link先を確認
Zhen Qu, Xian Tao, Mukesh Prasad, Fei Shen, Zhengtao Zhang, Xinyi Gong, Guiguang Ding, (参考訳) 近年、CLIPのような大規模視覚言語モデルは、ゼロショット異常セグメンテーション(ZSAS)タスクにおいて大きな可能性を示しており、統一されたモデルを用いて、目に見えない商品の異常を直接検出する。 しかし、既存の手法では検査対象の製品カテゴリが知られていると仮定し、データプライバシのシナリオでは達成が難しい製品固有のテキストプロンプトを設定する。 さらに、同じタイプの製品であっても、特定のコンポーネントや生産プロセスのバリエーションによって大きな違いがあり、テキストプロンプトの設計に重大な課題が生じる。 そこで本研究では,CLIPに基づくZSASタスクのための視覚的コンテキストプロンプトモデル(VCP-CLIP)を提案する。 VCP-CLIPの背後にある洞察は、視覚的コンテキストを使ってCLIPの異常な意味認識能力を活性化することである。 具体的には、まず、グローバルな視覚情報をテキストプロンプトに埋め込むためのPre-VCPモジュールを設計し、製品固有のプロンプトの必要性を排除する。 そこで我々は,画像のきめ細かい特徴を利用してテキスト埋め込みを調整する新しいポストVCPモジュールを提案する。 10個の実世界の産業異常セグメンテーションデータセットで実施された広範囲な実験で、VCP-CLIPはZSASタスクで最先端のパフォーマンスを達成した。 コードはhttps://github.com/xiaozhen228/VCP-CLIPで入手できる。

Recently, large-scale vision-language models such as CLIP have demonstrated immense potential in zero-shot anomaly segmentation (ZSAS) task, utilizing a unified model to directly detect anomalies on any unseen product with painstakingly crafted text prompts. However, existing methods often assume that the product category to be inspected is known, thus setting product-specific text prompts, which is difficult to achieve in the data privacy scenarios. Moreover, even the same type of product exhibits significant differences due to specific components and variations in the production process, posing significant challenges to the design of text prompts. In this end, we propose a visual context prompting model (VCP-CLIP) for ZSAS task based on CLIP. The insight behind VCP-CLIP is to employ visual context prompting to activate CLIP's anomalous semantic perception ability. In specific, we first design a Pre-VCP module to embed global visual information into the text prompt, thus eliminating the necessity for product-specific prompts. Then, we propose a novel Post-VCP module, that adjusts the text embeddings utilizing the fine-grained features of the images. In extensive experiments conducted on 10 real-world industrial anomaly segmentation datasets, VCP-CLIP achieved state-of-the-art performance in ZSAS task. The code is available at https://github.com/xiaozhen228/VCP-CLIP.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# 知識集約型視覚質問応答のためのマルチモーダルリグレード

Multimodal Reranking for Knowledge-Intensive Visual Question Answering ( http://arxiv.org/abs/2407.12277v1 )

ライセンス: Link先を確認
Haoyang Wen, Honglei Zhuang, Hamed Zamani, Alexander Hauptmann, Michael Bendersky, (参考訳) 知識集約型視覚質問応答は、外部知識を効果的に活用して視覚的質問に答えるモデルを必要とする。 典型的なパイプラインは、知識検索器と回答生成器を含む。 しかし,画像パッチなどのローカル情報を利用した検索では,信頼性の高い質問関連スコアが得られない可能性がある。 さらに、2towerアーキテクチャは、レトリバーの関連スコアモデリングを制限し、回答生成元推論の上位候補を選択する。 本稿では,回答生成のための知識候補のランク付け品質を向上させるために,マルチモーダル・リランカというモジュールを導入する。 提案モジュールは,候補と質問の双方からマルチモーダル情報を取得し,関連性スコアモデリングのための相互対話を行う。 OK-VQAとA-OKVQAの実験は、遠隔監視からのマルチモーダルリランカーが一貫した改善をもたらすことを示している。 また、学習知識候補がテストで使用されるものと似ているか、ノイズが多い場合、評価が向上する。

Knowledge-intensive visual question answering requires models to effectively use external knowledge to help answer visual questions. A typical pipeline includes a knowledge retriever and an answer generator. However, a retriever that utilizes local information, such as an image patch, may not provide reliable question-candidate relevance scores. Besides, the two-tower architecture also limits the relevance score modeling of a retriever to select top candidates for answer generator reasoning. In this paper, we introduce an additional module, a multi-modal reranker, to improve the ranking quality of knowledge candidates for answer generation. Our reranking module takes multi-modal information from both candidates and questions and performs cross-item interaction for better relevance score modeling. Experiments on OK-VQA and A-OKVQA show that multi-modal reranker from distant supervision provides consistent improvements. We also find a training-testing discrepancy with reranking in answer generation, where performance improves if training knowledge candidates are similar to or noisier than those used in testing.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# ER-FSL:オンライン連続学習のための機能サブスペース学習による体験リプレイ

ER-FSL: Experience Replay with Feature Subspace Learning for Online Continual Learning ( http://arxiv.org/abs/2407.12279v1 )

ライセンス: Link先を確認
Huiwei Lin, (参考訳) オンライン連続学習(OCL)では、新しいデータに適応しながら古いデータからの知識を保持するディープニューラルネットワークが1回しかアクセスできない。 OCLにおける重要な課題は、古いデータに対するモデルパフォーマンスの低下を反映した破滅的な忘れ込みである。 既存のリプレイベースのメソッドは、古いデータからバッファ化されたサンプルを再生し、新しいデータの現在のサンプルを学習することで、忘れを軽減します。 本研究では,既存の手法を識別し,同じ特徴空間における学習と再生が,忘れる問題への対処に適さないことを実証的に発見する。 古いデータに関連する学習機能は、データの不均衡によって新しいデータに関連する機能によって容易に変更されるため、忘れてしまう問題が発生する。 この観察に基づいて,異なる特徴空間における学習と再生を直感的に検討する。 機能部分空間での学習は、新しいデータから新しい知識を捉えるのに十分であり、大きな機能空間での再生は、古いデータから歴史的な知識を維持するためにより多くの機能空間を提供する。 そこで本稿では,特徴部分空間学習(ER-FSL)を用いた経験リプレイという新しいOCL手法を提案する。 まず、ER-FSLは特徴空間全体を複数の部分空間に分割し、各部分空間は現在のサンプルを学習するために使用される。 さらに,空白部分空間が存在しない状況に対処するためのサブスペース再利用機構も導入されている。 第2に、ER-FSLは全ての学習された部分空間からなる蓄積された空間を用いて以前のサンプルを再生する。 3つのデータセットに対する大規模な実験は、ER-FSLが様々な最先端手法よりも優れていることを示す。

Online continual learning (OCL) involves deep neural networks retaining knowledge from old data while adapting to new data, which is accessible only once. A critical challenge in OCL is catastrophic forgetting, reflected in reduced model performance on old data. Existing replay-based methods mitigate forgetting by replaying buffered samples from old data and learning current samples of new data. In this work, we dissect existing methods and empirically discover that learning and replaying in the same feature space is not conducive to addressing the forgetting issue. Since the learned features associated with old data are readily changed by the features related to new data due to data imbalance, leading to the forgetting problem. Based on this observation, we intuitively explore learning and replaying in different feature spaces. Learning in a feature subspace is sufficient to capture novel knowledge from new data while replaying in a larger feature space provides more feature space to maintain historical knowledge from old data. To this end, we propose a novel OCL approach called experience replay with feature subspace learning (ER-FSL). Firstly, ER-FSL divides the entire feature space into multiple subspaces, with each subspace used to learn current samples. Moreover, it introduces a subspace reuse mechanism to address situations where no blank subspaces exist. Secondly, ER-FSL replays previous samples using an accumulated space comprising all learned subspaces. Extensive experiments on three datasets demonstrate the superiority of ER-FSL over various state-of-the-art methods.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# 生成モデルを退避させる - データポジショニング攻撃の力

Turning Generative Models Degenerate: The Power of Data Poisoning Attacks ( http://arxiv.org/abs/2407.12281v1 )

ライセンス: Link先を確認
Shuli Jiang, Swanand Ravindra Kadhe, Yi Zhou, Farhan Ahmed, Ling Cai, Nathalie Baracaldo, (参考訳) サードパーティによってトレーニングされた大規模言語モデル(LLM)の使用の増加は、重大なセキュリティ上の懸念を提起する。 特に、悪意のあるアクターは、有害な攻撃を通じてバックドアを導入し、望ましくないアウトプットを生成することができる。 このような攻撃は画像領域や分類タスクで広く研究されているが、自然言語生成(NLG)タスクには未熟である。 このギャップに対処するため, プレフィックスチューニング (PEFT) 法を用いて, LLMの微調整フェーズを標的とした各種毒検査手法について検討を行った。 我々は、テキスト要約とテキスト補完という2つの生成タスクにおけるそれらの効果を評価し、また、このようなNLG中毒攻撃の成功とステルスネスを定量化するための新しい指標も導入する。 実験の結果,プレフィックス調整型ハイパーパラメータとトリガー設計が,攻撃の成功とステルスネスに影響を与える最も重要な要因であることが判明した。 さらに, 既存の防犯対策は, 毒殺攻撃に対して効果がないことを示す。 本研究は,広範囲のトリガおよび攻撃設定を横断するPEFTによる微調整において,NLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチを提案する。 私たちの発見は、AIセキュリティコミュニティがこのような脅威に対する効果的な防御を開発するのに役立つことを願っています。

The increasing use of large language models (LLMs) trained by third parties raises significant security concerns. In particular, malicious actors can introduce backdoors through poisoning attacks to generate undesirable outputs. While such attacks have been extensively studied in image domains and classification tasks, they remain underexplored for natural language generation (NLG) tasks. To address this gap, we conduct an investigation of various poisoning techniques targeting the LLM's fine-tuning phase via prefix-tuning, a Parameter Efficient Fine-Tuning (PEFT) method. We assess their effectiveness across two generative tasks: text summarization and text completion; and we also introduce new metrics to quantify the success and stealthiness of such NLG poisoning attacks. Through our experiments, we find that the prefix-tuning hyperparameters and trigger designs are the most crucial factors to influence attack success and stealthiness. Moreover, we demonstrate that existing popular defenses are ineffective against our poisoning attacks. Our study presents the first systematic approach to understanding poisoning attacks targeting NLG tasks during fine-tuning via PEFT across a wide range of triggers and attack settings. We hope our findings will aid the AI security community in developing effective defenses against such threats.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# 拡散を伴うチップ配置

Chip Placement with Diffusion ( http://arxiv.org/abs/2407.12282v1 )

ライセンス: Link先を確認
Vint Lee, Chun Deng, Leena Elzeiny, Pieter Abbeel, John Wawrzynek, (参考訳) マクロ配置はデジタル回路設計において重要なステップであり、2次元チップ上のマクロとして知られるコンポーネントの大規模なコレクションの物理的な位置を定義する。 配置時に得られる物理的レイアウトは、消費電力、面積、性能などのチップの重要な性能指標を決定する。 既存の学習ベースの手法は、典型的には強化学習に依存しているため不足するが、これは遅く、シーケンシャルなプロセスとして配置をキャストすることでエージェントの柔軟性を制限している。 代わりに、すべてのコンポーネントを同時に配置するために強力な拡散モデルを使用します。 このようなモデルを大規模に訓練できるようにするため,本研究では,事前学習のための大規模な合成データセットを生成するアルゴリズムとともに,デノナイジングモデルのための新しいアーキテクチャを提案する。 我々は,我々のモデルが配置課題に対処できることを実証的に示し,最先端の手法と比較して配置ベンチマーク上での競合性能を達成することを実証した。

Macro placement is a vital step in digital circuit design that defines the physical location of large collections of components, known as macros, on a 2-dimensional chip. The physical layout obtained during placement determines key performance metrics of the chip, such as power consumption, area, and performance. Existing learning-based methods typically fall short because of their reliance on reinforcement learning, which is slow and limits the flexibility of the agent by casting placement as a sequential process. Instead, we use a powerful diffusion model to place all components simultaneously. To enable such models to train at scale, we propose a novel architecture for the denoising model, as well as an algorithm to generate large synthetic datasets for pre-training. We empirically show that our model can tackle the placement task, and achieve competitive performance on placement benchmarks compared to state-of-the-art methods.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# CDFL: コントラスト学習と深層クラスタリングを用いた効率的な人間活動認識

CDFL: Efficient Federated Human Activity Recognition using Contrastive Learning and Deep Clustering ( http://arxiv.org/abs/2407.12287v1 )

ライセンス: Link先を確認
Ensieh Khazaei, Alireza Esmaeilzehi, Bilal Taha, Dimitrios Hatzinakos, (参考訳) ユビキタスコンピューティングの領域では、ヒューマンアクティビティ認識(HAR)は多様なセンサーのデータを通して人間の行動の自動化とインテリジェントな識別に不可欠である。 しかし、中央サーバ上のデータを集約し、集中処理を行うことによる従来の機械学習アプローチは、メモリ集約であり、プライバシの懸念を高める。 フェデレートラーニング(FL)は、ローカルデータの代わりにローカルモデルパラメータを交換することで、グローバルモデルを複数のデバイス間で協調的にトレーニングすることで、ソリューションとして登場した。 しかし、現実的な設定では、デバイス上のセンサーデータは非独立に分布し、同一に分布する(Non-IID)。 つまり、ほとんどのデバイスで記録されるデータアクティビティは疎結合であり、各クライアントのセンサデータの分散は不整合である可能性がある。 その結果、異種環境における典型的なFLフレームワークは、グローバルモデルの目的をグローバルな目標から逸脱させることにより、収束の遅さと性能の低下に悩まされる。 HARに適用されるほとんどのFLメソッドは、非IID問題や現在のプライバシーやスケーラビリティの懸念を考慮せずに、過度に理想的なシナリオのために設計されている。 この研究はこれらの課題に対処し、画像ベースのHARのための効率的なフェデレーション学習フレームワークCDFLを提案する。 CDFLは、コントラスト学習とディープクラスタリングを用いて、プライバシ保存画像の代表セットを効率的に選択し、グローバルモデル更新に有効なクライアントを選択することにより、通信オーバーヘッドを低減し、プライバシ保護データのトレーニングにより、グローバルモデル品質を向上させる。 我々は,3つの公開データセット,すなわちStanford40,PPMI,VOC2012で実施した包括的実験により,最先端のアプローチと比較してCDFLの性能,収束率,帯域幅利用の優位性を実証した。

In the realm of ubiquitous computing, Human Activity Recognition (HAR) is vital for the automation and intelligent identification of human actions through data from diverse sensors. However, traditional machine learning approaches by aggregating data on a central server and centralized processing are memory-intensive and raise privacy concerns. Federated Learning (FL) has emerged as a solution by training a global model collaboratively across multiple devices by exchanging their local model parameters instead of local data. However, in realistic settings, sensor data on devices is non-independently and identically distributed (Non-IID). This means that data activity recorded by most devices is sparse, and sensor data distribution for each client may be inconsistent. As a result, typical FL frameworks in heterogeneous environments suffer from slow convergence and poor performance due to deviation of the global model's objective from the global objective. Most FL methods applied to HAR are either designed for overly ideal scenarios without considering the Non-IID problem or present privacy and scalability concerns. This work addresses these challenges, proposing CDFL, an efficient federated learning framework for image-based HAR. CDFL efficiently selects a representative set of privacy-preserved images using contrastive learning and deep clustering, reduces communication overhead by selecting effective clients for global model updates, and improves global model quality by training on privacy-preserved data. Our comprehensive experiments carried out on three public datasets, namely Stanford40, PPMI, and VOC2012, demonstrate the superiority of CDFL in terms of performance, convergence rate, and bandwidth usage compared to state-of-the-art approaches.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# 機械学習のための情報理論の基礎

Information-Theoretic Foundations for Machine Learning ( http://arxiv.org/abs/2407.12288v1 )

ライセンス: Link先を確認
Hong Jun Jeon, Benjamin Van Roy, (参考訳) 過去10年間の機械学習の驚くべき進歩は、注目に値するものとなっている。 振り返ってみれば、これらのマイルストーンが実験を導くための厳密な理論をほとんど、あるいは全く持たなかったことは、目覚ましいことと不安である。 この事実にもかかわらず、実践者は以前の大規模な実証実験の観察を通して将来の実験を導くことができた。 しかし、プラトンの洞窟のアレゴリー(英語版)に言及すると、フィールドの現実の概念を形成する観察は、その現実の断片を表す影である可能性が高い。 本研究では,洞窟外に存在する問題に答えようとする理論的枠組みを提案する。 理論家にとって、我々は数学的に厳密なフレームワークを提供し、将来の探索のために多くの興味深いアイデアを開放する。 実践者には、結果が非常に直感的で、一般的に、将来の調査を導くための原則を形成するのに役立つフレームワークを提供する。 具体的には、ベイズ統計とシャノンの情報理論に根ざした理論的枠組みを提供する。 本フレームワークは,情報の基本的限界を考慮した最適なベイズ学習者の性能を特徴付ける。 この研究を通じて、非常に一般的な理論的結果を導出し、未知の分布下で独立に分布するデータから、連続的なデータ、メタラーニングに適する階層構造を示すデータまで、設定に特異的な洞察を導出する。 我々は、不特定アルゴリズムの性能を特徴付けるセクションを締めくくる。 これらの結果はエキサイティングで、この無限に複雑な世界でますます困難な機械学習の課題を克服しようと努めている。

The staggering progress of machine learning in the past decade has been a sight to behold. In retrospect, it is both remarkable and unsettling that these milestones were achievable with little to no rigorous theory to guide experimentation. Despite this fact, practitioners have been able to guide their future experimentation via observations from previous large-scale empirical investigations. However, alluding to Plato's Allegory of the cave, it is likely that the observations which form the field's notion of reality are but shadows representing fragments of that reality. In this work, we propose a theoretical framework which attempts to answer what exists outside of the cave. To the theorist, we provide a framework which is mathematically rigorous and leaves open many interesting ideas for future exploration. To the practitioner, we provide a framework whose results are very intuitive, general, and which will help form principles to guide future investigations. Concretely, we provide a theoretical framework rooted in Bayesian statistics and Shannon's information theory which is general enough to unify the analysis of many phenomena in machine learning. Our framework characterizes the performance of an optimal Bayesian learner, which considers the fundamental limits of information. Throughout this work, we derive very general theoretical results and apply them to derive insights specific to settings ranging from data which is independently and identically distributed under an unknown distribution, to data which is sequential, to data which exhibits hierarchical structure amenable to meta-learning. We conclude with a section dedicated to characterizing the performance of misspecified algorithms. These results are exciting and particularly relevant as we strive to overcome increasingly difficult machine learning challenges in this endlessly complex world.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# JointDreamer:ジョイントスコア蒸留によるテキスト間3次元生成における幾何整合性とテキスト整合性の確保

JointDreamer: Ensuring Geometry Consistency and Text Congruence in Text-to-3D Generation via Joint Score Distillation ( http://arxiv.org/abs/2407.12291v1 )

ライセンス: Link先を確認
Chenhan Jiang, Yihan Zeng, Tianyang Hu, Songcun Xu, Wei Zhang, Hang Xu, Dit-Yan Yeung, (参考訳) 十分に訓練された2次元拡散モデルによるSDS(Score Distillation Sampling)は、テキストから3次元生成において大きな可能性を示している。 しかし、このパラダイムは、ビュー間のコヒーレンスを見越し、世代ごとに3Dの不整合をもたらす、各ビューに対する3D表現のレンダリング分布に、ビューに依存しない2D画像分布を蒸留する。 本研究では,コヒーレントな3D世代を保証する新しいパラダイムである,textbf{J}oint \textbf{S}core \textbf{D}istillation (JSD)を提案する。 具体的には,拡散モデルからデノナイズド画像間のコヒーレンスを捕捉するエネルギー関数を導入するジョイントイメージ分布をモデル化する。 次に,SDSの単一ビューとは対照的に,複数の3次元表現のレンダリングビュー上でのジョイントスコア蒸留を導出する。 さらに、3つのユニバーサルビューアウェアモデルをエネルギー関数としてインスタンス化し、JSDとの互換性を示す。 経験的に、JSDはテキストの一貫性を維持しながら、SDSにおける3Dの不整合問題を著しく軽減する。 さらに,ジェネリックディテールを高めるため,幾何ファディングスキームと分類自由誘導(CFG)スイッチング戦略を導入する。 われわれのフレームワークであるJointDreamerはテキストから3D生成の新しいベンチマークを確立し、88.5\%のCLIP R-Precisionと27.7\%のCLIPスコアで優れた結果を得た。 これらの指標は、並外れたテキストの一貫性とテクスチャの忠実さを示すとともに、顕著な幾何学的整合性とテクスチャの忠実さを示す。

Score Distillation Sampling (SDS) by well-trained 2D diffusion models has shown great promise in text-to-3D generation. However, this paradigm distills view-agnostic 2D image distributions into the rendering distribution of 3D representation for each view independently, overlooking the coherence across views and yielding 3D inconsistency in generations. In this work, we propose \textbf{J}oint \textbf{S}core \textbf{D}istillation (JSD), a new paradigm that ensures coherent 3D generations. Specifically, we model the joint image distribution, which introduces an energy function to capture the coherence among denoised images from the diffusion model. We then derive the joint score distillation on multiple rendered views of the 3D representation, as opposed to a single view in SDS. In addition, we instantiate three universal view-aware models as energy functions, demonstrating compatibility with JSD. Empirically, JSD significantly mitigates the 3D inconsistency problem in SDS, while maintaining text congruence. Moreover, we introduce the Geometry Fading scheme and Classifier-Free Guidance (CFG) Switching strategy to enhance generative details. Our framework, JointDreamer, establishes a new benchmark in text-to-3D generation, achieving outstanding results with an 88.5\% CLIP R-Precision and 27.7\% CLIP Score. These metrics demonstrate exceptional text congruence, as well as remarkable geometric consistency and texture fidelity.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# あらゆる標的を攻撃可能:一般の潜伏感染による敵対的事例生成

Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection ( http://arxiv.org/abs/2407.12292v1 )

ライセンス: Link先を確認
Youheng Sun, Shengming Yuan, Xuanhan Wang, Lianli Gao, Jingkuan Song, (参考訳) 知覚不能な摂動によって任意のイメージをターゲットオブジェクトとして認識するモデルを誤解させるターゲット敵攻撃は、ディープニューラルネットワーク(DNN)の脆弱性評価の主流となる。 既存のターゲット攻撃者は既知のターゲットクラスを攻撃することしか学ばないため、未知のクラスをうまく一般化することはできない。 この問題に対処するために、ターゲットクラスに対する逆例を構築することができる$\bf{G}$eneralized $\bf{A}$dversarial attac$\bf{KER}$$$$\bf{GAKer}$を提案する。 GAKerの基本的な考え方は、敵のサンプル生成中に感染しがちな表現を作ることだ。 この目的のために、抽出された対象物の潜在表現は、まず、対向生成装置において入力画像の中間特徴に注入される。 そして、特徴空間内の対象物に近づきながら、入力画像との視覚的整合性を確保するために、ジェネレータを最適化する。 GAKerはクラスに依存しないがモデルに依存しないため、より多くのDNNの脆弱性を明らかにするだけでなく、より広い範囲のクラスにおけるDNNの欠陥を特定する一般的なツールと見なすことができる。 大規模実験により, 未知クラスと未知クラスの両方に対して, 逆例を生成する方法の有効性が実証された。 特に,他の生成手法と比較して,未知のクラスに対する攻撃成功率約14.13\%,既知のクラスに対する攻撃成功率約4.23\%を達成する。 私たちのコードはhttps://github.com/VL-Group/GAKerで利用可能です。

Targeted adversarial attack, which aims to mislead a model to recognize any image as a target object by imperceptible perturbations, has become a mainstream tool for vulnerability assessment of deep neural networks (DNNs). Since existing targeted attackers only learn to attack known target classes, they cannot generalize well to unknown classes. To tackle this issue, we propose $\bf{G}$eneralized $\bf{A}$dversarial attac$\bf{KER}$ ($\bf{GAKer}$), which is able to construct adversarial examples to any target class. The core idea behind GAKer is to craft a latently infected representation during adversarial example generation. To this end, the extracted latent representations of the target object are first injected into intermediate features of an input image in an adversarial generator. Then, the generator is optimized to ensure visual consistency with the input image while being close to the target object in the feature space. Since the GAKer is class-agnostic yet model-agnostic, it can be regarded as a general tool that not only reveals the vulnerability of more DNNs but also identifies deficiencies of DNNs in a wider range of classes. Extensive experiments have demonstrated the effectiveness of our proposed method in generating adversarial examples for both known and unknown classes. Notably, compared with other generative methods, our method achieves an approximately $14.13\%$ higher attack success rate for unknown classes and an approximately $4.23\%$ higher success rate for known classes. Our code is available in https://github.com/VL-Group/GAKer.
翻訳日:2024-07-18 18:38:37 公開日:2024-07-17
# マルチ進化型ディープニューラルネットワーク(Multi-EDNN)

Multi evolutional deep neural networks (Multi-EDNN) ( http://arxiv.org/abs/2407.12293v1 )

ライセンス: Link先を確認
Hadden Kim, Tamer A. Zaki, (参考訳) 進化的ディープニューラルネットワーク(EDNN)は、支配方程式を用いて、解場のネットワーク表現を行進させることにより、偏微分方程式(PDE)を解く。 大規模なドメインで結合されたPDEを解決するために単一のネットワークを使用することは、多数のネットワークパラメータを必要とし、かなりの計算コストを発生させる。 我々は,各状態変数に対して独立ネットワークを用いることで,PDEのシステムを解決するための結合EDNN(C-EDNN)を導入する。 また、グローバルドメインを複数の要素に空間的に分割し、各要素に個別のEDNNを割り当て、PDEの局所的進化を解決することで分散EDNN(D-EDNN)を導入する。 それらのネットワークは、フラックス再構成法と同様に、その界面で解とフラックスを交換し、PDEダイナミクスが隣り合う要素間で正確に保存されることを保証する。 C-EDNNとD-EDNNは、Multi-EDNNメソッドの一般的なクラスを形成する。 これらの手法は, 線形対流, 熱方程式, クーエット流およびテイラー-グリーン流における圧縮可能なナヴィエ-ストークス方程式などの正準問題の助けを借りて実演する。

Evolutional deep neural networks (EDNN) solve partial differential equations (PDEs) by marching the network representation of the solution fields, using the governing equations. Use of a single network to solve coupled PDEs on large domains requires a large number of network parameters and incurs a significant computational cost. We introduce coupled EDNN (C-EDNN) to solve systems of PDEs by using independent networks for each state variable, which are only coupled through the governing equations. We also introduce distributed EDNN (D-EDNN) by spatially partitioning the global domain into several elements and assigning individual EDNNs to each element to solve the local evolution of the PDE. The networks then exchange the solution and fluxes at their interfaces, similar to flux-reconstruction methods, and ensure that the PDE dynamics are accurately preserved between neighboring elements. Together C-EDNN and D-EDNN form the general class of Multi-EDNN methods. We demonstrate these methods with aid of canonical problems including linear advection, the heat equation, and the compressible Navier-Stokes equations in Couette and Taylor-Green flows.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# VEON:語彙による職業予測

VEON: Vocabulary-Enhanced Occupancy Prediction ( http://arxiv.org/abs/2407.12294v1 )

ライセンス: Link先を確認
Jilai Zheng, Pin Tang, Zhongdao Wang, Guoqing Wang, Xiangxuan Ren, Bailan Feng, Chao Ma, (参考訳) 3D占有体として世界を認識することは、あらゆる種類の障害物との衝突を避けるために、エンボディード・エージェントをサポートする。 オープンボキャブラリ画像理解は近年普及しているが、予測される3D占有グリッドをオープンワールドセマンティクスにバインドする方法は、限られたオープンワールドアノテーションのためにまだ未探索のままである。 したがって、スクラッチからモデルを構築する代わりに、2Dファンデーションモデル、特に深度モデルMiDaSとセマンティックモデルCLIPをブレンドして、セマンティクスを3D空間に引き上げ、それによって3D占有を達成しようとします。 しかし、これらの基盤モデルの構築は簡単ではない。 第一に、MiDaSは、相対的な深さしか生成しないが、特徴持ち上げのビン深さを推定できないという、深さあいまいな問題に直面している。 第二に、CLIP画像には高解像度のピクセルレベルの情報がなく、3D占有精度が制限されている。 第三に、オープン語彙は長い尾の問題にしばしば閉じ込められる。 これらの問題に対処するために,VEON for Vocabulary-Enhanced Occupancy predictioN を提案する。 まず,MDASにZoedepthヘッドとローランク適応(LoRA)を装着し,良好な深度を維持しつつ,相対測度ビンの深度変換を行った。 次に、CLIPビジョンエンコーダに軽量なサイドアダプタネットワークを接続し、微細な3D占有率予測のための高精細な特徴を生成する。 さらに、末尾クラスに優先順位をつけるために、クラス再重み付け戦略を設計する。 Occ3D-nuScenesでは46Mのトレーニング可能なパラメータとゼロ手動のセマンティックラベルのみで15.14mIoUを達成した。

Perceiving the world as 3D occupancy supports embodied agents to avoid collision with any types of obstacle. While open-vocabulary image understanding has prospered recently, how to bind the predicted 3D occupancy grids with open-world semantics still remains under-explored due to limited open-world annotations. Hence, instead of building our model from scratch, we try to blend 2D foundation models, specifically a depth model MiDaS and a semantic model CLIP, to lift the semantics to 3D space, thus fulfilling 3D occupancy. However, building upon these foundation models is not trivial. First, the MiDaS faces the depth ambiguity problem, i.e., it only produces relative depth but fails to estimate bin depth for feature lifting. Second, the CLIP image features lack high-resolution pixel-level information, which limits the 3D occupancy accuracy. Third, open vocabulary is often trapped by the long-tail problem. To address these issues, we propose VEON for Vocabulary-Enhanced Occupancy predictioN by not only assembling but also adapting these foundation models. We first equip MiDaS with a Zoedepth head and low-rank adaptation (LoRA) for relative-metric-bin depth transformation while reserving beneficial depth prior. Then, a lightweight side adaptor network is attached to the CLIP vision encoder to generate high-resolution features for fine-grained 3D occupancy prediction. Moreover, we design a class reweighting strategy to give priority to the tail classes. With only 46M trainable parameters and zero manual semantic labels, VEON achieves 15.14 mIoU on Occ3D-nuScenes, and shows the capability of recognizing objects with open-vocabulary categories, meaning that our VEON is label-efficient, parameter-efficient, and precise enough.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# 低ビットレートリモートセンシング画像圧縮に先立つ画像間類似性の爆発

Exploiting Inter-Image Similarity Prior for Low-Bitrate Remote Sensing Image Compression ( http://arxiv.org/abs/2407.12295v1 )

ライセンス: Link先を確認
Junhui Li, Xingsong Hou, (参考訳) 深層学習に基づく手法は、その優れた性能のため、リモートセンシング(RS)画像圧縮に大きな注目を集めている。 これらの手法の多くは圧縮ネットワークの符号化能力の向上とエントロピーモデル予測精度の向上に重点を置いている。 しかし、それらは通常、画像間の重要な類似性を無視して、個々の画像を独立に圧縮し、圧縮する。 本稿では,圧縮アルゴリズムのデコード終端に展開し,画像間の類似性を事前に提供するコードブックベースのRS画像圧縮(Code-RSIC)手法を提案する。 具体的には、競合生成モデルVQGANを用いて、まず高品質な離散コードブックを事前訓練する。 次にトランスフォーマーに基づく予測モデルを導入し、既存の圧縮アルゴリズムから復号された画像の特徴を凍結した高品質のコードブックに整列させる。 最後に,主にトランスフォーマーブロックとマルチヘッドクロスアテンションモジュール(MCM)から構成される階層型事前統合ネットワーク(HPIN)を開発し,コードブックから階層型事前クエリを行えるようにすることで,テクスチャリッチなRS画像のデコードを可能にする。 広汎な実験結果から,提案したCode-RSICは,従来の画像圧縮アルゴリズムと学習ベースの画像圧縮アルゴリズムを知覚品質で大幅に上回っていることがわかった。 コードは \url{https://github.com/mlkk518/Code-RSIC/ で入手できる。

Deep learning-based methods have garnered significant attention in remote sensing (RS) image compression due to their superior performance. Most of these methods focus on enhancing the coding capability of the compression network and improving entropy model prediction accuracy. However, they typically compress and decompress each image independently, ignoring the significant inter-image similarity prior. In this paper, we propose a codebook-based RS image compression (Code-RSIC) method with a generated discrete codebook, which is deployed at the decoding end of a compression algorithm to provide inter-image similarity prior. Specifically, we first pretrain a high-quality discrete codebook using the competitive generation model VQGAN. We then introduce a Transformer-based prediction model to align the latent features of the decoded images from an existing compression algorithm with the frozen high-quality codebook. Finally, we develop a hierarchical prior integration network (HPIN), which mainly consists of Transformer blocks and multi-head cross-attention modules (MCMs) that can query hierarchical prior from the codebook, thus enhancing the ability of the proposed method to decode texture-rich RS images. Extensive experimental results demonstrate that the proposed Code-RSIC significantly outperforms state-of-the-art traditional and learning-based image compression algorithms in terms of perception quality. The code will be available at \url{https://github.com/mlkk518/Code-RSIC/
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# WebAssemblyとセキュリティ: レビュー

WebAssembly and Security: a review ( http://arxiv.org/abs/2407.12297v1 )

ライセンス: Link先を確認
Gaetano Perrone, Simon Pietro Romano, (参考訳) WebAssemblyは、現代的なアプリケーションを開発するアプローチに革命をもたらしている。 この技術は、Webブラウザでポータブルでパフォーマンスの高いモジュールを作成するために生まれたものだが、現在は、多種多様なユースケースシナリオで広く活用されている。 コミュニティの幅広い努力により、新しいツールキットによって、この技術は現実世界のアプリケーションにもっと適している。 この文脈では、WebAssemblyエコシステムとソフトウェアセキュリティの間の連絡を研究することが重要です。 実際、WebAssemblyはシステムのセキュリティを改善するための媒体になり得るが、検出システムを避けたり、暗号化アクティビティを実行するために利用することもできる。 さらに、C言語のような低レベル言語で開発されたプログラムはWebAssemblyバイナリでコンパイルすることができ、WebAssemblyサンドボックス環境におけるメモリに対する攻撃に弱いプログラムの実行によるセキュリティへの影響を評価することは興味深い。 また、WebAssemblyはセキュアで孤立した環境を提供するように設計されているが、その弱点を分析し、それに対応するための新しいメカニズムを提案するために、そのような機能を評価すべきである。 WebAssemblyの脆弱性の検出や攻撃の検出を目的とした、最も関連性の高いソリューションに関する調査も実施されているが、この記事執筆時点では、WebAssemblyエコシステムにおけるセキュリティ関連の文献の包括的なレビューは行われていない。 このギャップを埋めるために、WebAssemblyのセキュリティを扱う研究の包括的なレビューを提案しています。 私たちは7つの異なるセキュリティカテゴリを識別することで121の論文を分析します。 私たちの研究がWebAssemblyの複雑な状況に関する洞察を提供し、WebAssemblyエコシステムの領域における新たな道への研究者、開発者、セキュリティ専門家を導くことを期待しています。

WebAssembly is revolutionizing the approach to developing modern applications. Although this technology was born to create portable and performant modules in web browsers, currently, its capabilities are extensively exploited in multiple and heterogeneous use-case scenarios. With the extensive effort of the community, new toolkits make the use of this technology more suitable for real-world applications. In this context, it is crucial to study the liaisons between the WebAssembly ecosystem and software security. Indeed, WebAssembly can be a medium for improving the security of a system, but it can also be exploited to evade detection systems or for performing cryptomining activities. In addition, programs developed in low-level languages such as C can be compiled in WebAssembly binaries, and it is interesting to evaluate the security impacts of executing programs vulnerable to attacks against memory in the WebAssembly sandboxed environment. Also, WebAssembly has been designed to provide a secure and isolated environment, but such capabilities should be assessed in order to analyze their weaknesses and propose new mechanisms for addressing them. Although some research works have provided surveys of the most relevant solutions aimed at discovering WebAssembly vulnerabilities or detecting attacks, at the time of writing, there is no comprehensive review of security-related literature in the WebAssembly ecosystem. We aim to fill this gap by proposing a comprehensive review of research works dealing with security in WebAssembly. We analyze 121 papers by identifying seven different security categories. We hope that our work will provide insights into the complex landscape of WebAssembly and guide researchers, developers, and security professionals towards novel avenues in the realm of the WebAssembly ecosystem.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# リウビリアン皮膚効果による光ポンピング

Optical pumping through the Liouvillian skin effect ( http://arxiv.org/abs/2407.12303v1 )

ライセンス: Link先を確認
De-Huan Cai, Wei Yi, Chen-Xiao Dong, (参考訳) リウヴィリアのスキン効果は、リウヴィリアのスーパーオペレーターの本質的な非ハーミティック性に由来するリウヴィリアのアイグネムオーデの境界親和性を記述する。 動的には、過渡的力学における方向流として現れ、長い時間に開境界付近で個体群が蓄積される。 興味深いことに、同様の力学現象はよく知られた光ポンピングのプロセスに存在し、そこでは系は消散と光駆動の相互作用を通じて所望の状態(または暗黒状態の部分空間)に駆動される。 本研究は、リウビリアの皮膚効果の観点から、典型的な光ポンピングプロセスが実際に理解可能であることを示す。 異なる境界条件下でリウビリアスペクトルを研究することにより、駆動散逸励起過程のリウビリアスペクトルが状態空間の境界条件に敏感に依存していることが明らかとなる。 このような接続は、開境界条件下での工学的ユビリアンギャップを通じて効率的な光ポンピングスキームを設計するための洞察と実践的な手段を提供する。 これらの知見に基づき、トラップイオンに対する典型的なサイドバンド冷却方式の効率は、直感的消散チャネルを導入することで劇的に向上できることを示す。 以上の結果から, 光ポンピングは, 状態調製と冷却に重要な意味を持つと考えられる。

The Liouvillian skin effect describes the boundary affinity of Liouvillian eignemodes that originates from the intrinsic non-Hermiticity of the Liouvillian superoperators. Dynamically, it manifests as directional flow in the transient dynamics, and the accumulation of population near open boundaries at long times. Intriguingly, similar dynamic phenomena exist in the well-known process of optical pumping, where the system is driven into a desired state (or a dark-state subspace) through the interplay of dissipation and optical drive. In this work, we show that typical optical pumping processes can indeed be understood in terms of the Liouvillian skin effect. By studying the Liouvillian spectra under different boundary conditions, we reveal that the Liouvillian spectra of the driven-dissipative pumping process sensitively depend on the boundary conditions in the state space, a signature that lies at the origin of the Liouvillian skin effect. Such a connection provides insights and practical means for designing efficient optical-pumping schemes through engineering Liouvillian gaps under the open-boundary condition. Based on these understandings, we show that the efficiency of a typical side-band cooling scheme for trapped ions can be dramatically enhanced by introducing counterintuitive dissipative channels. Our results provide a useful perspective for optical pumping, with interesting implications for state preparation and cooling.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# SHARC-VQE:分子シミュレーションのための補正・補正可能な変分量子固有解器による単純化されたハミルトンアプローチ

SHARC-VQE: Simplified Hamiltonian Approach with Refinement and Correction enabled Variational Quantum Eigensolver for Molecular Simulation ( http://arxiv.org/abs/2407.12305v1 )

ライセンス: Link先を確認
Harshdeep Singh, Sonjoy Majumder, Sabyashachi Mishra, (参考訳) フェルミオン空間からキュービット空間への分子ハミルトニアンの変換は、一連のパウリ弦をもたらす。 エネルギーを計算するには、それぞれの弦の期待値を評価することが必要であり、量子化学において変分量子固有解法(VQE)を適用する上で重要なボトルネックとなる。 フェルミオンハミルトニアンとは異なり、クビットハミルトニアンの項は加法的である。 この研究は、この性質を活用して、部分クビットハミルトニアンから情報を抽出する新しい方法を導入し、VQEの効率を向上する。 本研究はSHARC-VQE法(Simplified Hamiltonian Approximation, Refinement, and Correction-VQE)を導入する。 実行が容易な部分は部分ハミルトニアンであり、残りの部分は実行が複雑だが、一般にはそれほど重要ではない。 後者は洗練された作用素によって近似され、部分ハミルトニアンへの補正として加算される。 SHARC-VQEは分子シミュレーションの計算コストを大幅に削減する。 単一のエネルギー測定のコストは$O(\frac{N^4}{\epsilon^2})$から$O(\frac{1}{\epsilon^2})$に下げることができるが、VQEの全体的なコストは$O(\frac{N^7}{\epsilon^2})$から$O(\frac{N^3}{\epsilon^2})$に下げることができる。 さらに、SHARC-VQEを用いた測定結果は、量子回路から発生するノイズによる誤差が少なく、エラーを20-40%から5-10%に削減する。 さらに、SHARC-VQEは初期化手法として示され、単純化された部分ハミルトニアンを用いて複素問題に対する最適な出発点を特定する。

The transformation of a molecular Hamiltonian from the fermionic space to the qubit space results in a series of Pauli strings. Calculating the energy then involves evaluating the expectation values of each of these strings, which presents a significant bottleneck for applying variational quantum eigensolvers (VQEs) in quantum chemistry. Unlike fermionic Hamiltonians, the terms in a qubit Hamiltonian are additive. This work leverages this property to introduce a novel method for extracting information from the partial qubit Hamiltonian, thereby enhancing the efficiency of VQEs. This work introduces the SHARC-VQE (Simplified Hamiltonian Approximation, Refinement, and Correction-VQE) method, where the full molecular Hamiltonian is partitioned into two parts based on the ease of quantum execution. The easy-to-execute part constitutes the Partial Hamiltonian, and the remaining part, while more complex to execute, is generally less significant. The latter is approximated by a refined operator and added up as a correction into the partial Hamiltonian. SHARC-VQE significantly reduces computational costs for molecular simulations. The cost of a single energy measurement can be reduced from $O(\frac{N^4}{\epsilon^2})$ to $O(\frac{1}{\epsilon^2})$ for a system of $N$ qubits and accuracy $\epsilon$, while the overall cost of VQE can be reduced from $O(\frac{N^7}{\epsilon^2})$ to $O(\frac{N^3}{\epsilon^2})$. Furthermore, measurement outcomes using SHARC-VQE are less prone to errors induced by noise from quantum circuits, reducing the errors from 20-40% to 5-10% without any additional error correction or mitigation technique. Additionally, the SHARC-VQE is demonstrated as an initialization technique, where the simplified partial Hamiltonian is used to identify an optimal starting point for a complex problem.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# Splatfacto-W: 制約のない写真集のためのガウススプラッティングのNerfstudio実装

Splatfacto-W: A Nerfstudio Implementation of Gaussian Splatting for Unconstrained Photo Collections ( http://arxiv.org/abs/2407.12306v1 )

ライセンス: Link先を確認
Congrong Xu, Justin Kerr, Angjoo Kanazawa, (参考訳) 未制約画像からの新たなビュー合成は、正確なシーン再構成を複雑にする光度変化と過渡的オクローダのために、重要な課題でありながら難しい課題である。 従来の手法では,Neural Radiance Fields (NeRFs) に画像単位の外観特徴を組み込むことで,これらの問題にアプローチしている。 3D Gaussian Splatting (3DGS)は、高速なトレーニングとリアルタイムレンダリングを提供するが、制約のない画像コレクションに適応することは、アーキテクチャがかなり異なるため、簡単ではない。 本稿では,ガウス色ごとのニューラルカラー特徴と画像ごとの外観をラスタライズプロセスに組み込むアプローチであるSplatfacto-Wを紹介する。 我々の重要な貢献は、潜時外見モデリング、効率的な過渡的オブジェクトハンドリング、正確な背景モデリングである。 Splatfacto-Wは高品質でリアルタイムな新しいビュー合成を提供する。 提案手法は,3DGSに比べて平均5.3dBのPak Signal-to-Noise Ratio(PSNR)を向上し,NeRF法に比べて150倍のトレーニング速度を向上し,3DGSと同様のレンダリング速度を実現する。 Nerfstudioに統合された追加のビデオ結果とコードはhttps://kevinxu02.github.io/splatfactow/.comで公開されている。

Novel view synthesis from unconstrained in-the-wild image collections remains a significant yet challenging task due to photometric variations and transient occluders that complicate accurate scene reconstruction. Previous methods have approached these issues by integrating per-image appearance features embeddings in Neural Radiance Fields (NeRFs). Although 3D Gaussian Splatting (3DGS) offers faster training and real-time rendering, adapting it for unconstrained image collections is non-trivial due to the substantially different architecture. In this paper, we introduce Splatfacto-W, an approach that integrates per-Gaussian neural color features and per-image appearance embeddings into the rasterization process, along with a spherical harmonics-based background model to represent varying photometric appearances and better depict backgrounds. Our key contributions include latent appearance modeling, efficient transient object handling, and precise background modeling. Splatfacto-W delivers high-quality, real-time novel view synthesis with improved scene consistency in in-the-wild scenarios. Our method improves the Peak Signal-to-Noise Ratio (PSNR) by an average of 5.3 dB compared to 3DGS, enhances training speed by 150 times compared to NeRF-based methods, and achieves a similar rendering speed to 3DGS. Additional video results and code integrated into Nerfstudio are available at https://kevinxu02.github.io/splatfactow/.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# 知識の優先と不確実性を考慮した3次元手指再建術

Weakly-Supervised 3D Hand Reconstruction with Knowledge Prior and Uncertainty Guidance ( http://arxiv.org/abs/2407.12307v1 )

ライセンス: Link先を確認
Yufei Zhang, Jeffrey O. Kephart, Qiang Ji, (参考訳) 所要の3Dデータを取得することは、制御された環境に特殊な機器を配置することを必要とするため、完全教師付き単眼3Dハンドリコンストラクションは困難であることが多い。 本稿では,人間の手の構造や機能を理解する上で確立された基本原理を活用することによって,そのような要求を回避する弱教師付き手法を提案する。 具体的には, 生体力学, 機能解剖学, 物理など, 様々な情報源から手の知識を体系的に研究する。 我々は,これらの価値ある基礎的知見を,適切な訓練損失のセットを通じて3次元手指再建モデルに効果的に取り入れる。 これにより、容易に認識可能な2Dハンドランドマークアノテーションのみによるトレーニングが可能になり、高価な3D監視の必要性を排除できる。 さらに,画像観察に固有の不確かさを明示的にモデル化する。 損失関数に不確実性を組み込んだ単純な負のログ類似度(NLL)損失を利用することにより、トレーニングプロセスを強化する。 広範囲な実験により,本手法は最先端の弱教師付き手法を著しく上回っていることを示す。 例えば,提案手法は広く採用されている FreiHAND データセットにおいて,約 21 % の性能向上を実現している。

Fully-supervised monocular 3D hand reconstruction is often difficult because capturing the requisite 3D data entails deploying specialized equipment in a controlled environment. We introduce a weakly-supervised method that avoids such requirements by leveraging fundamental principles well-established in the understanding of the human hand's unique structure and functionality. Specifically, we systematically study hand knowledge from different sources, including biomechanics, functional anatomy, and physics. We effectively incorporate these valuable foundational insights into 3D hand reconstruction models through an appropriate set of differentiable training losses. This enables training solely with readily-obtainable 2D hand landmark annotations and eliminates the need for expensive 3D supervision. Moreover, we explicitly model the uncertainty that is inherent in image observations. We enhance the training process by exploiting a simple yet effective Negative Log Likelihood (NLL) loss that incorporates uncertainty into the loss function. Through extensive experiments, we demonstrate that our method significantly outperforms state-of-the-art weakly-supervised methods. For example, our method achieves nearly a 21\% performance improvement on the widely adopted FreiHAND dataset.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# MEDFuse: Masked Lab-Test モデリングと大規模言語モデルによるマルチモーダルEHRデータフュージョン

MEDFuse: Multimodal EHR Data Fusion with Masked Lab-Test Modeling and Large Language Models ( http://arxiv.org/abs/2407.12309v1 )

ライセンス: Link先を確認
Thao Minh Nguyen Phan, Cong-Tinh Dao, Chenwei Wu, Jian-Zhe Wang, Shun Liu, Jun-En Ding, David Restrepo, Feng Liu, Fang-Ming Hung, Wen-Chih Peng, (参考訳) 電子健康記録(電子健康記録、EHRs)は、ラボテストや未構造化臨床ノートのような構造化表形式の特徴からなる、自然によって多様である。 実際の臨床実践では、医師は補完的なマルチモーダル EHR データソースを使用して患者の健康状態を明確に把握し、臨床意思決定を支援する。 しかしながら、ほとんどのEHR予測モデルは、単一のモダリティに焦点を当てたり、モダリティ間の相互作用/冗長性を見落としたりするため、これらの手順を反映していない。 本研究では,Multimodal EHR Data FusionフレームワークであるMEDFuseを提案する。 MEDFuseは、2つのソースから抽出されたマルチモーダル埋め込みを活用している。 相互情報損失に最適化された不整合トランスモジュールを設計する。 1)2つのモダリティ特化情報及びモダリティ共有情報 2) 臨床ノート中のノイズと冗長性から有用な関節表現を抽出する。 公的なMIMIC-IIIデータセットと社内FEMHデータセットの総合的検証を通じて,MEDFuseは臨床予測の進歩に大きな可能性を示し,10種類のマルチラベル分類タスクにおいて90%以上のF1スコアを達成した。

Electronic health records (EHRs) are multimodal by nature, consisting of structured tabular features like lab tests and unstructured clinical notes. In real-life clinical practice, doctors use complementary multimodal EHR data sources to get a clearer picture of patients' health and support clinical decision-making. However, most EHR predictive models do not reflect these procedures, as they either focus on a single modality or overlook the inter-modality interactions/redundancy. In this work, we propose MEDFuse, a Multimodal EHR Data Fusion framework that incorporates masked lab-test modeling and large language models (LLMs) to effectively integrate structured and unstructured medical data. MEDFuse leverages multimodal embeddings extracted from two sources: LLMs fine-tuned on free clinical text and masked tabular transformers trained on structured lab test results. We design a disentangled transformer module, optimized by a mutual information loss to 1) decouple modality-specific and modality-shared information and 2) extract useful joint representation from the noise and redundancy present in clinical notes. Through comprehensive validation on the public MIMIC-III dataset and the in-house FEMH dataset, MEDFuse demonstrates great potential in advancing clinical predictions, achieving over 90% F1 score in the 10-disease multi-label classification task.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# Shap-Mix:長尺骨格を用いた行動認識のためのシェープ値誘導混合

Shap-Mix: Shapley Value Guided Mixing for Long-Tailed Skeleton Based Action Recognition ( http://arxiv.org/abs/2407.12312v1 )

ライセンス: Link先を確認
Jiahang Zhang, Lilang Lin, Jiaying Liu, (参考訳) 現実のシナリオでは、人間の行動は長い尾の分布に陥ることが多い。 既存のスケルトンベースのアクション認識作業は、ほとんどがバランスの取れたデータセットに基づいて設計されており、パフォーマンスの急激な低下に悩まされている。 近年,画像・ビデオの長期学習への取り組みが盛んに行われている。 しかし、特にデータ拡張のようなモダリティ特異的な手法では、重要な時空間運動パターンが考慮されていないため、骨格データに直接適用することは準最適である。 この目的のために, 空間集中型ヒト行動における身体部分の役割を考慮し, 混合促進に参画し, テールカテゴリーの代表動作パターンをマイニングすることで, 長期学習を改善する新手法Shap-Mixを提案する。 具体的には、まず、表現品質を高めるために、スケルトンを効果的に時空間混合する戦略を開発する。 次に、シェープリー値とテール・アウェア・ミキシング・ポリシーに基づいて、サリエンシ推定と、サリエンシ推定を併用したサリエンシ誘導手法を提案する。 マイノリティクラスの健全な動作部分を混合データで保存し、重要な身体構造と高レベルの意味論の関係を明確に確立する。 大規模な3つのスケルトンデータセットの大規模な実験は、長い尾とバランスの取れた設定の両方で顕著なパフォーマンス改善を示している。 私たちのプロジェクトは、https://jhang2020.github.io/Projects/Shap-Mix/Shap-Mix.htmlで公開されています。

In real-world scenarios, human actions often fall into a long-tailed distribution. It makes the existing skeleton-based action recognition works, which are mostly designed based on balanced datasets, suffer from a sharp performance degradation. Recently, many efforts have been madeto image/video long-tailed learning. However, directly applying them to skeleton data can be sub-optimal due to the lack of consideration of the crucial spatial-temporal motion patterns, especially for some modality-specific methodologies such as data augmentation. To this end, considering the crucial role of the body parts in the spatially concentrated human actions, we attend to the mixing augmentations and propose a novel method, Shap-Mix, which improves long-tailed learning by mining representative motion patterns for tail categories. Specifically, we first develop an effective spatial-temporal mixing strategy for the skeleton to boost representation quality. Then, the employed saliency guidance method is presented, consisting of the saliency estimation based on Shapley value and a tail-aware mixing policy. It preserves the salient motion parts of minority classes in mixed data, explicitly establishing the relationships between crucial body structure cues and high-level semantics. Extensive experiments on three large-scale skeleton datasets show our remarkable performance improvement under both long-tailed and balanced settings. Our project is publicly available at: https://jhang2020.github.io/Projects/Shap-Mix/Shap-Mix.html.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# ModalChorus: Modal Fusion Mapによるマルチモーダル埋め込みの可視化とアライメント

ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map ( http://arxiv.org/abs/2407.12315v1 )

ライセンス: Link先を確認
Yilin Ye, Shishi Xiao, Xingchen Zeng, Wei Zeng, (参考訳) マルチモーダル埋め込みは、最も広く使われているテキストイメージ埋め込みであるCLIP埋め込みのようなビジョン言語モデルの基盤を形成する。 しかし、これらの埋め込みは、クロスモーダルな特徴の微妙なミスアライメントに弱いため、モデル性能が低下し、一般化が低下する。 この問題に対処するために,マルチモーダル埋め込みの視覚的探索とアライメントのためのインタラクティブシステムであるModalChorusを設計する。 ModalChorusは主に2段階のプロセスを提供している。 1 モーダルフュージョンマップ(MFM)による埋め込み探索(MFM) - 計量と非計量の両目的を統合してモダリティ融合を強化するパラメトリック次元削減法- 2) 埋め込みアライメントにより、ユーザーはポイントセットとセットセットの両方のアライメントに対して対話的に意図を表現できる。 CLIP埋め込みと既存の次元削減(例えば、t-SNEとMDS)とデータ融合(例えば、データコンテキストマップ)メソッドとの定量的および定性的な比較は、共通ビジョン言語データセットに対するクロスモーダルな特徴を示す上で、MFMの利点を示す。 ケーススタディでは、ゼロショット分類からクロスモーダル検索と生成までのシナリオにおいて、ModalChorusが直感的に誤調整と効率的な再調整の発見を容易にすることが示されている。

Multi-modal embeddings form the foundation for vision-language models, such as CLIP embeddings, the most widely used text-image embeddings. However, these embeddings are vulnerable to subtle misalignment of cross-modal features, resulting in decreased model performance and diminished generalization. To address this problem, we design ModalChorus, an interactive system for visual probing and alignment of multi-modal embeddings. ModalChorus primarily offers a two-stage process: 1) embedding probing with Modal Fusion Map (MFM), a novel parametric dimensionality reduction method that integrates both metric and nonmetric objectives to enhance modality fusion; and 2) embedding alignment that allows users to interactively articulate intentions for both point-set and set-set alignments. Quantitative and qualitative comparisons for CLIP embeddings with existing dimensionality reduction (e.g., t-SNE and MDS) and data fusion (e.g., data context map) methods demonstrate the advantages of MFM in showcasing cross-modal features over common vision-language datasets. Case studies reveal that ModalChorus can facilitate intuitive discovery of misalignment and efficient re-alignment in scenarios ranging from zero-shot classification to cross-modal retrieval and generation.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# サブ文字列マッチングによる長文認識

Out of Length Text Recognition with Sub-String Matching ( http://arxiv.org/abs/2407.12317v1 )

ライセンス: Link先を確認
Yongkun Du, Zhineng Chen, Caiyan Jia, Xieping Gao, Yu-Gang Jiang, (参考訳) Scene Text Recognition (STR) 法は単語レベルのテキスト認識において頑健な性能を示した。 しかし、アプリケーションでは、複数の水平な単語で検出されるため、テキストイメージが長い場合もあります。 これは、あまり研究されていない短い単語レベルのテキストデータセットから、長いテキスト認識モデルを構築する必要が生じる。 本稿では,これをOOL(Out of Length)テキスト認識と呼ぶ。 我々は,Long Text Benchmark (LTB) を新たに構築し,長文認識における異なる手法の評価を容易にする。 一方,サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。 SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用し、サブストリングをマッチングし、次の文字列と前の文字を同時に認識する。 SMTRは上記のプロセスを反復することで任意の長さのテキストを認識することができる。 非常に類似のサブストリングを認識するために,SMTRを強制する正規化トレーニングを導入し,類似のサブストリング間の微妙な違いを正確に認識するために効果的に発見する。 さらに,同一のサブストリングによる混乱を緩和し,全体的な認識効率を向上させるための推論拡張を提案する。 大規模な実験結果から,SMTRは短いテキストのみに訓練された場合でも,公開短いテキストベンチマークにおいて既存の手法よりも優れており,LCBに対して明らかな優位性を示すことが明らかとなった。 コード: \url{https://github.com/Topdu/OpenOCR}。

Scene Text Recognition (STR) methods have demonstrated robust performance in word-level text recognition. However, in applications the text image is sometimes long due to detected with multiple horizontal words. It triggers the requirement to build long text recognition models from readily available short word-level text datasets, which has been less studied previously. In this paper, we term this the Out of Length (OOL) text recognition. We establish a new Long Text Benchmark (LTB) to facilitate the assessment of different methods in long text recognition. Meanwhile, we propose a novel method called OOL Text Recognition with sub-String Matching (SMTR). SMTR comprises two cross-attention-based modules: one encodes a sub-string containing multiple characters into next and previous queries, and the other employs the queries to attend to the image features, matching the sub-string and simultaneously recognizing its next and previous character. SMTR can recognize text of arbitrary length by iterating the process above. To avoid being trapped in recognizing highly similar sub-strings, we introduce a regularization training to compel SMTR to effectively discover subtle differences between similar sub-strings for precise matching. In addition, we propose an inference augmentation to alleviate confusion caused by identical sub-strings and improve the overall recognition efficiency. Extensive experimental results reveal that SMTR, even when trained exclusively on short text, outperforms existing methods in public short text benchmarks and exhibits a clear advantage on LTB. Code: \url{https://github.com/Topdu/OpenOCR}.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# シリアライズドポイントマンバ:シリアライズドポイントクラウドマンバセグメンテーションモデル

Serialized Point Mamba: A Serialized Point Cloud Mamba Segmentation Model ( http://arxiv.org/abs/2407.12319v1 )

ライセンス: Link先を確認
Tao Wang, Wei Wen, Jingzhi Zhai, Kang Xu, Haoming Luo, (参考訳) ポイントクラウドセグメンテーションは、ロボット視覚知覚と環境理解に不可欠であり、ロボットナビゲーションや3D再構成などの応用を可能にする。 しかし、ポイントクラウドデータの希薄で秩序のない性質を扱うことは、効率的かつ正確なセグメンテーションの課題を提起する。 自然言語処理におけるMambaモデルの成功に触発されて,状態空間モデルを利用してシーケンスを動的に圧縮し,メモリ使用量を削減し,計算効率を向上させるSerialized Point Cloud Mamba Segmentation Model (Serialized Point Mamba)を提案する。 シリアライズされたポイント・マンバは、局所言語モデリング機能と線形複雑度を統合し、屋内と屋外の両方のデータセットで最先端のパフォーマンスを達成する。 このアプローチには、ステージ化されたポイントクラウドシーケンス学習、グリッドプーリング、条件付き位置エンコーディングといった新しいテクニックが含まれており、多様なポイントクラウドタスクにまたがる効果的なセグメンテーションを容易にする。 Scannetは76.8 mIoU, S3DISは70.3 mIoUであった。 Scannetv2インスタンスセグメンテーションでは、40.0mAPを記録した。 また、低いレイテンシと適切なメモリ使用率を持ち、マンバに基づくポイントセマンティックセグメンテーションモデルのSOTAとなった。

Point cloud segmentation is crucial for robotic visual perception and environmental understanding, enabling applications such as robotic navigation and 3D reconstruction. However, handling the sparse and unordered nature of point cloud data presents challenges for efficient and accurate segmentation. Inspired by the Mamba model's success in natural language processing, we propose the Serialized Point Cloud Mamba Segmentation Model (Serialized Point Mamba), which leverages a state-space model to dynamically compress sequences, reduce memory usage, and enhance computational efficiency. Serialized Point Mamba integrates local-global modeling capabilities with linear complexity, achieving state-of-the-art performance on both indoor and outdoor datasets. This approach includes novel techniques such as staged point cloud sequence learning, grid pooling, and Conditional Positional Encoding, facilitating effective segmentation across diverse point cloud tasks. Our method achieved 76.8 mIoU on Scannet and 70.3 mIoU on S3DIS. In Scannetv2 instance segmentation, it recorded 40.0 mAP. It also had the lowest latency and reasonable memory use, making it the SOTA among point semantic segmentation models based on mamba.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# 周波数誘導問題:周波数対応混合変圧器による骨格行動認識

Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed Transformer ( http://arxiv.org/abs/2407.12322v1 )

ライセンス: Link先を確認
Wenhan Wu, Ce Zheng, Zihao Yang, Chen Chen, Srijan Das, Aidong Lu, (参考訳) 近年, トランスフォーマーは骨格配列からの長期依存をモデル化する大きな可能性を示し, 骨格行動認識において常に注目を集めている。 しかし、既存のトランスフォーマーベースのアプローチは、同様の動きパターンを示す識別的表現の学習において不足する時空間的特徴を捉えるための単純な注意機構に大きく依存している。 この課題に対処するために、周波数対応混合変換器(FreqMixFormer)を導入する。 まず,その周波数係数に基づいて識別動作を識別することを目的として,関節特徴を周波数アテンションマップに埋め込むことにより骨格の周波数表現を解き放つ周波数アテンションモジュールを提案する。 その後、周波数特徴を持つ空間特徴を包含し、包括的周波数空間パターンをモデル化する混合変圧器アーキテクチャを開発した。 さらに,フレーム間の大域的相関を抽出するために時間変換器を提案する。 大規模な実験により、FreqMiXFormerは、NTU RGB+D、NTU RGB+D 120、NW-UCLAデータセットを含む3つの人気のあるスケルトン行動認識データセットでSOTAより優れていることが示されている。

Recently, transformers have demonstrated great potential for modeling long-term dependencies from skeleton sequences and thereby gained ever-increasing attention in skeleton action recognition. However, the existing transformer-based approaches heavily rely on the naive attention mechanism for capturing the spatiotemporal features, which falls short in learning discriminative representations that exhibit similar motion patterns. To address this challenge, we introduce the Frequency-aware Mixed Transformer (FreqMixFormer), specifically designed for recognizing similar skeletal actions with subtle discriminative motions. First, we introduce a frequency-aware attention module to unweave skeleton frequency representations by embedding joint features into frequency attention maps, aiming to distinguish the discriminative movements based on their frequency coefficients. Subsequently, we develop a mixed transformer architecture to incorporate spatial features with frequency features to model the comprehensive frequency-spatial patterns. Additionally, a temporal transformer is proposed to extract the global correlations across frames. Extensive experiments show that FreqMiXFormer outperforms SOTA on 3 popular skeleton action recognition datasets, including NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# 交互ユニタリによる断熱変換のベンチマーク

Benchmarking adiabatic transformation by alternating unitaries ( http://arxiv.org/abs/2407.12326v1 )

ライセンス: Link先を確認
Takuya Hatomura, (参考訳) 断熱変換は、反断熱駆動に対するゲートベースのアプローチ(van Vreumingen, arXiv:2406.08064)で提案されているように、ハミルトニアンとそのパラメータ微分の交互ユニタリ作用素として近似することができる。 本稿では,この交互ユニタリ法を,非断熱時間帯における断熱駆動に対して有限パラメータ範囲で数値的なベンチマークを行う。 この交互ユニタリ法は, 断熱駆動により得られるエネルギー固有状態よりも広い分布をもたらすが, 与えられたハミルトニアンのエネルギーギャップが小さい場合には, 低エネルギー固有状態のサンプリングを行うことができる。 これは、交換ユニタリ法がハードインスタンスに適用された量子アニーリングにおいて良い近似解を見つけることができることを示唆している。

Adiabatic transformation can be approximated as alternating unitary operators of a Hamiltonian and its parameter derivative as proposed in a gate-based approach to counterdiabatic driving (van Vreumingen, arXiv:2406.08064). In this paper, we conduct numerical benchmarking of this alternating unitary method in a finite-parameter range against adiabatic driving in nonadiabatic timescale. We find that the alternating unitary method results in broader distribution on energy eigenstates than that obtained by adiabatic driving, but it has ability to sample low-energy eigenstates when an energy gap of a given Hamiltonian is small. It indicates that the alternating unitary method may be able to find good approximate solutions in quantum annealing applied to hard instances.
翻訳日:2024-07-18 18:27:38 公開日:2024-07-17
# スペクトル: 3次・量子化・FP16言語モデルに関する総合的研究

Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models ( http://arxiv.org/abs/2407.12327v1 )

ライセンス: Link先を確認
Ayush Kaushal, Tejas Pandey, Tejas Vaidhya, Aaryan Bhagat, Irina Rish, (参考訳) 後学習量子化は、LLM推論におけるメモリ関連ボトルネックに対処する主要な手法であるが、残念ながら、4ビットの精度よりも大きな性能劣化に悩まされている。 別のアプローチでは、圧縮されたモデルを低ビット幅(例えば、バイナリまたは3次モデル)で直接訓練する。 しかし、そのようなモデルの性能、トレーニングのダイナミクス、スケーリングの傾向はまだよく分かっていない。 この問題に対処するため、99Mから3.9Bパラメータを含む54の言語モデルで構成され、300BトークンでトレーニングされたSpectra LLMスイートをトレーニングし、公開リリースする。 スペクトルには、FloatLMs、ポストトレーニング後の量子化QuantLMs (3, 4, 6, 8 bits)、および3次LLMs (TriLMs)が含まれる。 例えば、TriLM 3.9Bは半精度FloatLM 830Mより小さいが、常識推論と知識ベンチマークでは半精度FloatLM 3.9Bと一致する。 しかし、TriLM 3.9Bは6倍の大きさのモデルであるFloatLM 3.9Bと同じくらい毒性があり、ステレオタイピングである。 さらに、TriLM 3.9Bは、検証分割とWebベースのコーパスの難易度でFloatLMに遅れをとっているが、LambadaやPennTreeBankのようなあまりノイズの少ないデータセットではパフォーマンスが良くなっている。 低ビット幅モデルの理解を深めるため、私たちはSpectraスイートの500以上の中間チェックポイントを \href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite} でリリースしています。

Post-training quantization is the leading method for addressing memory-related bottlenecks in LLM inference, but unfortunately, it suffers from significant performance degradation below 4-bit precision. An alternative approach involves training compressed models directly at a low bitwidth (e.g., binary or ternary models). However, the performance, training dynamics, and scaling trends of such models are not yet well understood. To address this issue, we train and openly release the Spectra LLM suite consisting of 54 language models ranging from 99M to 3.9B parameters, trained on 300B tokens. Spectra includes FloatLMs, post-training quantized QuantLMs (3, 4, 6, and 8 bits), and ternary LLMs (TriLMs) - our improved architecture for ternary language modeling, which significantly outperforms previously proposed ternary models of a given size (in bits), matching half-precision models at scale. For example, TriLM 3.9B is (bit-wise) smaller than the half-precision FloatLM 830M, but matches half-precision FloatLM 3.9B in commonsense reasoning and knowledge benchmarks. However, TriLM 3.9B is also as toxic and stereotyping as FloatLM 3.9B, a model six times larger in size. Additionally, TriLM 3.9B lags behind FloatLM in perplexity on validation splits and web-based corpora but performs better on less noisy datasets like Lambada and PennTreeBank. To enhance understanding of low-bitwidth models, we are releasing 500+ intermediate checkpoints of the Spectra suite at \href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite}.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# 直交図形相補的2次元拡散モデルによるラベル有効3次元脳分割

Label-Efficient 3D Brain Segmentation via Complementary 2D Diffusion Models with Orthogonal Views ( http://arxiv.org/abs/2407.12329v1 )

ライセンス: Link先を確認
Jihoon Cho, Suhyun Ahn, Beomju Kim, Hyungjoon Bae, Xiaofeng Liu, Fangxu Xing, Kyungeun Lee, Georges Elfakhri, Van Wedeen, Jonghye Woo, Jinah Park, (参考訳) 深層学習に基づくセグメンテーション技術は、脳のセグメンテーションにおいて顕著なパフォーマンスを示しているが、その成功は、広範囲なラベル付きトレーニングデータの提供にかかっている。 しかし、このような膨大なデータセットを取得することは、多くの臨床応用において大きな課題となる。 そこで本研究では, 相補的な2次元拡散モデルを用いた新しい3次元脳分割法を提案する。 提案手法の中核となる考え方は,2次元拡散モデルから抽出した2次元特徴を直交ビューを入力として抽出し,次いで文脈的特徴表現に融合させることである。 次に,これらの集計機能を用いて,多層パーセプトロンを訓練し,セグメンテーションラベルを分類する。 私たちのゴールは、個々の主題に対して完全なラベルを必要とせずに、信頼性の高いセグメンテーション品質を達成することです。 脳皮質下構造セグメンテーションにおけるトレーニング実験は,1つの被験者のデータセットを用いて,我々のアプローチが最先端の自己教師型学習法より優れていることを示した。 さらに,9つのスライスとラベル付き背景領域でのみ,スパースラベリングによるアノテーションの最小限の要求が有望な結果をもたらすという実験を行った。

Deep learning-based segmentation techniques have shown remarkable performance in brain segmentation, yet their success hinges on the availability of extensive labeled training data. Acquiring such vast datasets, however, poses a significant challenge in many clinical applications. To address this issue, in this work, we propose a novel 3D brain segmentation approach using complementary 2D diffusion models. The core idea behind our approach is to first mine 2D features with semantic information extracted from the 2D diffusion models by taking orthogonal views as input, followed by fusing them into a 3D contextual feature representation. Then, we use these aggregated features to train multi-layer perceptrons to classify the segmentation labels. Our goal is to achieve reliable segmentation quality without requiring complete labels for each individual subject. Our experiments on training in brain subcortical structure segmentation with a dataset from only one subject demonstrate that our approach outperforms state-of-the-art self-supervised learning methods. Further experiments on the minimum requirement of annotation by sparse labeling yield promising results even with only nine slices and a labeled background region.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# ワイルドデータセットにおけるエネルギーベースインスタンスワイドスケーリングによる不確実性校正

Uncertainty Calibration with Energy Based Instance-wise Scaling in the Wild Dataset ( http://arxiv.org/abs/2407.12330v1 )

ライセンス: Link先を確認
Mijoo Kim, Junseok Kwon, (参考訳) ディープニューラルネットワーク(DNN)の性能の急速な向上により、人工知能(AI)システムを現実のシナリオに展開し、組み込むことに大きな関心が寄せられた。 しかし、多くのDNNは不確実性を表現する能力に欠けており、誤った予測を下しても過度な自信を示すことが多い。 AIシステムの信頼性を確保するため、特に安全クリティカルなケースでは、DNNは予測の不確実性を透過的に反映する必要がある。 本稿では,マルチクラス分類タスクにおけるDNNのロバストなポストホック不確実性校正手法について検討する。 これまでの研究では顕著な進歩があったが、特にアウト・オブ・ディストリビューション(OOD)を含むシナリオにおいて、堅牢なキャリブレーションを達成するための課題に直面している。 従来の手法では個々の入力データへの適応性が欠如しており、ワイルドデータセットから抽出した入力を処理する際に不確かさを正確に見積もることに苦慮している。 この問題に対処するために,エネルギーモデルに基づく新しいインスタンスワイドキャリブレーション手法を提案する。 提案手法は,ソフトマックス信頼性スコアの代わりにエネルギースコアを組み込むことで,ロジット空間内の各予測に対するDNNの不確かさを適応的に考慮することができる。 実験では,提案手法は,他の最先端手法と比較して,分布内からOODシナリオまで,スペクトル間のロバストな性能を一貫して維持することを示した。

With the rapid advancement in the performance of deep neural networks (DNNs), there has been significant interest in deploying and incorporating artificial intelligence (AI) systems into real-world scenarios. However, many DNNs lack the ability to represent uncertainty, often exhibiting excessive confidence even when making incorrect predictions. To ensure the reliability of AI systems, particularly in safety-critical cases, DNNs should transparently reflect the uncertainty in their predictions. In this paper, we investigate robust post-hoc uncertainty calibration methods for DNNs within the context of multi-class classification tasks. While previous studies have made notable progress, they still face challenges in achieving robust calibration, particularly in scenarios involving out-of-distribution (OOD). We identify that previous methods lack adaptability to individual input data and struggle to accurately estimate uncertainty when processing inputs drawn from the wild dataset. To address this issue, we introduce a novel instance-wise calibration method based on an energy model. Our method incorporates energy scores instead of softmax confidence scores, allowing for adaptive consideration of DNN uncertainty for each prediction within a logit space. In experiments, we show that the proposed method consistently maintains robust performance across the spectrum, spanning from in-distribution to OOD scenarios, when compared to other state-of-the-art methods.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# I2AM:属性マップによる画像から画像への遅延拡散モデルの解釈

I2AM: Interpreting Image-to-Image Latent Diffusion Models via Attribution Maps ( http://arxiv.org/abs/2407.12331v1 )

ライセンス: Link先を確認
Junseo Park, Hyeryung Jang, (参考訳) 大規模拡散モデルでは、特にテキスト記述に基づく画像形成を導くクロスアテンション機構を用いることにより、画像生成の分野で大きな進歩を遂げている。 近年, 拡散モデルにおけるテキスト誘導的相互注意の解析が盛んに行われているが, 画像間拡散モデルへの応用はいまだ検討されていない。 本稿では,時間ステップ,頭部,注意層をまたいだ潜伏拡散モデルの解釈可能性を高めるために,パッチレベルのクロスアテンションスコアを集約するイメージ・ツー・イメージ・アトリビューション・マップI2AM法を提案する。 I2AMは、参照画像から画像を生成する過程において、時間と頭によって拡散モデルがどのように重要な特徴を優先するかを観察する、詳細な画像から画像への帰属分析を容易にする。 広範にわたる実験を通して、生成画像と参照画像の両方の属性マップを視覚化し、参照画像からの臨界情報が生成画像に効果的に組み込まれていることを検証する。 我々の理解をさらに深めるために、参照ベース画像の塗装作業に適した新しい評価基準を導入する。 生成した画像の属性マップと参照画像の一貫性を計測するこの指標は、既存の性能指標との強い相関関係を示し、今後の研究におけるI2AMの活用の可能性を検証する。

Large-scale diffusion models have made significant advancements in the field of image generation, especially through the use of cross-attention mechanisms that guide image formation based on textual descriptions. While the analysis of text-guided cross-attention in diffusion models has been extensively studied in recent years, its application in image-to-image diffusion models remains underexplored. This paper introduces the Image-to-Image Attribution Maps I2AM method, which aggregates patch-level cross-attention scores to enhance the interpretability of latent diffusion models across time steps, heads, and attention layers. I2AM facilitates detailed image-to-image attribution analysis, enabling observation of how diffusion models prioritize key features over time and head during the image generation process from reference images. Through extensive experiments, we first visualize the attribution maps of both generated and reference images, verifying that critical information from the reference image is effectively incorporated into the generated image, and vice versa. To further assess our understanding, we introduce a new evaluation metric tailored for reference-based image inpainting tasks. This metric, measuring the consistency between the attribution maps of generated and reference images, shows a strong correlation with established performance metrics for inpainting tasks, validating the potential use of I2AM in future research endeavors.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# なぜグロッキングするのか? : グロキングモジュール付加の理論解析

Why Do You Grok? A Theoretical Analysis of Grokking Modular Addition ( http://arxiv.org/abs/2407.12332v1 )

ライセンス: Link先を確認
Mohamad Amin Mohamadi, Zhiyuan Li, Lei Wu, Danica J. Sutherland, (参考訳) 本稿では,<grokking' 現象を理論的に説明し,モデルが過度に適合した後長く一般化し,もともと研究されたモジュラー加法問題について述べる。 まず,「カーネル・システマティクス」が概ね成り立つような勾配降下の早い段階では,全ての可能なデータポイントの少なくとも一定の分数しか見つからなければ,モジュラー加法における置換同変モデルによる小さな集団誤差は得られないことを示す。 しかし、最終的にはモデルがカーネル体制から逃れることになる。 有界$\ell_{\infty}=ノルムでゼロのトレーニング損失を達成する2層二次ネットワークは、かなり少ないトレーニングポイントでうまく一般化し、さらにそのようなネットワークが存在することを示すとともに、小さな$\ell_{\infty}$正規化で勾配降下によって見つけることができる。 さらに、これらのネットワークと単純なトランスフォーマーが、当初過度に適合した後にカーネル体制を離れるという実証的な証拠も提供します。 その結果,カーネルのような挙動から深いネットワーク上の勾配降下の挙動の制限への遷移の結果,グラッキングの事例を強く支持した。

We present a theoretical explanation of the ``grokking'' phenomenon, where a model generalizes long after overfitting,for the originally-studied problem of modular addition. First, we show that early in gradient descent, when the ``kernel regime'' approximately holds, no permutation-equivariant model can achieve small population error on modular addition unless it sees at least a constant fraction of all possible data points. Eventually, however, models escape the kernel regime. We show that two-layer quadratic networks that achieve zero training loss with bounded $\ell_{\infty}$ norm generalize well with substantially fewer training points, and further show such networks exist and can be found by gradient descent with small $\ell_{\infty}$ regularization. We further provide empirical evidence that these networks as well as simple Transformers, leave the kernel regime only after initially overfitting. Taken together, our results strongly support the case for grokking as a consequence of the transition from kernel-like behavior to limiting behavior of gradient descent on deep networks.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# Cabin: 秘密のVM内で信頼できないプログラムを精査する

Cabin: Confining Untrusted Programs within Confidential VMs ( http://arxiv.org/abs/2407.12334v1 )

ライセンス: Link先を確認
Benshan Me, Saisai Xia, Wenhao Wang, Dongdai Lin, (参考訳) Confidential Virtual Machines (CVM)はゲストOSのセキュアな環境を提供する。 しかし、CVMは大規模で脆弱なオペレーティングシステムカーネルを伴い、カーネルの弱点を悪用する攻撃を受けやすい。 ページテーブルの読み取り/書き込みアクセスに対する不正確な制御により、攻撃者は脆弱性を悪用できるようになった。 セキュリティ階層の欠如により、信頼できないアプリケーションとゲストOSの分離が不十分になり、カーネルは信頼できないプログラムからの直接の脅威を受けにくくなった。 本研究では、最新のAMD SEV-SNP技術を利用したゲストVM内での独立した実行フレームワークであるCabinを提案する。 Cabinは、制限されたプロセスとゲストOSの間にプロキシカーネルを導入することにより、信頼できないプロセスを低い仮想マシン特権レベル(VMPL)のユーザ空間に保護する。 さらに、脆弱なプログラムに対するVMPL特権の細かい制御と、攻撃面を最小限に抑えるためのプロキシカーネルに基づく実行保護機構を提案する。 非同期転送機構と匿名メモリ管理を導入し、性能への影響を低減する。 評価結果から,CabinフレームワークはNbenchベンチマークとWolfSSLベンチマークにおいて,わずかにオーバーヘッド(平均5%)を発生していることがわかった。

Confidential computing safeguards sensitive computations from untrusted clouds, with Confidential Virtual Machines (CVMs) providing a secure environment for guest OS. However, CVMs often come with large and vulnerable operating system kernels, making them susceptible to attacks exploiting kernel weaknesses. The imprecise control over the read/write access in the page table has allowed attackers to exploit vulnerabilities. The lack of security hierarchy leads to insufficient separation between untrusted applications and guest OS, making the kernel susceptible to direct threats from untrusted programs. This study proposes Cabin, an isolated execution framework within guest VM utilizing the latest AMD SEV-SNP technology. Cabin shields untrusted processes to the user space of a lower virtual machine privilege level (VMPL) by introducing a proxy-kernel between the confined processes and the guest OS. Furthermore, we propose execution protection mechanisms based on fine-gained control of VMPL privilege for vulnerable programs and the proxy-kernel to minimize the attack surface. We introduce asynchronous forwarding mechanism and anonymous memory management to reduce the performance impact. The evaluation results show that the Cabin framework incurs a modest overhead (5% on average) on Nbench and WolfSSL benchmarks.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# M2DS:マルチドキュメント要約のための多言語データセット

M2DS: Multilingual Dataset for Multi-document Summarisation ( http://arxiv.org/abs/2407.12336v1 )

ライセンス: Link先を確認
Kushan Hewapathirana, Nisansa de Silva, C. D. Athuraliya, (参考訳) 急速に発展するデジタル時代には、個人が様々な情報源から重要な洞察を消し去ろうとするにつれて、簡潔な情報に対する需要が高まっている。 MDS(Multi-document Summarisation)の研究者による近年の注目は、顧客レビュー、学術論文、医療・法律文書、ニュース記事などを含む多様なデータセットを生み出している。 しかし、これらのデータセットの英語中心の性質は、今日のグローバル化されたデジタルランドスケープにおける多言語データセットの顕著な空白を生み出し、言語多様性が祝われている。 ブリティッシュ・ブロードキャスティング・コーポレーション(BBC)のようなメディアプラットフォームは、何十年にもわたって20以上の言語でニュースを広めてきた。 英語を母語とする言語は3億8000万人に過ぎず、世界の人口の5%にも満たないが、大多数は他言語に依存している。 これらの事実はMDS研究における傾きの必要性を浮き彫りにし、様々な言語からの資源を活用している。 このギャップを認識し、我々はM2DS(Multilingual Dataset for Multi-document Summarisation)を提示する。 2010-2023年に発行されたBBCの記事から5つの言語で文書と要約のペアが収録されている。 本稿では、M2DSについて、その特異な多言語的側面を強調し、我々のデータセットで評価された最先端のMDSモデルからのベースラインスコアを含む。

In the rapidly evolving digital era, there is an increasing demand for concise information as individuals seek to distil key insights from various sources. Recent attention from researchers on Multi-document Summarisation (MDS) has resulted in diverse datasets covering customer reviews, academic papers, medical and legal documents, and news articles. However, the English-centric nature of these datasets has created a conspicuous void for multilingual datasets in today's globalised digital landscape, where linguistic diversity is celebrated. Media platforms such as British Broadcasting Corporation (BBC) have disseminated news in 20+ languages for decades. With only 380 million people speaking English natively as their first language, accounting for less than 5% of the global population, the vast majority primarily relies on other languages. These facts underscore the need for inclusivity in MDS research, utilising resources from diverse languages. Recognising this gap, we present the Multilingual Dataset for Multi-document Summarisation (M2DS), which, to the best of our knowledge, is the first dataset of its kind. It includes document-summary pairs in five languages from BBC articles published during the 2010-2023 period. This paper introduces M2DS, emphasising its unique multilingual aspect, and includes baseline scores from state-of-the-art MDS models evaluated on our dataset.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# 暗視野顕微鏡と深層学習を用いたラベルフリー細菌のバーチャルグラム染色

Virtual Gram staining of label-free bacteria using darkfield microscopy and deep learning ( http://arxiv.org/abs/2407.12337v1 )

ライセンス: Link先を確認
Cagatay Isil, Hatice Ceylan Koydemir, Merve Eryilmaz, Kevin de Haan, Nir Pillar, Koray Mentesoglu, Aras Firat Unal, Yair Rivenson, Sukantha Chandrasekaran, Omai B. Garner, Aydogan Ozcan, (参考訳) グラム染色は微生物学において1世紀以上にわたって最も頻繁に用いられてきた染色プロトコルの1つであり、診断、食品安全性、環境モニタリングなど様々な分野で利用されている。 その手作業の手順は、例えば、操作者の経験不足と化学変化のために、スタイリングエラーやアーティファクトに弱い。 そこで我々は, 学習した深層ニューラルネットワークを用いて, 非安定な細菌の暗視野画像を, 明るい視野のコントラストに適合したグラム染色にデジタル変換する, ラベルのない細菌の仮想グラム染色を導入する。 1回のトレーニング作業の後、仮想グラマー染色モデルは、ラベルのない細菌(これまで見たことのない)の軸方向の暗視野顕微鏡画像を処理し、グラマー染色を迅速に生成し、従来の染色プロセスに関わるいくつかの化学的ステップをバイパスする。 本研究は, グラム染色モデルの染色精度を定量化し, 事実上染色された細菌の着色性および形態的特徴を化学染色した細菌と比較することにより, 大腸菌とリステリアを含む無菌菌株に対する仮想グラム染色ワークフローの成功を実証した。 この仮想細菌染色フレームワークは、従来のグラム染色プロトコルとその課題を効果的に回避する。

Gram staining has been one of the most frequently used staining protocols in microbiology for over a century, utilized across various fields, including diagnostics, food safety, and environmental monitoring. Its manual procedures make it vulnerable to staining errors and artifacts due to, e.g., operator inexperience and chemical variations. Here, we introduce virtual Gram staining of label-free bacteria using a trained deep neural network that digitally transforms darkfield images of unstained bacteria into their Gram-stained equivalents matching brightfield image contrast. After a one-time training effort, the virtual Gram staining model processes an axial stack of darkfield microscopy images of label-free bacteria (never seen before) to rapidly generate Gram staining, bypassing several chemical steps involved in the conventional staining process. We demonstrated the success of the virtual Gram staining workflow on label-free bacteria samples containing Escherichia coli and Listeria innocua by quantifying the staining accuracy of the virtual Gram staining model and comparing the chromatic and morphological features of the virtually stained bacteria against their chemically stained counterparts. This virtual bacteria staining framework effectively bypasses the traditional Gram staining protocol and its challenges, including stain standardization, operator errors, and sensitivity to chemical variations.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# GUME: 長期マルチモーダル勧告のためのグラフとユーザモダリティ向上

GUME: Graphs and User Modalities Enhancement for Long-Tail Multimodal Recommendation ( http://arxiv.org/abs/2407.12338v1 )

ライセンス: Link先を確認
Guojiao Lin, Zhen Meng, Dongjie Wang, Qingqing Long, Yuanchun Zhou, Meng Xiao, (参考訳) マルチモーダルレコメンデーションシステム(MMRS)は,ユーザ行動や製品イメージ,テキストなどの情報を共同で活用する能力から,研究コミュニティから大きな注目を集めている。 これまでの研究には2つの問題があった。 まず,レコメンデーションシステムにおける多くのロングテール項目は,インタラクションデータに制限があり,包括的かつ情報的表現の習得が困難である。 しかし、過去のMMRS研究はこの問題を見落としている。 第二に、ユーザのモダリティ嗜好は行動に不可欠である。 しかし,従来の研究は主に項目のモダリティ表現の学習に重点を置いていたが,ユーザモダリティ表現は比較的単純であり,これらの課題に対処するために,長期マルチモーダルレコメンデーションのための新しいグラフとユーザモダリティ拡張(GUME)を提案する。 具体的には、アイテム間のマルチモーダルな類似性を用いて、まずユーザ-テムグラフを拡張します。 これにより、ロングテールアイテムの接続性が向上し、グラフの伝搬を通じて高品質な表現を学ぶのに役立ちます。 次に,明示的なインタラクション機能と拡張された関心機能という,2種類のユーザモダリティを構築した。 これら2つの特徴間の相互情報を最大化するために,ユーザモダリティ拡張戦略を用いることで,ユーザモダリティ表現の一般化能力を向上させる。 さらに、内部と外部の両方の観点からノイズを取り除くために、モダリティデータのアライメント戦略を設計する。 4つの公開データセットに対する大規模な実験は、我々のアプローチの有効性を実証している。

Multimodal recommendation systems (MMRS) have received considerable attention from the research community due to their ability to jointly utilize information from user behavior and product images and text. Previous research has two main issues. First, many long-tail items in recommendation systems have limited interaction data, making it difficult to learn comprehensive and informative representations. However, past MMRS studies have overlooked this issue. Secondly, users' modality preferences are crucial to their behavior. However, previous research has primarily focused on learning item modality representations, while user modality representations have remained relatively simplistic.To address these challenges, we propose a novel Graphs and User Modalities Enhancement (GUME) for long-tail multimodal recommendation. Specifically, we first enhance the user-item graph using multimodal similarity between items. This improves the connectivity of long-tail items and helps them learn high-quality representations through graph propagation. Then, we construct two types of user modalities: explicit interaction features and extended interest features. By using the user modality enhancement strategy to maximize mutual information between these two features, we improve the generalization ability of user modality representations. Additionally, we design an alignment strategy for modality data to remove noise from both internal and external perspectives. Extensive experiments on four publicly available datasets demonstrate the effectiveness of our approach.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# カモフラージュ物体検出のための深度知覚を用いた深度情報探索モデル

Exploring Deeper! Segment Anything Model with Depth Perception for Camouflaged Object Detection ( http://arxiv.org/abs/2407.12339v1 )

ライセンス: Link先を確認
Zhenni Yu, Xiaoqin Zhang, Li Zhao, Yi Bin, Guobao Xiao, (参考訳) 本稿では,カモフラージュ物体検出(COD)のためのDSAM(Degment Anything Model)を提案する。 DSAMはSAMのゼロショット機能を利用して、RGB-Dドメインの正確なセグメンテーションを実現する。 Prompt-DeeperモジュールとFinerモジュールで構成されている。 Prompt-Deeperモジュールは、知識蒸留とバイアス補正モジュールを使用して、RGB特徴と深度特徴の相互作用を実現する。 次に、相互作用した特徴とSAMのボックスプロンプトを組み合わせることで、深度知覚のプロンプトを生成する。 Finer Moduleは、深度の観点から高度にキャモフラージュされたターゲットを正確にセグメンテーションする可能性を探っている。 CODドメインの欠陥を補うために、マスクの反転、自己フィルタリング、自己注意操作を通じてSAMが見逃した領域の深さの手がかりを明らかにする。 DSAMはSAMベースのRGB-D CODモデルに向けた第一歩である。 RGB特徴と相乗化してマルチモーダルな相補性を達成し,SAMのセグメンテーション限界を克服し,CODの精度を向上する。 CODベンチマーク実験の結果,DSAMのセグメンテーション性能は良好であり,CODベンチマークにおけるSOTA(State-of-the-art)に到達し,トレーニングリソースの消費を減らした。 コードはhttps://github.com/guobaoxiao/DSAMで入手できる。

This paper introduces a new Segment Anything Model with Depth Perception (DSAM) for Camouflaged Object Detection (COD). DSAM exploits the zero-shot capability of SAM to realize precise segmentation in the RGB-D domain. It consists of the Prompt-Deeper Module and the Finer Module. The Prompt-Deeper Module utilizes knowledge distillation and the Bias Correction Module to achieve the interaction between RGB features and depth features, especially using depth features to correct erroneous parts in RGB features. Then, the interacted features are combined with the box prompt in SAM to create a prompt with depth perception. The Finer Module explores the possibility of accurately segmenting highly camouflaged targets from a depth perspective. It uncovers depth cues in areas missed by SAM through mask reversion, self-filtering, and self-attention operations, compensating for its defects in the COD domain. DSAM represents the first step towards the SAM-based RGB-D COD model. It maximizes the utilization of depth features while synergizing with RGB features to achieve multimodal complementarity, thereby overcoming the segmentation limitations of SAM and improving its accuracy in COD. Experimental results on COD benchmarks demonstrate that DSAM achieves excellent segmentation performance and reaches the state-of-the-art (SOTA) on COD benchmarks with less consumption of training resources. The code will be available at https://github.com/guobaoxiao/DSAM.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# 学校で量子インフォマティクスを教える:コンピュータサイエンスの原則と標準

Teaching Quantum Informatics at School: Computer Science Principles and Standards ( http://arxiv.org/abs/2407.12340v1 )

ライセンス: Link先を確認
Giulia Paparo, Regina Finsterhoelzl, Bettina Waldvogel, Mareen Grillenberger, (参考訳) 量子物理学からコンピュータ科学への知識の応用は、量子コンピューティングや量子鍵分布といった新しい技術の開発を推進している。 物理学教育の研究者は、学校で量子情報学を教えることの約束と重要性を認識しており、様々な教育方法が開発され、研究され、適用されている。 量子情報学はコンピュータ科学教育と同等に関係しているが、コンピュータ科学の概念と知識に焦点をあてて教える方法についてはほとんど研究されていない。 本研究では,デニングの大原理の中に量子情報学を配置し,中等教育のための量子情報学標準を提案する。

The application of knowledge from quantum physics to computer science, which we call \doubleq{quantum informatics}, is driving the development of new technologies, such as quantum computing and quantum key distribution. Researchers in physics education have recognized the promise and significance of teaching quantum informatics in schools, and various teaching methods are being developed, researched and applied. Although quantum informatics is equally relevant to computer science education, little research has been done on how to teach it with a focus on computer science concepts and knowledge. In this study, we position quantum informatics within Denning's Great Principles of Computing and propose Quantum Informatics Standards for secondary schools.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# 弱教師付き特徴選択による単語埋め込み次元削減

Word Embedding Dimension Reduction via Weakly-Supervised Feature Selection ( http://arxiv.org/abs/2407.12342v1 )

ライセンス: Link先を確認
Jintang Xue, Yun-Cheng Wang, Chengwei Wei, C. -C. Jay Kuo, (参考訳) 自然言語処理の基本的なタスクとして、単語埋め込みは各単語をベクトル空間における表現に変換する。 単語埋め込みの課題は、語彙が大きくなるにつれてベクトル空間の次元が増加し、膨大なモデルサイズにつながることである。 単語ベクトルのストリングと処理は、特にモバイルエッジデバイスアプリケーションにおいて、リソースオンデマンドである。 本稿では,単語埋め込み次元の減少について検討する。 計算コストと性能のバランスをとるために,WordFS という機能選択手法を提案する。 2つのバリエーションがあり、それぞれが特徴選択の新しい基準を利用している。 様々なタスク(例えば、単語と文の類似性、バイナリとクラス分類)で実施された実験は、提案したWordFSモデルが計算コストの低い他の次元削減法よりも優れていることを示している。

As a fundamental task in natural language processing, word embedding converts each word into a representation in a vector space. A challenge with word embedding is that as the vocabulary grows, the vector space's dimension increases and it can lead to a vast model size. Storing and processing word vectors are resource-demanding, especially for mobile edge-devices applications. This paper explores word embedding dimension reduction. To balance computational costs and performance, we propose an efficient and effective weakly-supervised feature selection method, named WordFS. It has two variants, each utilizing novel criteria for feature selection. Experiments conducted on various tasks (e.g., word and sentence similarity and binary and multi-class classification) indicate that the proposed WordFS model outperforms other dimension reduction methods at lower computational costs.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# マシン・パーソナリティの天使たち:LLMの安全性とパーソナリティの関係

The Better Angels of Machine Personality: How Personality Relates to LLM Safety ( http://arxiv.org/abs/2407.12344v1 )

ライセンス: Link先を確認
Jie Zhang, Dongrui Liu, Chen Qian, Ziyue Gan, Yong Liu, Yu Qiao, Jing Shao, (参考訳) パーソナリティ心理学者は、人間社会における人格と安全行動の関係を分析してきた。 大言語モデル(LLM)は人格特性を示すが、LLMにおける人格特性と安全能力の関係は依然として謎のままである。 本稿では, MBTI-M尺度に基づいて, LLMの性格特性が安全性, 毒性, プライバシ, 公平性と密接に関連していることを明らかにする。 一方、安全アライメントは一般的に、様々なLLMの外部変換、センシング、および判断特性を増大させる。 これらの結果から, LLMの性格特性を編集し, 安全性の向上, 例えば, ISTJからISTPへのパーソナリティ誘導により, プライバシとフェアネスのパフォーマンスが約43%, 10%向上した。 さらに,異なる性格特性を持つLCMは,脱獄の影響を受けやすいことが判明した。 本研究は, LLMの安全性を個性の観点から研究し, LLMの安全性向上に関する新たな知見を提供する。

Personality psychologists have analyzed the relationship between personality and safety behaviors in human society. Although Large Language Models (LLMs) demonstrate personality traits, the relationship between personality traits and safety abilities in LLMs still remains a mystery. In this paper, we discover that LLMs' personality traits are closely related to their safety abilities, i.e., toxicity, privacy, and fairness, based on the reliable MBTI-M scale. Meanwhile, the safety alignment generally increases various LLMs' Extraversion, Sensing, and Judging traits. According to such findings, we can edit LLMs' personality traits and improve their safety performance, e.g., inducing personality from ISTJ to ISTP resulted in a relative improvement of approximately 43% and 10% in privacy and fairness performance, respectively. Additionally, we find that LLMs with different personality traits are differentially susceptible to jailbreak. This study pioneers the investigation of LLM safety from a personality perspective, providing new insights into LLM safety enhancement.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# VisionTrap: テキスト記述でガイドされた視覚拡張軌道予測

VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions ( http://arxiv.org/abs/2407.12345v1 )

ライセンス: Link先を確認
Seokha Moon, Hyun Woo, Hongbeen Park, Haeji Jung, Reza Mahjourian, Hyung-gun Chi, Hyerin Lim, Sangpil Kim, Jinkyu Kim, (参考訳) 他の道路エージェントの将来の軌道予測は、自動運転車にとって重要な課題である。 確立された軌道予測法は、主に検出・追跡システムによって生成されたエージェントトラックとHDマップを入力として使用する。 そこで本研究では,人間の視線やジェスチャー,道路条件,車両の旋回信号などの視覚的手がかりを,従来手法ではモデルから隠蔽されるように,周辺視界カメラからの視覚的入力を取り入れた新しい手法を提案する。 さらに,VLM(Vision-Language Model)によって生成され,LLM(Large Language Model)によって改良されたテキスト記述を用いて,モデルが入力データから何を学習すべきかを指導する。 これらの余分な入力を用いても、53msのレイテンシを実現し、従来の単一エージェント予測手法よりも大幅に高速なリアルタイム処理を実現する。 実験により,視覚入力とテキスト記述の両方が軌跡予測性能の向上に寄与し,定性的解析により,モデルがこれらの追加入力をどのように活用できるかが明らかになった。 最後に、私たちはnuScenes-Textデータセットを作成し、リリースします。これは、確立したnuScenesデータセットを、すべてのシーンにリッチなテキストアノテーションで拡張します。 私たちのプロジェクトページはhttps://moonseokha.github.io/VisionTrap/です。

Predicting future trajectories for other road agents is an essential task for autonomous vehicles. Established trajectory prediction methods primarily use agent tracks generated by a detection and tracking system and HD map as inputs. In this work, we propose a novel method that also incorporates visual input from surround-view cameras, allowing the model to utilize visual cues such as human gazes and gestures, road conditions, vehicle turn signals, etc, which are typically hidden from the model in prior methods. Furthermore, we use textual descriptions generated by a Vision-Language Model (VLM) and refined by a Large Language Model (LLM) as supervision during training to guide the model on what to learn from the input data. Despite using these extra inputs, our method achieves a latency of 53 ms, making it feasible for real-time processing, which is significantly faster than that of previous single-agent prediction methods with similar performance. Our experiments show that both the visual inputs and the textual descriptions contribute to improvements in trajectory prediction performance, and our qualitative analysis highlights how the model is able to exploit these additional inputs. Lastly, in this work we create and release the nuScenes-Text dataset, which augments the established nuScenes dataset with rich textual annotations for every scene, demonstrating the positive impact of utilizing VLM on trajectory prediction. Our project page is at https://moonseokha.github.io/VisionTrap/
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# クロスモーダル画像-テキスト検索のためのオブジェクト認識クエリ摂動

Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval ( http://arxiv.org/abs/2407.12346v1 )

ライセンス: Link先を確認
Naoya Sogi, Takashi Shibata, Makoto Terao, (参考訳) 事前学習された視覚と言語(V\&L)モデルは、クロスモーダル画像テキスト検索の性能を大幅に改善した。 しかしながら、V\&Lモデルは、画像内の単語と小さなオブジェクトとの粗いアライメントのため、小さなオブジェクトに対して限られた検索性能を有する。 対照的に、人間の認知は対象中心であり、たとえ小さいとしても重要な対象にもっと注意を払うことが知られている。 人間の認識とV\&Lモデルの能力のギャップを埋めるために,<object-aware query perturbation>に基づく画像テキスト検索フレームワークを提案する。 提案手法は,検出対象の重要な特徴部分空間を生成し,この部分空間を用いて対応するクエリを摂動することで,画像内のオブジェクト認識を改善する。 提案手法では、既存のV\&Lモデルのリッチな表現力と検索性能を維持しつつ、追加の微調整を行わずにオブジェクト認識のクロスモーダル画像テキスト検索が可能となる。 4つの公開データセットの総合的な実験により,本手法が従来のアルゴリズムより優れていることが示された。

The pre-trained vision and language (V\&L) models have substantially improved the performance of cross-modal image-text retrieval. In general, however, V\&L models have limited retrieval performance for small objects because of the rough alignment between words and the small objects in the image. In contrast, it is known that human cognition is object-centric, and we pay more attention to important objects, even if they are small. To bridge this gap between the human cognition and the V\&L model's capability, we propose a cross-modal image-text retrieval framework based on ``object-aware query perturbation.'' The proposed method generates a key feature subspace of the detected objects and perturbs the corresponding queries using this subspace to improve the object awareness in the image. In our proposed method, object-aware cross-modal image-text retrieval is possible while keeping the rich expressive power and retrieval performance of existing V\&L models without additional fine-tuning. Comprehensive experiments on four public datasets show that our method outperforms conventional algorithms.
翻訳日:2024-07-18 18:17:30 公開日:2024-07-17
# ベル演算子と不等式間のバウンシングによる非局所性認証の改善

Improved Nonlocality Certification via Bouncing between Bell Operators and Inequalities ( http://arxiv.org/abs/2407.12347v1 )

ライセンス: Link先を確認
Weikang Li, Mengyao Hu, Ke Wang, Shibo Xu, Zhide Lu, Jiachen Chen, Yaozu Wu, Chuanyu Zhang, Feitong Jin, Xuhao Zhu, Yu Gao, Zhengyi Cui, Aosai Zhang, Ning Wang, Yiren Zou, Fanhao Shen, Jiarun Zhong, Zehang Bao, Zitian Zhu, Pengfei Zhang, Hekang Li, Qiujiang Guo, Zhen Wang, Dong-Ling Deng, Chao Song, H. Wang, Patrick Emonts, Jordi Tura, (参考訳) ベル非局所性(英: Bell nonlocality)は、ベルの不等式に違反して証明できる量子力学の固有の特徴である。 したがって、ベル非局所性を実験データから証明することは根本的な問題である。 本稿では,ベルの不等式とベル演算子に対応するハミルトニアンの間のフレキシブルな写像を探索することにより,非局所性認証を改善する最適化手法を提案する。 いくつかのハミルトン模型が、元のモデルよりも古典的境界が改良された新しい不等式に写像できることを示し、非局所性のより堅牢な検出を可能にした。 一方,固定ベルの不等式からハミルトニアンへの写像について検討し,実験的不完全性を考慮して量子違反を最大化することを目的とした。 実演として,70以上の超伝導量子ビットを用いたXXZ型ハニカム格子モデルに適用する。 この手法の応用が成功し、最適化ループを形成するために2つの方向を組み合わせることで、より実用的で耐雑音性の高い非局所性認証技術を開発し、より広範な実験実験を可能にするための新たな道を開くことができる。

Bell nonlocality is an intrinsic feature of quantum mechanics, which can be certified via the violation of Bell inequalities. It is therefore a fundamental question to certify Bell nonlocality from experimental data. Here, we present an optimization scheme to improve nonlocality certification by exploring flexible mappings between Bell inequalities and Hamiltonians corresponding to the Bell operators. We show that several Hamiltonian models can be mapped to new inequalities with improved classical bounds than the original one, enabling a more robust detection of nonlocality. From the other direction, we investigate the mapping from fixed Bell inequalities to Hamiltonians, aiming to maximize quantum violations while considering experimental imperfections. As a practical demonstration, we apply this method to an XXZ-like honeycomb-lattice model utilizing over 70 superconducting qubits. The successful application of this technique, as well as combining the two directions to form an optimization loop, may open new avenues for developing more practical and noise-resilient nonlocality certification techniques and enable broader experimental explorations.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# SENTAUR: LLMによる望ましくない修正案に対するトロイの木馬の安全性向上

SENTAUR: Security EnhaNced Trojan Assessment Using LLMs Against Undesirable Revisions ( http://arxiv.org/abs/2407.12352v1 )

ライセンス: Link先を確認
Jitendra Bhandari, Rajat Sadhukhan, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri, (参考訳) グローバルに分散したICサプライチェーンは、信頼できない第三者によるリスクをもたらす。 リスクは、ハードウェアTrojan(HT)、インテリチュアルプロパティ(3P-IP)またはElectronic Design Automation(EDA)フローの挿入といった不注意な使用にまたがる。 HTはステルスなHT動作の導入、IC作業の意図した防止、あるいはサイドチャネル経由で機密データをリークする。 HTに対処するためには、HTシナリオを迅速に調査することが重要な要件である。 Trust-Hubベンチマークは防御を評価するための出発点としてよいが、HT設計の拡張の中で手作業で作成したHTの小さなサブセットを含んでいる。 さらに、HTsは合成中に消失する。 本稿では,HT 効果の仕様,記述,自然言語記述を学習することにより,登録転送レベル (RTL) 設計のための正規 HT スイートを生成するための大規模言語モデル (LLM) フレームワーク SENTAUR を提案する。 既存のツールやベンチマークは限定的であり、脅威モデルを模倣するMLモデルを構築するには学習期間が必要であり、再現が難しい。 SENTAURは、LLMを学習期間なしで活用し、高速な評価を容易にすることで、迅速にHTインスタンスを生成できる。 SENTAURの評価は、TrustHubなどから効果的で合成可能で実用的なHTを生成し、RTLにおけるペイロード/トリガーの影響を調査した。 評価はHT挿入に重点を置いているが、SENTAURはRTLコードを自動的に変換して機能変更を定義することができる。

A globally distributed IC supply chain brings risks due to untrusted third parties. The risks span inadvertent use of hardware Trojan (HT), inserted Intellectual Property (3P-IP) or Electronic Design Automation (EDA) flows. HT can introduce stealthy HT behavior, prevent an IC work as intended, or leak sensitive data via side channels. To counter HTs, rapidly examining HT scenarios is a key requirement. While Trust-Hub benchmarks are a good starting point to assess defenses, they encompass a small subset of manually created HTs within the expanse of HT designs. Further, the HTs may disappear during synthesis. We propose a large language model (LLM) framework SENTAUR to generate a suite of legitimate HTs for a Register Transfer Level (RTL) design by learning its specifications, descriptions, and natural language descriptions of HT effects. Existing tools and benchmarks are limited; they need a learning period to construct an ML model to mimic the threat model and are difficult to reproduce. SENTAUR can swiftly produce HT instances by leveraging LLMs without any learning period and sanitizing the HTs facilitating their rapid assessment. Evaluation of SENTAUR involved generating effective, synthesizable, and practical HTs from TrustHub and elsewhere, investigating impacts of payloads/triggers at the RTL. While our evaluation focused on HT insertion, SENTAUR can generalize to automatically transform an RTL code to have defined functional modifications.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# NeRF用インバータブルニューラルワープ

Invertible Neural Warp for NeRF ( http://arxiv.org/abs/2407.12354v1 )

ライセンス: Link先を確認
Shin-Fang Chng, Ravi Garg, Hemanth Saratchandran, Simon Lucey, (参考訳) 本稿では、ポーズとニューラルラジアンスフィールド(NeRF)の同時最適化に取り組む。 カメラポーズに明示的なグローバル表現を用いる従来の慣習とは別に,モデルカメラが学習可能な厳密なワープ関数として機能する,過度にパラメータ化された表現を提案する。 厳密なワープのモデリングは、制約や規則化と密接に結びついていることを確立します。 具体的には、ニューラルネットワークを介して剛性ワープ関数を学習する際の可逆性を強制することの重要性を強調し、この目的のために幾何学的インフォームド制約と組み合わされた非可逆ニューラルネットワーク(INN)の使用を提案する。 提案手法は, 合成および実世界のデータセットにおいて, ポーズ推定や高忠実度再構成において, 既存のベースラインよりも優れていることを示す。

This paper tackles the simultaneous optimization of pose and Neural Radiance Fields (NeRF). Departing from the conventional practice of using explicit global representations for camera pose, we propose a novel overparameterized representation that models camera poses as learnable rigid warp functions. We establish that modeling the rigid warps must be tightly coupled with constraints and regularization imposed. Specifically, we highlight the critical importance of enforcing invertibility when learning rigid warp functions via neural network and propose the use of an Invertible Neural Network (INN) coupled with a geometry-informed constraint for this purpose. We present results on synthetic and real-world datasets, and demonstrate that our approach outperforms existing baselines in terms of pose estimation and high-fidelity reconstruction due to enhanced optimization convergence.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# 教育用エスケープルームは、ソフトウェア工学を教える従来の講義よりも効果的か? ランダム化試験

Are Educational Escape Rooms More Effective Than Traditional Lectures for Teaching Software Engineering? A Randomized Controlled Trial ( http://arxiv.org/abs/2407.12355v1 )

ライセンス: Link先を確認
Aldo Gordillo, Daniel López-Fernández, (参考訳) コントリビューション:本論文は,ソフトウェア工学を教えるための仮想学習避難室の学習効果を分析し,ランダム化試験を通じて従来の授業と比較する。 背景: 教育用エスケープルームは教育のあらゆる段階において様々な分野に利用されており、教師の間ではますます人気が高まっている。 それでも、これらの新しい活動の学習効果、特にソフトウェア工学教育におけるそれらの応用について、より堅牢な実証的な証拠が必要であることは明らかである。 研究課題: 学習室を用いたゲームベースの学習は、ソフトウェア工学を教える従来の講義よりも効果的か? 教育用避難室を用いたゲームベースの学習に対するソフトウェア工学の学生の認識はどのようなものか? 方法論: 本論文で示された研究は,326人のソフトウェア工学の学生によって完成した,事前およびポストテストの設計によるランダム化制御試験である。 実験グループに属する164名の学生は,学習室でソフトウェアを学習し,コントロールグループに属する162名の学生は従来の講義で同じことを学習した。 結果: ランダム化試験の結果, 教育避難室を通じてソフトウェアモデリングを学習した学生は, この活動に対して非常に肯定的な認識を示し, 知識を著しく増加させ, 従来の講義を通じて学習した生徒の知識獲得率を上回った。

Contribution: This article analyzes the learning effectiveness of a virtual educational escape room for teaching software engineering and compares this activity with traditional teaching through a randomized controlled trial. Background: Educational escape rooms have been used across a wide variety of disciplines at all levels of education and they are becoming increasingly popular among teachers. Nevertheless, there is a clear general need for more robust empirical evidence on the learning effectiveness of these novel activities and, particularly, on their application in software engineering education. Research Questions: Is game-based learning using educational escape rooms more effective than traditional lectures for teaching software engineering? What are the perceptions of software engineering students toward game-based learning using educational escape rooms? Methodology: The study presented in this article is a randomized controlled trial with a pre-and post-test design that was completed by a total of 326 software engineering students. The 164 students belonging to the experimental group learned software modeling by playing an educational escape room whereas the 162 students belonging to the control group learned the same subject matter through a traditional lecture. Findings: The results of the randomized controlled trial show that the students who learned software modeling through the educational escape room had very positive perceptions toward this activity, significantly increased their knowledge, and outperformed those students who learned through a traditional lecture in terms of knowledge acquisition.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# LTSim:レイアウト生成評価のためのレイアウト輸送に基づく類似度測定

LTSim: Layout Transportation-based Similarity Measure for Evaluating Layout Generation ( http://arxiv.org/abs/2407.12356v1 )

ライセンス: Link先を確認
Mayu Otani, Naoto Inoue, Kotaro Kikuchi, Riku Togashi, (参考訳) レイアウト生成の結果を評価するために,レイアウト類似度尺度を導入する。 先行研究でいくつかの類似性対策が提案されているが、それらの行動に関する包括的な議論が欠如している。 本稿では,これらの手法の大部分が,厳密な要素マッチングに依存しているため,レイアウトの違いに対処できないことが判明した。 この制限を克服するため、より柔軟な要素のマッチングを容易にする最適輸送に基づく新しい類似度尺度を提案する。 このアプローチにより、要素カテゴリを共有していない場合でも、2つのレイアウト間の類似性を定量化することが可能となり、幅広いレイアウト生成タスクに適用できる。 FIDが一般的に使用される非条件レイアウト生成のようなタスクに対しては、レイアウトのグループ間のコレクションレベルの類似性を扱うために、我々の測度を拡張します。 実験結果から,FID や Max.IoU などの既存の測定値と比較して,コレクションレベルの測定値の方が信頼性が高いことが示唆された。

We introduce a layout similarity measure designed to evaluate the results of layout generation. While several similarity measures have been proposed in prior research, there has been a lack of comprehensive discussion about their behaviors. Our research uncovers that the majority of these measures are unable to handle various layout differences, primarily due to their dependencies on strict element matching, that is one-by-one matching of elements within the same category. To overcome this limitation, we propose a new similarity measure based on optimal transport, which facilitates a more flexible matching of elements. This approach allows us to quantify the similarity between any two layouts even those sharing no element categories, making our measure highly applicable to a wide range of layout generation tasks. For tasks such as unconditional layout generation, where FID is commonly used, we also extend our measure to deal with collection-level similarities between groups of layouts. The empirical result suggests that our collection-level measure offers more reliable comparisons than existing ones like FID and Max.IoU.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# AIに基づくレコメンデータシステムのためのグラフに基づく説明の評価

Evaluating graph-based explanations for AI-based recommender systems ( http://arxiv.org/abs/2407.12357v1 )

ライセンス: Link先を確認
Simon Delarue, Astrid Bertrand, Tiphaine Viard, (参考訳) 近年、リコメンデーター制度の急速な成長が見られ、健康や正義などの社会的影響の高い多くのアプリケーションで提案されている。 一方、ヨーロッパでは「基本的権利に対するリスクを緩和する」ために、'emph{transparency}'を重要なAIシステムの要件として言及している。 ポストホックな説明は、この目標とシームレスに一致し、主題に関する広範な文献は、そのような対象のいくつかの形式を生み出し、グラフはその1つとなった。 視覚化に関する初期の研究は、グラフがユーザ理解を改善する能力を示し、それらを潜在的に理想的な説明として位置づけた。 しかし、グラフに基づく説明が他の説明設計とどのように比較されるかは定かではない。 本研究では,混合メソッドアプローチを用いて,AIによる推薦に対するユーザの認識を改善するために,グラフに基づく説明の有効性を決定することを目的とする。 まず,ユーザからのグラフ説明要求を定性的に収集する。 次に、より大規模な定量的研究を行い、グラフベースのものを含む様々な説明設計がAIシステムに対する理解、ユーザビリティ、好奇心などの側面に与える影響を評価する。 ユーザがグラフベースの説明を,機能の重要性を含む設計よりも有用であると認識していることが分かりました。 しかし,テキストによる説明がグラフに基づく設計よりも客観的な理解につながることも明らかにした。 最も重要なことは、参加者のグラフデザインに対する表現された嗜好とそれを用いた実際の評価との間に強いコントラストを強調し、これはテキストデザインよりも低い。 これらの結果は、利害関係者の表明された嗜好が「良い」説明を保障するだけでなく、単に「良い」説明を保証している可能性を示唆している。 そのため、社会的期待と下流のパフォーマンスのバランスをとるためにハイブリッドデザインを開発することが大きな課題となる。

Recent years have witnessed a rapid growth of recommender systems, providing suggestions in numerous applications with potentially high social impact, such as health or justice. Meanwhile, in Europe, the upcoming AI Act mentions \emph{transparency} as a requirement for critical AI systems in order to ``mitigate the risks to fundamental rights''. Post-hoc explanations seamlessly align with this goal and extensive literature on the subject produced several forms of such objects, graphs being one of them. Early studies in visualization demonstrated the graphs' ability to improve user understanding, positioning them as potentially ideal explanations. However, it remains unclear how graph-based explanations compare to other explanation designs. In this work, we aim to determine the effectiveness of graph-based explanations in improving users' perception of AI-based recommendations using a mixed-methods approach. We first conduct a qualitative study to collect users' requirements for graph explanations. We then run a larger quantitative study in which we evaluate the influence of various explanation designs, including enhanced graph-based ones, on aspects such as understanding, usability and curiosity toward the AI system. We find that users perceive graph-based explanations as more usable than designs involving feature importance. However, we also reveal that textual explanations lead to higher objective understanding than graph-based designs. Most importantly, we highlight the strong contrast between participants' expressed preferences for graph design and their actual ratings using it, which are lower compared to textual design. These findings imply that meeting stakeholders' expressed preferences might not alone guarantee ``good'' explanations. Therefore, crafting hybrid designs successfully balancing social expectations with downstream performance emerges as a significant challenge.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# ProcTag: ドキュメントインストラクションデータの有効性を評価するプロセスタギング

ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data ( http://arxiv.org/abs/2407.12358v1 )

ライセンス: Link先を確認
Yufan Shen, Chuwei Luo, Zhaoqing Zhu, Yang Chen, Qi Zheng, Zhi Yu, Jiajun Bu, Cong Yao, (参考訳) 近年,大規模言語モデル (LLMs) とマルチモーダル大規模言語モデル (MLLMs) が文書視覚質問応答 (VQA) タスクにおいて有望な結果を示した。 文書命令データの効果的な評価法は、文書VQAのための LLM と MLLM の訓練を容易にする高効率な命令データの構築に不可欠である。 しかし、既存の命令データの評価手法は、命令自体のテキストの内容に限られており、文書の命令データセットの効果的な評価や構成の制約を妨げている。 本稿では,文書命令データの有効性を評価するデータ指向手法であるProcTagを提案する。 ProcTagは、命令テキスト自体ではなく、命令の実行プロセスにタグ付けを革新的に行う。 これらのタグの多様性と複雑さを活用して、与えられたデータセットの有効性を評価することにより、ProcTagはドキュメント命令の選択的なサンプリングやフィルタリングを可能にする。 さらに,文書を効果的に表現するための半構造化レイアウト対応文書作成戦略であるDocLayPromptを提案する。 実験により、既存のオープンソースおよび生成された文書VQA/インストラクションデータセットをProcTagでサンプリングすることは、インストラクションデータを評価する現在の方法よりも大幅に優れていることが示された。 興味深いことに、生成した文書データセットのProcTagベースのサンプリングでは、完全なデータセットに比べて100倍の有効性を達成するために、文書命令の30.55%しか必要とされない。 コードはhttps://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/ProcTag で公開されている。

Recently, large language models (LLMs) and multimodal large language models (MLLMs) have demonstrated promising results on document visual question answering (VQA) task, particularly after training on document instruction datasets. An effective evaluation method for document instruction data is crucial in constructing instruction data with high efficacy, which, in turn, facilitates the training of LLMs and MLLMs for document VQA. However, most existing evaluation methods for instruction data are limited to the textual content of the instructions themselves, thereby hindering the effective assessment of document instruction datasets and constraining their construction. In this paper, we propose ProcTag, a data-oriented method that assesses the efficacy of document instruction data. ProcTag innovatively performs tagging on the execution process of instructions rather than the instruction text itself. By leveraging the diversity and complexity of these tags to assess the efficacy of the given dataset, ProcTag enables selective sampling or filtering of document instructions. Furthermore, DocLayPrompt, a novel semi-structured layout-aware document prompting strategy, is proposed for effectively representing documents. Experiments demonstrate that sampling existing open-sourced and generated document VQA/instruction datasets with ProcTag significantly outperforms current methods for evaluating instruction data. Impressively, with ProcTag-based sampling in the generated document datasets, only 30.5\% of the document instructions are required to achieve 100\% efficacy compared to the complete dataset. The code is publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/ProcTag .
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# エネルギーを超える: 電報、充電など

Beyond Energy: Teleporting Current, Charge, and More ( http://arxiv.org/abs/2407.12359v1 )

ライセンス: Link先を確認
Kazuki Ikeda, (参考訳) 量子エネルギーテレポーテーション(Quantum Energy Teleportation)のホメージとして、このアイデアをエネルギーに限らず任意の物理観測値に一般化し、活性化(teleported)量の厳密な上限を証明する。 このプロトコルの本質は、量子多体系の絡み合った基底状態に対する量子フィードバック制御である。 この概念を実証するために、(1+1)次元カイラルディラック系を探索し、電流と電荷のプロトコルを実行する。 最も重要な結果の1つは、制御操作を1つのローカルサイトにのみ適用した後、システム全体にわたる長距離相関の生成である。 その結果、誘導電荷感受性は、当初電荷を持たないモデルにもかかわらず、位相図を完全に再構成する。 さらに, 吸着イオンと中性原子を用いて実験的に確認できる, フィードバック制御操作によって誘導される新規キラルダイナミクスの活性化も見いだす。

As an homage to Quantum Energy Teleportation, we generalize the idea to arbitrary physical observables, not limited to energy, and prove a rigorous upper bound on the activated ("teleported") quantity. The essence of this protocol is a quantum feedback control with respect to the entangled ground state of a quantum many-body system. To demonstrate the concept, we explore a (1+1)-dimensional chiral Dirac system and execute the protocol for the electric current and charge. One of the most significant results is the creation of long-range correlations across the system after applying control operations only to one local site. Consequently but surprisingly, the induced charge susceptibility fully reconstructs the phase diagram, despite the model initially having no charge. Moreover, we find an activation of novel chiral dynamics induced by feedback control operations, which can be experimentally confirmed using trapped ions and neutral atoms.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# 検索文書の指導による会話クエリの再構築

Conversational Query Reformulation with the Guidance of Retrieved Documents ( http://arxiv.org/abs/2407.12363v1 )

ライセンス: Link先を確認
Jeonghyun Park, Hwanhee Lee, (参考訳) 会話検索は,会話QA(ConvQA)において,与えられた質問に対する関連項目の検索を試みる。 ConvQAの質問は、省略やコア推論といった課題に直面しており、望ましい検索結果を得るのが困難である。 Conversational Query Reformulation (CQR) は、現在のクエリを非コンテクスト化された形式に変換し、これらの問題を解決する。 しかし、既存のCQR手法では、人間に優しいクエリを書き換えることに重点を置いている。 この課題を克服するために、ガイドドドキュメントを利用してクエリを洗練し、検索者が最適であることを保証するフレームワークである GuideCQR を導入する。 具体的には、キーワードを拡大し、再ランクされた文書から期待された回答を生成し、それらをフィルタリング処理で統一する。 実験の結果,ガイド付き文書によって強化されたクエリは,従来のCQR法よりも優れていることがわかった。 特に、ガイドCQRは、LLM(Large Language Model)のプロンプト駆動アプローチの性能を超越し、多様なセットアップで検索に親しみやすいクエリを定式化する上で、ガイド付きドキュメントの重要性を実証している。

Conversational search seeks to retrieve relevant passages for the given questions in Conversational QA (ConvQA). Questions in ConvQA face challenges such as omissions and coreferences, making it difficult to obtain desired search results. Conversational Query Reformulation (CQR) transforms these current queries into de-contextualized forms to resolve these issues. However, existing CQR methods focus on rewriting human-friendly queries, which may not always yield optimal search results for the retriever. To overcome this challenge, we introduce GuideCQR, a framework that utilizes guided documents to refine queries, ensuring that they are optimal for retrievers. Specifically, we augment keywords, generate expected answers from the re-ranked documents, and unify them with the filtering process. Experimental results show that queries enhanced by guided documents outperform previous CQR methods. Especially, GuideCQR surpasses the performance of Large Language Model (LLM) prompt-powered approaches and demonstrates the importance of the guided documents in formulating retriever-friendly queries across diverse setups.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# NavGPT-2:大規模視覚言語モデルのためのナビゲーション推論能力の開放

NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models ( http://arxiv.org/abs/2407.12366v1 )

ライセンス: Link先を確認
Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, Qi Wu, (参考訳) LLM(Large Language Models)の目覚ましい進歩に乗じて、LLMをロボットナビゲーションの指導に活用する活動が盛んである。 このような傾向は、航法的推論と多様な言語理解を一般化するLLMの可能性を浮き彫りにしている。 しかし、従来のダウンストリームスペシャリストモデルと比較して、ビジョン・アンド・ランゲージ・ナビゲーション(VLN)タスクにLLMを統合する際には、エージェント性能の顕著な相違が観察される。 さらに、エージェント間相互作用におけるコミュニケーションを解釈し、促進する言語の本質的な能力は、これらの統合においてしばしば未利用である。 本研究では,言語ナビゲーションの推論におけるLLMの解釈能力を維持しつつ,VLN特化モデルとLLMに基づくナビゲーションパラダイムの分割を橋渡しする。 凍結したLCMにおける視覚的内容の整合化により、LCMの視覚的理解を包含し、LCMとナビゲーションポリシーネットワークを効果的に行動予測とナビゲーション推論に組み込む方法を利用する。 本稿では,提案手法のデータ効率を実証し,LMベースのエージェントと最先端のVLNスペシャリストとのギャップを解消する。

Capitalizing on the remarkable advancements in Large Language Models (LLMs), there is a burgeoning initiative to harness LLMs for instruction following robotic navigation. Such a trend underscores the potential of LLMs to generalize navigational reasoning and diverse language understanding. However, a significant discrepancy in agent performance is observed when integrating LLMs in the Vision-and-Language navigation (VLN) tasks compared to previous downstream specialist models. Furthermore, the inherent capacity of language to interpret and facilitate communication in agent interactions is often underutilized in these integrations. In this work, we strive to bridge the divide between VLN-specialized models and LLM-based navigation paradigms, while maintaining the interpretative prowess of LLMs in generating linguistic navigational reasoning. By aligning visual content in a frozen LLM, we encompass visual observation comprehension for LLMs and exploit a way to incorporate LLMs and navigation policy networks for effective action predictions and navigational reasoning. We demonstrate the data efficiency of the proposed methods and eliminate the gap between LM-based agents and state-of-the-art VLN specialists.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# 動的グラフ学習における時間受容場:包括的解析

Temporal receptive field in dynamic graph learning: A comprehensive analysis ( http://arxiv.org/abs/2407.12370v1 )

ライセンス: Link先を確認
Yannis Karmim, Leshanshui Yang, Raphaël Fournier S'Niehotta, Clément Chatelain, Sébastien Adam, Nicolas Thome, (参考訳) 動的リンク予測は、レコメンデーターシステムから経済交換まで、様々な用途で進化するネットワークの分析において重要な課題である。 しかし、時間受容場の概念は、モデルが予測を行う際に使用する時間的文脈を指しており、既存の研究ではほとんど見過ごされ、不十分に分析されてきた。 本研究では,動的グラフ学習における時間受容領域の包括的解析について述べる。 複数のデータセットやモデルを調べることで、時間的受容領域の役割を形式化し、予測精度に重要な影響を浮き彫りにする。 その結果、適切な時間的受容場がモデル性能を大幅に向上させることができる一方で、いくつかのモデルでは、過度に大きなウィンドウがノイズを発生させ、精度を低下させる可能性があることが示された。 すべての実験が完全に再現可能であることを保証するために、広範なベンチマークを実施しています。

Dynamic link prediction is a critical task in the analysis of evolving networks, with applications ranging from recommender systems to economic exchanges. However, the concept of the temporal receptive field, which refers to the temporal context that models use for making predictions, has been largely overlooked and insufficiently analyzed in existing research. In this study, we present a comprehensive analysis of the temporal receptive field in dynamic graph learning. By examining multiple datasets and models, we formalize the role of temporal receptive field and highlight their crucial influence on predictive accuracy. Our results demonstrate that appropriately chosen temporal receptive field can significantly enhance model performance, while for some models, overly large windows may introduce noise and reduce accuracy. We conduct extensive benchmarking to validate our findings, ensuring that all experiments are fully reproducible.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# HIMO:複数オブジェクトによるフルボディヒューマンインタラクションのための新しいベンチマーク

HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects ( http://arxiv.org/abs/2407.12371v1 )

ライセンス: Link先を確認
Xintao Lv, Liang Xu, Yichao Yan, Xin Jin, Congsheng Xu, Shuwen Wu, Yifan Liu, Lincheng Li, Mengxiao Bi, Wenjun Zeng, Xiaokang Yang, (参考訳) 人-物相互作用(HOIs)の生成は、デジタルアバターの大幅な進歩に不可欠である。 既存のデータセットは通常、複数のオブジェクトのユビキタスな操作を無視しながら、単一のオブジェクトと対話する人間に限られる。 そこで,本研究では,3.3K 4D HOI シーケンスと4.08M 3D HOI フレームを含む,多数のオブジェクトと相互作用する実物体の大規模な MoCap データセット HIMO を提案する。 また、HIMOに詳細なテキスト記述と時間セグメントを付加し、テキストプロンプト全体またはセグメント化されたテキストプロンプトに条件付されたHOI合成の2つの新しいタスクを、きめ細かいタイムライン制御としてベンチマークする。 このような新しい課題に対処するために,HOI合成のための相互相互作用モジュールを持つ二重分岐条件拡散モデルを提案する。 さらに、HOIセグメント間のスムーズな遷移を得るために自動回帰生成パイプラインも設計されている。 実験結果から, 物体の地形や時間組成を可視化する一般化能力が示された。

Generating human-object interactions (HOIs) is critical with the tremendous advances of digital avatars. Existing datasets are typically limited to humans interacting with a single object while neglecting the ubiquitous manipulation of multiple objects. Thus, we propose HIMO, a large-scale MoCap dataset of full-body human interacting with multiple objects, containing 3.3K 4D HOI sequences and 4.08M 3D HOI frames. We also annotate HIMO with detailed textual descriptions and temporal segments, benchmarking two novel tasks of HOI synthesis conditioned on either the whole text prompt or the segmented text prompts as fine-grained timeline control. To address these novel tasks, we propose a dual-branch conditional diffusion model with a mutual interaction module for HOI synthesis. Besides, an auto-regressive generation pipeline is also designed to obtain smooth transitions between HOI segments. Experimental results demonstrate the generalization ability to unseen object geometries and temporal compositions.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# クロスドメインレコメンデーションのためのグラフ信号処理

Graph Signal Processing for Cross-Domain Recommendation ( http://arxiv.org/abs/2407.12374v1 )

ライセンス: Link先を確認
Jeongeun Lee, Seongku Kang, Won-Yong Shin, Jeongwhan Choi, Noseong Park, Dongha Lee, (参考訳) クロスドメインレコメンデーション(CDR)は、高密度ドメインからのユーザ-イテムインタラクションを活用して、データ空間とコールドスタート問題を緩和することにより、従来のレコメンデーションシステムを拡張する。 CDRはレコメンデーション性能を高める大きな可能性を秘めているが、既存のCDR手法の多くは、重複するユーザの比率と、ソースドメインとターゲットドメインの固有の相違に敏感である。 これらの制約を克服するため,本研究では,CDRシナリオにおけるグラフ信号処理(GSP)の適用について検討する。 GSPに基づく統一CDRフレームワークであるCGSPを提案し、ターゲットのみの類似性とソースブリッジの類似性を柔軟に組み合わせて構築されたクロスドメイン類似性グラフを利用する。 ソースドメインとターゲットドメインの両方から計算したパーソナライズされたグラフ信号を処理することにより、ドメイン間のレコメンデーションとドメイン内のレコメンデーションの両方を効果的にサポートする。 我々の経験的評価では、CGSPはドメイン内およびドメイン間レコメンデーションシナリオにおいて、特に重複ユーザの比率が低い場合において、様々なエンコーダベースのCDRアプローチを一貫して上回り、実際のアプリケーションにおいてその重要な実践的影響を浮き彫りにしている。

Cross-domain recommendation (CDR) extends conventional recommender systems by leveraging user-item interactions from dense domains to mitigate data sparsity and the cold start problem. While CDR offers substantial potential for enhancing recommendation performance, most existing CDR methods suffer from sensitivity to the ratio of overlapping users and intrinsic discrepancy between source and target domains. To overcome these limitations, in this work, we explore the application of graph signal processing (GSP) in CDR scenarios. We propose CGSP, a unified CDR framework based on GSP, which employs a cross-domain similarity graph constructed by flexibly combining target-only similarity and source-bridged similarity. By processing personalized graph signals computed for users from either the source or target domain, our framework effectively supports both inter-domain and intra-domain recommendations. Our empirical evaluation demonstrates that CGSP consistently outperforms various encoder-based CDR approaches in both intra-domain and inter-domain recommendation scenarios, especially when the ratio of overlapping users is low, highlighting its significant practical implication in real-world applications.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# FETCH:画像分類における連続学習のためのメモリ効率の良いリプレイアプローチ

FETCH: A Memory-Efficient Replay Approach for Continual Learning in Image Classification ( http://arxiv.org/abs/2407.12375v1 )

ライセンス: Link先を確認
Markus Weißflog, Peter Protzel, Peer Neubert, (参考訳) 静的な深層学習手法はタスクやデータ分布の変化に適応できないため、クラスインクリメンタルな学習は研究の重要な領域である。 以前の作品では、リプレイと圧縮されたリプレイ技術を用いて、有望な結果が得られた。 通常のリプレイの分野では、GDumbは優れた結果を得たが、大量のメモリを必要とする。 この問題は圧縮再生技術によって解決できる。 この研究の目的は、GDumbのパイプラインで圧縮された再生を評価することである。 2段階圧縮手法であるFETCHを提案する。 まず、連続データストリームからのサンプルは、事前訓練されたニューラルネットワークの初期層によって符号化される。 第2に、サンプルはエピソードメモリに格納される前に圧縮される。 GDumbの後、残りの分類ヘッドは返信メモリから圧縮されたサンプルのみを使用してスクラッチから訓練される。 我々は、異なるシナリオでFETCHを評価し、CIFAR10とCIFAR100の精度を高めることができることを示す。 我々の実験では、単純な圧縮法(例えばテンソルの量子化)はディープオートエンコーダより優れている。 将来的には、FETCHは圧縮されたリプレイ学習を制約されたメモリシナリオでベンチマークするためのベースラインとして機能する可能性がある。

Class-incremental continual learning is an important area of research, as static deep learning methods fail to adapt to changing tasks and data distributions. In previous works, promising results were achieved using replay and compressed replay techniques. In the field of regular replay, GDumb achieved outstanding results but requires a large amount of memory. This problem can be addressed by compressed replay techniques. The goal of this work is to evaluate compressed replay in the pipeline of GDumb. We propose FETCH, a two-stage compression approach. First, the samples from the continual datastream are encoded by the early layers of a pre-trained neural network. Second, the samples are compressed before being stored in the episodic memory. Following GDumb, the remaining classification head is trained from scratch using only the decompressed samples from the reply memory. We evaluate FETCH in different scenarios and show that this approach can increase accuracy on CIFAR10 and CIFAR100. In our experiments, simple compression methods (e.g., quantization of tensors) outperform deep autoencoders. In the future, FETCH could serve as a baseline for benchmarking compressed replay learning in constrained memory scenarios.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# 深層学習に基づくオリンピックツイートの感性分析

Deep Learning-based Sentiment Analysis of Olympics Tweets ( http://arxiv.org/abs/2407.12376v1 )

ライセンス: Link先を確認
Indranil Bandyopadhyay, Rahul Karmakar, (参考訳) 感性分析(英: Sentiment Analysis、SA)は、特定の話題、製品、サービス、イベント、経験に対する観念、感情、態度などの主観的な情報を分析することによって、テキストの感情のトーンを決定する自然言語処理(NLP)のアプローチである。 本研究は, オリンピックの文脈におけるツイートを通して, グローバルな聴衆の感情を理解するための高度深層学習(DL)モデルを開発することを目的とする。 この結果はオリンピックに関する世界的な態度を表し、SAモデルの推進に寄与している。 我々は、ツイート前処理にNLP、SAと議論するために洗練されたDLモデルを使用しており、この研究は感情分類の信頼性と精度を高める。 この研究は、データ選択、前処理、可視化、特徴抽出、モデル構築に焦点を当て、ベースラインのNa\"ive Bayes (NB)モデルと3つの高度なDLモデルである畳み込みニューラルネットワーク(CNN)、Bidirectional Long Short-Term Memory (BiLSTM)、およびBidirectional Encoder Representations from Transformers (BERT)を特徴としている。 実験の結果、BERTモデルはオリンピックに関する感情を効率的に分類することができ、99.23%の精度を達成している。

Sentiment analysis (SA), is an approach of natural language processing (NLP) for determining a text's emotional tone by analyzing subjective information such as views, feelings, and attitudes toward specific topics, products, services, events, or experiences. This study attempts to develop an advanced deep learning (DL) model for SA to understand global audience emotions through tweets in the context of the Olympic Games. The findings represent global attitudes around the Olympics and contribute to advancing the SA models. We have used NLP for tweet pre-processing and sophisticated DL models for arguing with SA, this research enhances the reliability and accuracy of sentiment classification. The study focuses on data selection, preprocessing, visualization, feature extraction, and model building, featuring a baseline Na\"ive Bayes (NB) model and three advanced DL models: Convolutional Neural Network (CNN), Bidirectional Long Short-Term Memory (BiLSTM), and Bidirectional Encoder Representations from Transformers (BERT). The results of the experiments show that the BERT model can efficiently classify sentiments related to the Olympics, achieving the highest accuracy of 99.23%.
翻訳日:2024-07-18 18:07:45 公開日:2024-07-17
# StoX-Net: 効率的なメモリ内計算DNN加速器のための部分和の確率的処理

StoX-Net: Stochastic Processing of Partial Sums for Efficient In-Memory Computing DNN Accelerators ( http://arxiv.org/abs/2407.12378v1 )

ライセンス: Link先を確認
Ethan G Rogers, Sohan Salahuddin Mugdho, Kshemal Kshemendra Gupte, Cheng Wang, (参考訳) ディープニューラルネットワーク(DNN)のハードウェアアクセラレーションのための有望なプラットフォームとして、クロスバーベースのインメモリコンピューティング(IMC)が登場した。 しかし、IMCシステムのエネルギーとレイテンシは、周辺アナログ・デジタルコンバータ(ADC)の大きなオーバーヘッドに支配されている。 このようなADCボトルネックに対処するために、効率的なIMCのための配列レベルの部分和(PS)の確率的処理を実装することを提案する。 スピン軌道トルク磁気トンネル接合の確率的切替を利用して、提案したPS処理はコストの高いADCを排除し、エネルギーと面積効率を大幅に向上させる。 精度損失を軽減するため,確率PS間の後方伝播を可能にするPS量子化対応トレーニングを開発した。 さらに,確率変換の不均一なサンプリング長を持つ新しいスキームを提案する。 CIFAR-10データセット上でResNet20を実行すると、アーキテクチャとアルゴリズムの共設計により、標準ADCのIMCと比較して、それぞれ22倍、30倍、142倍のエネルギー、レイテンシ、面積が改善される。 確率PSを用いた最適化設計は, 各種ベンチマーク分類タスクにおいて近ソフトウェア精度を維持しつつ, 完全精度のATC (Sparse Low-bit ADC) のIMCと比較して666x(111x) の改善を実現した。

Crossbar-based in-memory computing (IMC) has emerged as a promising platform for hardware acceleration of deep neural networks (DNNs). However, the energy and latency of IMC systems are dominated by the large overhead of the peripheral analog-to-digital converters (ADCs). To address such ADC bottleneck, here we propose to implement stochastic processing of array-level partial sums (PS) for efficient IMC. Leveraging the probabilistic switching of spin-orbit torque magnetic tunnel junctions, the proposed PS processing eliminates the costly ADC, achieving significant improvement in energy and area efficiency. To mitigate accuracy loss, we develop PS-quantization-aware training that enables backward propagation across stochastic PS. Furthermore, a novel scheme with an inhomogeneous sampling length of the stochastic conversion is proposed. When running ResNet20 on the CIFAR-10 dataset, our architecture-to-algorithm co-design demonstrates up to 22x, 30x, and 142x improvement in energy, latency, and area, respectively, compared to IMC with standard ADC. Our optimized design configuration using stochastic PS achieved 666x (111x) improvement in Energy-Delay-Product compared to IMC with full precision ADC (sparse low-bit ADC), while maintaining near-software accuracy at various benchmark classification tasks.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# スペクトル論におけるビリアル定理と乗算の方法

The virial theorem and the method of multipliers in spectral theory ( http://arxiv.org/abs/2407.12379v1 )

ライセンス: Link先を確認
Lucrezia Cossetti, David Krejcirik, (参考訳) 汎函数解析におけるビリアル定理と偏微分方程式の理論における乗法との関係について述べる。 これらの手法について物理的知見を与えた後、電磁量子ハミルトニアンの固有値やその他のスペクトル特性の欠如を推定する方法を示す。 我々は、行列値ポテンシャルを持つシュレーディンガー作用素、パウリ型とディラック型の相対論的作用素、複雑なロビン境界条件など、非自己随伴設定における最近の発展に焦点を当てる。

We provide a link between the virial theorem in functional analysis and the method of multipliers in theory of partial differential equations. After giving a physical insight into the techniques, we show how to use them to deduce the absence of eigenvalues and other spectral properties of electromagnetic quantum Hamiltonians. We focus on our recent developments in non-self-adjoint settings, namely on Schroedinger operators with matrix-valued potentials, relativistic operators of Pauli and Dirac types, and complex Robin boundary conditions.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# テキスト・画像拡散モデルの信頼性と効率的な概念消去

Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2407.12383v1 )

ライセンス: Link先を確認
Chao Gong, Kai Chen, Zhipeng Wei, Jingjing Chen, Yu-Gang Jiang, (参考訳) テキスト・ツー・イメージのモデルは、著作権やNSFW(Not-Safe-For-Work)コンテンツに関する懸念など、安全上の問題に直面する。 拡散モデルから不適切な概念を消去するいくつかの方法が提案されているが、しばしば不完全な消去を示し、多くの計算資源を消費し、不注意に損傷を発生させる能力を示す。 本稿では,3秒でモデルを変更する新しい手法であるReliable and Efficient Concept Erasure (RECE)を紹介する。 具体的には、RECEは、未学習モデル内で消去された概念を再生できる新しいターゲット埋め込みを導出するために、クローズドフォームソリューションを効率的に活用する。 派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。 新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。 さらに、モデルの生成能力を維持するため、RECEは導出プロセス中に追加の正規化項を導入し、消去プロセスにおける無関係な概念への影響を最小限にする。 上記のプロセスはすべてクローズド形式で、非常に効率的な消去をわずか3秒で保証します。 従来の手法と比較して,本手法は生成能力に小さなダメージを与えることなく,より効率的かつ徹底的な消去を実現し,レッドチームツールに対する堅牢性の向上を実証する。 コードは \url{https://github.com/CharlesGong12/RECE} で入手できる。

Text-to-image models encounter safety issues, including concerns related to copyright and Not-Safe-For-Work (NSFW) content. Despite several methods have been proposed for erasing inappropriate concepts from diffusion models, they often exhibit incomplete erasure, consume a lot of computing resources, and inadvertently damage generation ability. In this work, we introduce Reliable and Efficient Concept Erasure (RECE), a novel approach that modifies the model in 3 seconds without necessitating additional fine-tuning. Specifically, RECE efficiently leverages a closed-form solution to derive new target embeddings, which are capable of regenerating erased concepts within the unlearned model. To mitigate inappropriate content potentially represented by derived embeddings, RECE further aligns them with harmless concepts in cross-attention layers. The derivation and erasure of new representation embeddings are conducted iteratively to achieve a thorough erasure of inappropriate concepts. Besides, to preserve the model's generation ability, RECE introduces an additional regularization term during the derivation process, resulting in minimizing the impact on unrelated concepts during the erasure process. All the processes above are in closed-form, guaranteeing extremely efficient erasure in only 3 seconds. Benchmarking against previous approaches, our method achieves more efficient and thorough erasure with minor damage to original generation ability and demonstrates enhanced robustness against red-teaming tools. Code is available at \url{https://github.com/CharlesGong12/RECE}.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# HGL:3Dポイントクラウドセグメンテーションにおけるテスト時間適応のための階層幾何学学習

HGL: Hierarchical Geometry Learning for Test-time Adaptation in 3D Point Cloud Segmentation ( http://arxiv.org/abs/2407.12387v1 )

ライセンス: Link先を確認
Tianpei Zou, Sanqing Qu, Zhijun Li, Alois Knoll, Lianghua He, Guang Chen, Changjun Jiang, (参考訳) 3Dポイントのクラウドセグメンテーションは、その成長するアプリケーションに大きな関心を集めている。 しかし、モデルの一般化能力は、テストデータとトレーニングデータの間の分布シフトによって、動的シナリオに悩まされる。 多様なシナリオにおける堅牢性と適応性を促進するため、テスト時適応(TTA)が最近導入された。 しかしながら、既存のほとんどのTTA手法は画像のために開発されており、点雲に適用できる限られたアプローチは、点雲ストリームの固有階層的幾何学構造、すなわち局所的(ポイントレベル)、大域的(オブジェクトレベル)、時間的(フレームレベル)構造を無視している。 本稿では,TTAを3次元点クラウドセグメンテーションで探索し,新しい階層幾何学学習(HGL)フレームワークを提案する。 HGLは, 局所的, グローバル的, 時間的学習の3つの相補的なモジュールをボトムアップで構成する。 次に,擬似ラベルファインチューニングのためのグローバルな幾何学的視点からプロトタイプを構築した。 さらに、負の転送を緩和する時間的整合正則化モジュールを導入する。 4つのデータセットに対する大規模な実験は、我々のHGLの有効性と優位性を示している。 注目すべきは、SynLiDAR to SemanticKITTIタスクにおいて、HGLは46.91\%の全体的なmIoUを達成し、GIPSOを3.0\%改善し、必要な適応時間を80\%短縮する。 コードはhttps://github.com/tpzou/HGLで公開されている。

3D point cloud segmentation has received significant interest for its growing applications. However, the generalization ability of models suffers in dynamic scenarios due to the distribution shift between test and training data. To promote robustness and adaptability across diverse scenarios, test-time adaptation (TTA) has recently been introduced. Nevertheless, most existing TTA methods are developed for images, and limited approaches applicable to point clouds ignore the inherent hierarchical geometric structures in point cloud streams, i.e., local (point-level), global (object-level), and temporal (frame-level) structures. In this paper, we delve into TTA in 3D point cloud segmentation and propose a novel Hierarchical Geometry Learning (HGL) framework. HGL comprises three complementary modules from local, global to temporal learning in a bottom-up manner.Technically, we first construct a local geometry learning module for pseudo-label generation. Next, we build prototypes from the global geometry perspective for pseudo-label fine-tuning. Furthermore, we introduce a temporal consistency regularization module to mitigate negative transfer. Extensive experiments on four datasets demonstrate the effectiveness and superiority of our HGL. Remarkably, on the SynLiDAR to SemanticKITTI task, HGL achieves an overall mIoU of 46.91\%, improving GIPSO by 3.0\% and significantly reducing the required adaptation time by 80\%. The code is available at https://github.com/tpzou/HGL.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# 小児のモルフォシンチクス解析

Morphosyntactic Analysis for CHILDES ( http://arxiv.org/abs/2407.12389v1 )

ライセンス: Link先を確認
Houjun Liu, Brian MacWhinney, (参考訳) 言語開発研究者は言語間の言語学習のプロセスを比較することに興味を持っている。 残念ながら、このような比較のための一貫した定量的な枠組みを構築するのは難しい。 しかし、AI(Artificial Intelligence)とML(Machine Learning)の最近の進歩は、この問題に対処できるASR(自動音声認識)とNLP(自然言語処理)の新しい方法を提供している。 Batchalign2 プログラム (Liu et al , 2023) を用いて, CHILDES データベースのデータの書き起こしとリンクを行い, UD (Universal Dependencies) フレームワークを用いて27言語に対して一貫した同値な形態素合成解析を行った。 これらの新たなリソースは、言語学習のより深いクロス言語学研究の可能性を開く。

Language development researchers are interested in comparing the process of language learning across languages. Unfortunately, it has been difficult to construct a consistent quantitative framework for such comparisons. However, recent advances in AI (Artificial Intelligence) and ML (Machine Learning) are providing new methods for ASR (automatic speech recognition) and NLP (natural language processing) that can be brought to bear on this problem. Using the Batchalign2 program (Liu et al., 2023), we have been transcribing and linking data for the CHILDES database and have applied the UD (Universal Dependencies) framework to provide a consistent and comparable morphosyntactic analysis for 27 languages. These new resources open possibilities for deeper crosslinguistic study of language learning.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# 2方向注意混合特徴ネットワークによる顔表情認識の強化:第7回ABAWチャレンジへの適用

Enhancing Facial Expression Recognition through Dual-Direction Attention Mixed Feature Networks: Application to 7th ABAW Challenge ( http://arxiv.org/abs/2407.12390v1 )

ライセンス: Link先を確認
Josep Cabacas-Maso, Elena Ortega-Beltrán, Ismael Benito-Altamirano, Carles Ventura, (参考訳) 我々は,ECCV 2024における第7回ABAWチャレンジへのコントリビューションとして,マルチタスク表情認識のためのDual-Direction Attention Mixed Feature Networkを活用することで,提案したMulti-Task ABAWチャレンジのベースラインを超えた結果を得る。 本提案では, DDAMFNアーキテクチャをベースとして, 原子価覚醒, 感情認識, 行動単位を効果的に予測する。 これらのタスクを同時に処理するアーキテクチャ能力を実証し、アーキテクチャと設計の背後にある理論的根拠について洞察を提供する。 さらに,マルチタスクソリューションと独立したシングルタスク性能の比較を行った。

We present our contribution to the 7th ABAW challenge at ECCV 2024, by utilizing a Dual-Direction Attention Mixed Feature Network for multitask facial expression recognition we achieve results far beyond the proposed baseline for the Multi-Task ABAW challenge. Our proposal uses the well-known DDAMFN architecture as base to effectively predict valence-arousal, emotion recognition, and action units. We demonstrate the architecture ability to handle these tasks simultaneously, providing insights into its architecture and the rationale behind its design. Additionally, we compare our results for a multitask solution with independent single-task performance.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# LLM推論:最近の進歩と機会

LLM Inference Serving: Survey of Recent Advances and Opportunities ( http://arxiv.org/abs/2407.12391v1 )

ライセンス: Link先を確認
Baolin Li, Yankai Jiang, Vijay Gadepally, Devesh Tiwari, (参考訳) 本調査では,2023年以降の研究を中心に,大規模言語モデル(LLM)サービスシステムの最近の進歩を概観する。 コアLLM復号機構を変更することなく性能と効率を向上させるシステムレベルの拡張について検討する。 我々は,高名なMLおよびシステム会場から高品質な論文を選択し,レビューすることによって,実運用環境におけるLCMの展開とスケーリングに関する重要なイノベーションと実践的考察を強調した。 この調査は、この急速に発展する分野における最新の発展を防ぎたいLLM実践者にとって、貴重なリソースとなる。

This survey offers a comprehensive overview of recent advancements in Large Language Model (LLM) serving systems, focusing on research since the year 2023. We specifically examine system-level enhancements that improve performance and efficiency without altering the core LLM decoding mechanisms. By selecting and reviewing high-quality papers from prestigious ML and system venues, we highlight key innovations and practical considerations for deploying and scaling LLMs in real-world production environments. This survey serves as a valuable resource for LLM practitioners seeking to stay abreast of the latest developments in this rapidly evolving field.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# PersLLM: 大規模言語モデルの個人化トレーニングアプローチ

PersLLM: A Personified Training Approach for Large Language Models ( http://arxiv.org/abs/2407.12393v1 )

ライセンス: Link先を確認
Zheni Zeng, Jiayi Chen, Huimin Chen, Yukun Yan, Yuxuan Chen, Zhiyuan Liu, Maosong Sun, (参考訳) 大規模言語モデルは、社会シミュレーション、人間と機械の相互作用、協調的なマルチエージェントシステムといった分野において、人間のようなエージェントとしての応用を触媒する人間レベルの知能の側面を示す。 しかし,不整合性,不整合性,一様応答パターンなどの個性が欠如しているため,実用面でのLCMの有用性は低下する。 これに対応するために、LSMにおける性格特性の発達は、潜伏する潜在能力を解き放つための重要な研究領域として現れている。 LLMをパーソナライズする既存の手法は、典型化されたトレーニングデータを用いて指導訓練を行ったり、異なる個人性をシミュレートするためにプロンプトエンジニアリングを使用したりといった戦略が一般的である。 これらの手法は、人格のコアではなく、表面言語的なスタイルを捉えているだけであり、したがって安定していない。 本研究では,社会実践,一貫性,動的発達といった心理学的根拠に基づく個性原則を包括的学習方法論に統合するPersLLMを提案する。 モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。 単一エージェント評価は,他の手法と比較して,基準的個性に適合した応答を生成できるので,本手法の優位性を評価する。 多エージェントコミュニケーションのケーススタディは、個々のエージェントにおける意見整合性を高め、対話コンテキストにおける複数のエージェント間の協調的創造性を促進することの利点を強調し、人間のシミュレーションやマルチエージェント協力の恩恵を受ける可能性がある。 さらに、人間とエージェントの相互作用評価は、我々の擬人化モデルが対話的体験を著しく向上させ、我々の研究の実践的意義を裏付けていることを示している。

Large language models exhibit aspects of human-level intelligence that catalyze their application as human-like agents in domains such as social simulations, human-machine interactions, and collaborative multi-agent systems. However, the absence of distinct personalities, such as displaying ingratiating behaviors, inconsistent opinions, and uniform response patterns, diminish LLMs utility in practical applications. Addressing this, the development of personality traits in LLMs emerges as a crucial area of research to unlock their latent potential. Existing methods to personify LLMs generally involve strategies like employing stylized training data for instruction tuning or using prompt engineering to simulate different personalities. These methods only capture superficial linguistic styles instead of the core of personalities and are therefore not stable. In this study, we propose PersLLM, integrating psychology-grounded principles of personality: social practice, consistency, and dynamic development, into a comprehensive training methodology. We incorporate personality traits directly into the model parameters, enhancing the model's resistance to induction, promoting consistency, and supporting the dynamic evolution of personality. Single-agent evaluation validates our method's superiority, as it produces responses more aligned with reference personalities compared to other approaches. Case studies for multi-agent communication highlight its benefits in enhancing opinion consistency within individual agents and fostering collaborative creativity among multiple agents in dialogue contexts, potentially benefiting human simulation and multi-agent cooperation. Additionally, human-agent interaction evaluations indicate that our personified models significantly enhance interactive experiences, underscoring the practical implications of our research.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# 効率的な奥行き誘導型都市景観合成

Efficient Depth-Guided Urban View Synthesis ( http://arxiv.org/abs/2407.12395v1 )

ライセンス: Link先を確認
Sheng Miao, Jiaxin Huang, Dongfeng Bai, Weichao Qiu, Bingbing Liu, Andreas Geiger, Yiyi Liao, (参考訳) 暗黙のシーン表現の最近の進歩は、高忠実なストリートビューの新規なビュー合成を可能にする。 しかし、既存の手法では、濃密なトレーニング画像と広範な計算資源に大きく依存して、各シーンのニューラルラディアンスフィールドを最適化している。 この欠点を軽減するために,高速フィードフォワード推論とシーンごとの微調整を行うEDUS(Efficient Depth-Guided Urban View Synthesis)を提案する。 特徴マッチングに基づいて幾何を推測する従来の一般化可能な手法とは異なり、EDUSはノイズ予測幾何先行をガイダンスとして活用し、スパース入力画像からの都市ビューの一般化を可能にする。 幾何学的先行法により、一般化可能なモデルを3次元空間に直接適用することができ、様々な空間レベルの堅牢性が得られる。 KITTI-360とWaymoのデータセットに関する総合的な実験を通じて、新しいストリートシーンにおける有望な一般化能力を実証した。 さらに,本研究の結果から,高速なテスト時間最適化と組み合わせることで,スパース・ビュー・セッティングにおける最先端性能が達成できることが示唆された。

Recent advances in implicit scene representation enable high-fidelity street view novel view synthesis. However, existing methods optimize a neural radiance field for each scene, relying heavily on dense training images and extensive computation resources. To mitigate this shortcoming, we introduce a new method called Efficient Depth-Guided Urban View Synthesis (EDUS) for fast feed-forward inference and efficient per-scene fine-tuning. Different from prior generalizable methods that infer geometry based on feature matching, EDUS leverages noisy predicted geometric priors as guidance to enable generalizable urban view synthesis from sparse input images. The geometric priors allow us to apply our generalizable model directly in the 3D space, gaining robustness across various sparsity levels. Through comprehensive experiments on the KITTI-360 and Waymo datasets, we demonstrate promising generalization abilities on novel street scenes. Moreover, our results indicate that EDUS achieves state-of-the-art performance in sparse view settings when combined with fast test-time optimization.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# プライベートおよびフェデレートされた確率凸最適化:集中システムのための効率的な戦略

Private and Federated Stochastic Convex Optimization: Efficient Strategies for Centralized Systems ( http://arxiv.org/abs/2407.12396v1 )

ライセンス: Link先を確認
Roie Reshef, Kfir Y. Levy, (参考訳) 本稿では,集中型システムにおけるフェデレート学習(FL)におけるプライバシ保護の課題について,信頼性と信頼できないサーバシナリオの両方に焦点をあてる。 我々は、確率凸最適化(SCO)フレームワークにおけるこの設定を分析し、同種および異種データ分布に対する最適収束率を維持しつつ、微分プライバシー(DP)を確保する方法を考案する。 提案手法は,最近の確率的最適化手法に基づいて,非プライベートFL法に匹敵する線形計算複雑性と,勾配難解化の低減を提供する。 この研究は、FLにおけるDPの実用性を高め、様々なサーバ信頼環境におけるプライバシー、効率、堅牢性のバランスをとる。

This paper addresses the challenge of preserving privacy in Federated Learning (FL) within centralized systems, focusing on both trusted and untrusted server scenarios. We analyze this setting within the Stochastic Convex Optimization (SCO) framework, and devise methods that ensure Differential Privacy (DP) while maintaining optimal convergence rates for homogeneous and heterogeneous data distributions. Our approach, based on a recent stochastic optimization technique, offers linear computational complexity, comparable to non-private FL methods, and reduced gradient obfuscation. This work enhances the practicality of DP in FL, balancing privacy, efficiency, and robustness in a variety of server trust environment.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# Mamba-PTQ: 逐次大規模言語モデルにおける外部チャネル

Mamba-PTQ: Outlier Channels in Recurrent Large Language Models ( http://arxiv.org/abs/2407.12397v1 )

ライセンス: Link先を確認
Alessandro Pierro, Steven Abreu, (参考訳) 最新のリカレントレイヤは、特に大規模言語モデル(LLM)のコンテキストにおいて、基礎モデルのエッジデプロイメントへの有望な道として現れています。 有限次元表現で入力シーケンス全体を圧縮することにより、各トークンに対する一定の推論コストと固定メモリ要求を維持しながら、繰り返しレイヤが長距離依存をモデル化することができる。 しかし、資源制限された環境でのLLMの実践的な展開は、量子化やプルーニングのようなさらなるモデル圧縮を必要とすることが多い。 これらの手法は注意に基づくモデルでは十分に確立されているが、繰り返し発生する層に対する影響は未解明のままである。 本稿では,再帰型LDMの学習後量子化に着目し,注意型LDMで観測される外れ値チャネルのパターンが,Mambaモデルと同じであることを示す。 本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。 本稿では,アクティベーションアウトレーヤを考慮しないMambaのトレーニング後量子化のベースライン結果について報告する。

Modern recurrent layers are emerging as a promising path toward edge deployment of foundation models, especially in the context of large language models (LLMs). Compressing the whole input sequence in a finite-dimensional representation enables recurrent layers to model long-range dependencies while maintaining a constant inference cost for each token and a fixed memory requirement. However, the practical deployment of LLMs in resource-limited environments often requires further model compression, such as quantization and pruning. While these techniques are well-established for attention-based models, their effects on recurrent layers remain underexplored. In this preliminary work, we focus on post-training quantization for recurrent LLMs and show that Mamba models exhibit the same pattern of outlier channels observed in attention-based LLMs. We show that the reason for the difficulty of quantizing SSMs is caused by activation outliers, similar to those observed in transformer-based LLMs. We report baseline results for post-training quantization of Mamba that do not take into account the activation outliers and suggest first steps for outlier-aware quantization.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# スカラデータトポロジ的単純化のための実践的解法

A Practical Solver for Scalar Data Topological Simplification ( http://arxiv.org/abs/2407.12399v1 )

ライセンス: Link先を確認
Mohamed Kissi, Mathieu Pont, Joshua A. Levine, Julien Tierny, (参考訳) 本稿では,スカラーデータの解析と可視化のための中心的な前処理ステップであるトポロジカルスプリフィケーションの最適化のための実践的アプローチを提案する。 入力スカラー場 f と維持する「信号」永続対の集合が与えられた場合、我々のアプローチは f に近い出力場 g を生成し、最適化する。 (i)非符号対のキャンセル (ii)「手形」ペアを保存すること。 既存の単純化アルゴリズムとは対照的に,本手法はエクストリームを含む永続性ペアに限らず,特に3次元スカラーデータにおけるサドルペアよりも大きなトポロジ的特徴に対処することができる。 提案手法は,最近の汎用的な永続性最適化フレームワークを活用し,トポロジカル単純化の問題に特有な調整された加速度で拡張する。 大規模な実験では、これらのフレームワークに対する大幅な加速を報告し、実際のデータセットに対してトポロジ的単純化最適化を実践する。 提案手法により, トポロジ的に単純化されたデータ(例えば, 簡易なトポロジの等曲面)を直接可視化し, 解析することができる。 我々は3次元データにおける顕著なフィラメント構造の抽出に本手法を適用した。 具体的には、データの事前単純化により、フィラメントループを除去するための標準トポロジカル手法よりも実用的な改善がもたらされることを示す。 また,本手法は表面処理における遺伝子欠陥の修復にも有効であることを示す。 最後に、再現性のためのC++実装を提供する。

This paper presents a practical approach for the optimization of topological simplification, a central pre-processing step for the analysis and visualization of scalar data. Given an input scalar field f and a set of "signal" persistence pairs to maintain, our approach produces an output field g that is close to f and which optimizes (i) the cancellation of "non-signal" pairs, while (ii) preserving the "signal" pairs. In contrast to pre-existing simplification algorithms, our approach is not restricted to persistence pairs involving extrema and can thus address a larger class of topological features, in particular saddle pairs in three-dimensional scalar data. Our approach leverages recent generic persistence optimization frameworks and extends them with tailored accelerations specific to the problem of topological simplification. Extensive experiments report substantial accelerations over these frameworks, thereby making topological simplification optimization practical for real-life datasets. Our approach enables a direct visualization and analysis of the topologically simplified data, e.g., via isosurfaces of simplified topology (fewer components and handles). We apply our approach to the extraction of prominent filament structures in three-dimensional data. Specifically, we show that our pre-simplification of the data leads to practical improvements over standard topological techniques for removing filament loops. We also show how our approach can be used to repair genus defects in surface processing. Finally, we provide a C++ implementation for reproducibility purposes.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# Geometric Remove-and-Retrain (GOAR):Coordinate-Invariant eXplainable AI Assessment

Geometric Remove-and-Retrain (GOAR): Coordinate-Invariant eXplainable AI Assessment ( http://arxiv.org/abs/2407.12401v1 )

ライセンス: Link先を確認
Yong-Hyun Park, Junghoon Seo, Bomseok Park, Seongsu Lee, Junghyo Jo, (参考訳) 説明可能な人工知能(XAI)の開発には,出力結果に重要な影響を与える関連する入力特徴の同定が不可欠である。 Remove-and-Retrain(ROAR)は、修正データセットの削除と再トレーニング後の精度の変化を測定することによって、個々のピクセルの重要性を評価するために広く受け入れられているアプローチである。 しかし,画素摂動戦略の顕著な限界が明らかになった。 幾何学的観点から見れば、これらの指標が特徴属性法の違いを識別できないことが分かり、評価の信頼性を損なう。 この課題に対処するために、Geometric Remove-and-Retrain (GOAR) という別の機能摂動アプローチを導入する。 合成データと実データの両方を用いて一連の実験を行い、GOARが画素中心のメトリクスの限界を超越していることを確認した。

Identifying the relevant input features that have a critical influence on the output results is indispensable for the development of explainable artificial intelligence (XAI). Remove-and-Retrain (ROAR) is a widely accepted approach for assessing the importance of individual pixels by measuring changes in accuracy following their removal and subsequent retraining of the modified dataset. However, we uncover notable limitations in pixel-perturbation strategies. When viewed from a geometric perspective, we discover that these metrics fail to discriminate between differences among feature attribution methods, thereby compromising the reliability of the evaluation. To address this challenge, we introduce an alternative feature-perturbation approach named Geometric Remove-and-Retrain (GOAR). Through a series of experiments with both synthetic and real datasets, we substantiate that GOAR transcends the limitations of pixel-centric metrics.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# トルコ語MMLU:トルコ語における大規模マルチタスク言語理解の測定

TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish ( http://arxiv.org/abs/2407.12402v1 )

ライセンス: Link先を確認
Arda Yüksel, Abdullatif Köksal, Lütfi Kerem Şenel, Anna Korhonen, Hinrich Schütze, (参考訳) 複数の選択質問応答タスクは、Large Language Models (LLMs) の推論、理解、数学的能力を評価する。 既存のベンチマークでは、多言語評価のための自動翻訳が採用されているが、このアプローチはエラーを起こしやすく、特に社会科学において文化的に偏りが生じる可能性がある。 トルコ語に対するLLMの理解を評価するために,最初のマルチタスク,マルチチョイスのトルコ語QAベンチマーク,トルコ語MMLUを導入する。 トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。 これらの質問は、トルコの高校のカリキュラムに適したカリキュラムの専門家によって書かれており、自然科学や数学の問題からトルコ文学やトルコ共和国の歴史など、より文化的に代表されるトピックまで幅広いテーマをカバーしている。 我々は,多言語オープンソース(Gemma,Llama,MT5),クローズドソース(GPT 4o,Claude,Gemini),トルコ適応モデル(eg,Trendyol)を含む20以上のLLMを評価した。 本稿では,LLMのゼロショットおよび少数ショット評価,チェーン・オブ・シント推論,問題難易度解析,モデル性能など,幅広い評価を行う。 トルコ語における将来のLLMに関する洞察を提供するため、トルコ語能力と現在のLLMの限界を詳細に分析する。 データセットと評価のためのコードを公開しています。

Multiple choice question answering tasks evaluate the reasoning, comprehension, and mathematical abilities of Large Language Models (LLMs). While existing benchmarks employ automatic translation for multilingual evaluation, this approach is error-prone and potentially introduces culturally biased questions, especially in social sciences. We introduce the first multitask, multiple-choice Turkish QA benchmark, TurkishMMLU, to evaluate LLMs' understanding of the Turkish language. TurkishMMLU includes over 10,000 questions, covering 9 different subjects from Turkish high-school education curricula. These questions are written by curriculum experts, suitable for the high-school curricula in Turkey, covering subjects ranging from natural sciences and math questions to more culturally representative topics such as Turkish Literature and the history of the Turkish Republic. We evaluate over 20 LLMs, including multilingual open-source (e.g., Gemma, Llama, MT5), closed-source (GPT 4o, Claude, Gemini), and Turkish-adapted (e.g., Trendyol) models. We provide an extensive evaluation, including zero-shot and few-shot evaluation of LLMs, chain-of-thought reasoning, and question difficulty analysis along with model performance. We provide an in-depth analysis of the Turkish capabilities and limitations of current LLMs to provide insights for future LLMs for the Turkish language. We publicly release our code for the dataset and evaluation: https://github.com/ArdaYueksel/TurkishMMLU.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# 古典的量子チャネルの信頼性関数

Reliability Function of Classical-Quantum Channels ( http://arxiv.org/abs/2407.12403v1 )

ライセンス: Link先を確認
Ke Li, Dong Yang, (参考訳) 信頼度関数(Reliability function)は、通信速度がチャネルのキャパシティ以下である場合の復号誤り確率の指数的減衰を記述する最適誤差指数として定義され、情報理論における基本的な問題の一つである。 本研究では,一般的なcqチャネルの信頼性関数を決定する。 主な寄与は誤差指数に対する下界であり、これはペッツ形式におけるレナイ発散によって特徴づけられる。 その結果,Dalai (IEEE Transactions on Information Theory 46, 2256 (2000)) の上限値が低い場合の上限値と一致していることが判明した。 したがって、信頼性関数は、これらの2つの境界を適切な通信速度の範囲で組み合わせることで得られる。 ローバウンドを導出するアプローチは、タイプに関するトリックとRenes(arXiv: 2207.08899)による観察を利用して、チャネルコードは、サイド情報に対する均一な分布のためのデータ圧縮スキームから構築できる。

Reliability function, defined as the optimal error exponent describing the exponential decay of decoding error probability when the communicating rate is below the capacity of the channel, is one of the fundamental problems in information theory. In this work, we determine the reliability function for a general cq channel. The main contribution is a lower bound for the error exponent which is characterised by the Renyi divergence in Petz's form. It turns out that the lower bound matches the upper bound given by Dalai (IEEE Transactions on Information Theory 46, 2256 (2000)) when the rate is not very low. Thus the reliability function is obtained by combining these two bounds in a proper range of communicating rate. The approach to derive the lower bound makes use of tricks on types and an observation by Renes (arXiv: 2207.08899) that channel code can be constructed from data compression scheme for uniform distribution relative to side information, whose solution to the error exponent problem is in turn determined by its dual problem -- privacy amplification, for which the exact error exponent is known.
翻訳日:2024-07-18 17:57:42 公開日:2024-07-17
# ステアリングベクトルの一般化と信頼性の解析 -- ICML 2024

Analyzing the Generalization and Reliability of Steering Vectors -- ICML 2024 ( http://arxiv.org/abs/2407.12404v1 )

ライセンス: Link先を確認
Daniel Tan, David Chanin, Aengus Lynch, Dimitrios Kanoulas, Brooks Paige, Adria Garriga-Alonso, Robert Kirk, (参考訳) ステアリングベクトル(SV)は、中間モデルアクティベーションに介入することで、推論時に言語モデルの振る舞いを効率的に調整する新しい手法である。 彼らは、能力とモデルの整合性の両方を改善するという点で、約束を示している。 しかし、このアプローチの信頼性と一般化性は不明である。 本研究では、これらの特性を厳密に研究し、ステアリングベクトルが分布内および分布外の両方に有意な制限を持つことを示す。 分散において、ステアビリティは異なる入力間で高度に変動する。 この概念によっては、スプリアスバイアスが各入力に対していかに効果的なステアリングであるかに大きく寄与し、ステアリングベクトルを広く利用する上での課題が提示される。 アウト・オブ・ディストリビューション (Out-of-distribution) では、ベクトルの操舵はよく一般化されるが、いくつかの概念ではプロンプトの合理的な変化に弱いため、うまく一般化できない。 全体としては, ステアリングは適切な状況下ではうまく機能するが, モデル動作を大規模にガイドするためにステアリングベクトルを適用することは, 技術的に困難な点が多いことが示唆された。

Steering vectors (SVs) are a new approach to efficiently adjust language model behaviour at inference time by intervening on intermediate model activations. They have shown promise in terms of improving both capabilities and model alignment. However, the reliability and generalisation properties of this approach are unknown. In this work, we rigorously investigate these properties, and show that steering vectors have substantial limitations both in- and out-of-distribution. In-distribution, steerability is highly variable across different inputs. Depending on the concept, spurious biases can substantially contribute to how effective steering is for each input, presenting a challenge for the widespread use of steering vectors. Out-of-distribution, while steering vectors often generalise well, for several concepts they are brittle to reasonable changes in the prompt, resulting in them failing to generalise well. Overall, our findings show that while steering can work well in the right circumstances, there remain many technical difficulties of applying steering vectors to guide models' behaviour at scale.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# Fisheye-Calib-Adapter: 魚眼カメラモデルの変換を容易にするツール

Fisheye-Calib-Adapter: An Easy Tool for Fisheye Camera Model Conversion ( http://arxiv.org/abs/2407.12405v1 )

ライセンス: Link先を確認
Sangjun Lee, (参考訳) ロボット工学や自律運転などの分野における魚眼カメラの必要性が高まり、様々な魚眼カメラモデルが提案されている。 カメラモデルの進化は、フィールドにおける多様なシステムの開発を促進する一方で、異なる魚眼カメラモデル間の適応の欠如は、常に再校正が必要であることを意味している。 本稿では,従来提案されていた魚眼カメラモデルに対する変換ツールを提案する。 ユーザーフレンドリで、シンプルで、非常に速く、正確で、既存のツールと比較して幅広いモデルの変換機能を提供する。 SLAMなどのアプリケーションでは,本システムを用いて変換したモデルが正しく動作することが確認された。 本システムを利用すると,画像セットや再分類処理を必要とせずに,入力パラメータから直接出力パラメータを取得でき,様々な研究分野における魚眼カメラモデルのブリッジとして機能する。 https://github.com/eowjd0512/fisheye-calib-adapter

The increasing necessity for fisheye cameras in fields such as robotics and autonomous driving has led to the proposal of various fisheye camera models. While the evolution of camera models has facilitated the development of diverse systems in the field, the lack of adaptation between different fisheye camera models means that recalibration is always necessary, which is cumbersome. This paper introduces a conversion tool for various previously proposed fisheye camera models. It is user-friendly, simple, yet extremely fast and accurate, offering conversion capabilities for a broader range of models compared to existing tools. We have verified that models converted using our system perform correctly in applications such as SLAM. By utilizing our system, researchers can obtain output parameters directly from input parameters without the need for an image set and any recalibration processes, thus serving as a bridge across different fisheye camera models in various research fields. We provide our system as an open source tool available at: https://github.com/eowjd0512/fisheye-calib-adapter
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# マルチマップSLAMにおけるサブマップへの視覚的位置認識の再検討

Towards Revisiting Visual Place Recognition for Joining Submaps in Multimap SLAM ( http://arxiv.org/abs/2407.12408v1 )

ライセンス: Link先を確認
Markus Weißflog, Stefan Schubert, Peter Protzel, Peer Neubert, (参考訳) 視覚SLAMは多くの自律システムにとって重要な技術である。 しかし、追跡損失は、ORB-SLAM3のようなマルチマップSLAMシステムにおける不整合部分マップの作成につながる可能性がある。 そのため、これらのシステムはサブマップマージ戦略を採用している。 示すように、これらの戦略は必ずしも成功していない。 本稿では,視覚SLAMにおけるサブマップマージにおける,最新のVPR手法の適用効果について検討する。 古典的評価指標は,現代のVPRコンポーネントがシステム全体に与える影響を推定するには不十分である。 本研究は,VPRコンポーネントを鼻で置き換えることによって,元のシステムに実質的な干渉を伴わずに,その潜在能力を最大限に活用することができないことを示す。 そのため、現在のVPRコンポーネントの影響を見積もることのできるメトリクスセットとともに、後処理パイプラインを提示します。 我々は,OCB-SLAM3とNetVLAD,HDC-DELFをVPR成分とするNCLTとNewer Collegeのデータセットに対するアプローチを評価した。 さらに,VPRと時間的整合性を組み合わせたマップマージ手法を提案する。 我々はORB-SLAM3のマップマージ性能を改善した。 これらの結果に基づいて、VPRの研究者はSLAMシステムに対するアプローチの可能性を評価することができる。

Visual SLAM is a key technology for many autonomous systems. However, tracking loss can lead to the creation of disjoint submaps in multimap SLAM systems like ORB-SLAM3. Because of that, these systems employ submap merging strategies. As we show, these strategies are not always successful. In this paper, we investigate the impact of using modern VPR approaches for submap merging in visual SLAM. We argue that classical evaluation metrics are not sufficient to estimate the impact of a modern VPR component on the overall system. We show that naively replacing the VPR component does not leverage its full potential without requiring substantial interference in the original system. Because of that, we present a post-processing pipeline along with a set of metrics that allow us to estimate the impact of modern VPR components. We evaluate our approach on the NCLT and Newer College datasets using ORB-SLAM3 with NetVLAD and HDC-DELF as VPR components. Additionally, we present a simple approach for combining VPR with temporal consistency for map merging. We show that the map merging performance of ORB-SLAM3 can be improved. Building on these results, researchers in VPR can assess the potential of their approaches for SLAM systems.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# 確率に基づく自己フェデレーション学習

Proximity-based Self-Federated Learning ( http://arxiv.org/abs/2407.12410v1 )

ライセンス: Link先を確認
Davide Domini, Gianluca Aguzzi, Nicolas Farabegoli, Mirko Viroli, Lukas Esterle, (参考訳) 機械学習の最近の進歩の中で、フェデレートされた学習により、分散クライアントのネットワークは、ローカルデータを共有することなく、協力してグローバルモデルを開発することができる。 この技術は、従来の集中型学習手法の脆弱性に対抗して、プライバシを保護することを目的としている。 従来のフェデレートされた学習アプローチは、クライアント間でモデルのトレーニングを調整するために中央サーバーに依存しており、すべてのノードで同じモデルを均一に複製することを目的としている。 しかし、これらの手法は、広域ネットワークにおける地理的および局所的なデータ分散の重要性を軽視し、モデルの有効性と適用性に影響を与える可能性がある。 さらに、エッジコンピューティングによって推進されるような大規模ネットワークでは、中央サーバに依存することがボトルネックになる可能性がある。 本稿では, 近接型自己フェデレーション学習という, 完全分散型フェデレーション学習手法を提案する。これにより, 生データを交換することなく, 近距離およびデータ分布に基づいて, クライアントの複数のフェデレーションを自己組織的に作成することができる。 実際、従来のアルゴリズムとは異なり、我々のアプローチはクライアントに、地理的近接度とモデル精度に基づいて、近隣ノードでモデルを共有し、調整することを奨励します。 この方法は、多様なデータ分布によって生じる制限に対処するだけでなく、各フェデレーションに特化されたモデルを作成する異なる地域特性へのモデルの適応性を高める。 提案手法の有効性を,よく知られたデータセット上でのシミュレーションにより実証し,従来の集中型フェデレーション学習フレームワーク上での有効性を示す。

In recent advancements in machine learning, federated learning allows a network of distributed clients to collaboratively develop a global model without needing to share their local data. This technique aims to safeguard privacy, countering the vulnerabilities of conventional centralized learning methods. Traditional federated learning approaches often rely on a central server to coordinate model training across clients, aiming to replicate the same model uniformly across all nodes. However, these methods overlook the significance of geographical and local data variances in vast networks, potentially affecting model effectiveness and applicability. Moreover, relying on a central server might become a bottleneck in large networks, such as the ones promoted by edge computing. Our paper introduces a novel, fully-distributed federated learning strategy called proximity-based self-federated learning that enables the self-organised creation of multiple federations of clients based on their geographic proximity and data distribution without exchanging raw data. Indeed, unlike traditional algorithms, our approach encourages clients to share and adjust their models with neighbouring nodes based on geographic proximity and model accuracy. This method not only addresses the limitations posed by diverse data distributions but also enhances the model's adaptability to different regional characteristics creating specialized models for each federation. We demonstrate the efficacy of our approach through simulations on well-known datasets, showcasing its effectiveness over the conventional centralized federated learning framework.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# すべての周波数が等しくなるわけではない:時系列予測における周波数の動的融合に向けて

Not All Frequencies Are Created Equal:Towards a Dynamic Fusion of Frequencies in Time-Series Forecasting ( http://arxiv.org/abs/2407.12415v1 )

ライセンス: Link先を確認
Xingyu Zhang, Siyu Zhao, Zeen Song, Huijie Guo, Jianqi Zhang, Changwen Zheng, Wenwen Qiang, (参考訳) 長期の時系列予測は、様々なアプリケーションにおいて長年の課題である。 時系列予測における中心的な問題は、メソッドが長期依存を表現的にキャプチャする必要があることである。 さらに、異なるシナリオに適用する場合、時系列予測手法は柔軟であるべきである。 フーリエ分析は、異なるシナリオで長期予測を達成するために、再利用可能なパターンと周期的なパターンを効果的にキャプチャする代替手段を提供するが、既存の手法では、高周波成分がノイズを表現し、時系列予測で破棄されるべきであると仮定することが多い。 しかし、一連のモチベーション実験を行い、特定の周波数の役割がシナリオによって異なることを発見した。 いくつかのシナリオでは、元の時系列から高周波成分を取り除くことで予測性能が向上する一方、他のシナリオでは、それらを取り除くことは予測性能にとって有害である。 したがって、特定のシナリオに応じて周波数を別々に扱う必要がある。 そこで本研究では,まず時系列予測問題をフーリエ領域の各周波数の転送関数の学習として再検討する。 さらに、各フーリエ成分を個別に予測し、異なる周波数の出力を動的に融合する周波数動的融合(FreDF)を設計する。 さらに,時系列予測の一般化能力に関する新たな知見を提供し,時系列予測の一般化境界を提案する。 すると、FreDFのバウンドが低いことを証明し、FreDFがより優れた一般化能力を持つことを示す。 複数のベンチマークデータセットとアブレーション研究で実施された大規模な実験は、FreDFの有効性を実証している。

Long-term time series forecasting is a long-standing challenge in various applications. A central issue in time series forecasting is that methods should expressively capture long-term dependency. Furthermore, time series forecasting methods should be flexible when applied to different scenarios. Although Fourier analysis offers an alternative to effectively capture reusable and periodic patterns to achieve long-term forecasting in different scenarios, existing methods often assume high-frequency components represent noise and should be discarded in time series forecasting. However, we conduct a series of motivation experiments and discover that the role of certain frequencies varies depending on the scenarios. In some scenarios, removing high-frequency components from the original time series can improve the forecasting performance, while in others scenarios, removing them is harmful to forecasting performance. Therefore, it is necessary to treat the frequencies differently according to specific scenarios. To achieve this, we first reformulate the time series forecasting problem as learning a transfer function of each frequency in the Fourier domain. Further, we design Frequency Dynamic Fusion (FreDF), which individually predicts each Fourier component, and dynamically fuses the output of different frequencies. Moreover, we provide a novel insight into the generalization ability of time series forecasting and propose the generalization bound of time series forecasting. Then we prove FreDF has a lower bound, indicating that FreDF has better generalization ability. Extensive experiments conducted on multiple benchmark datasets and ablation studies demonstrate the effectiveness of FreDF.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# 損失正規化と一般化ベータ分布による極クラス分類の改善

Improving the classification of extreme classes by means of loss regularisation and generalised beta distributions ( http://arxiv.org/abs/2407.12417v1 )

ライセンス: Link先を確認
Víctor Manuel Vargas, Pedro Antonio Gutiérrez, Javier Barbero-Gómez, César Hervás-Martínez, (参考訳) 順序分類問題 (ordinal classification problem) とは、対象変数が順序尺度で値を取る問題である。 今日では、順序構造の極端なクラスを正確に分類することが不可欠である実世界のタスクに関連する多くの問題が存在する。 本研究では、損失関数に適用可能な一元正則化手法を提案し、残りの性能を維持しつつ、第一クラスと最後のクラスの分類性能を向上させる。 提案手法は, クラス数が異なる6つのデータセットで検証し, 文献における他の一助正則化手法と比較した。 さらに、極度のクラスのパフォーマンスは、その感度を考慮に入れた新しいメトリクスを使って比較される。 実験結果と統計的解析により,提案手法は異なる指標を考慮し,優れた平均性能が得られることが示された。 提案手法により, 一般化されたベータ分布は, 極端なクラスにおける分類性能を向上することが示された。 同時に、考慮された他の5つの名目的および順序的な指標は、全体的なパフォーマンスが以前の選択肢のパフォーマンスと一致していることを示している。

An ordinal classification problem is one in which the target variable takes values on an ordinal scale. Nowadays, there are many of these problems associated with real-world tasks where it is crucial to accurately classify the extreme classes of the ordinal structure. In this work, we propose a unimodal regularisation approach that can be applied to any loss function to improve the classification performance of the first and last classes while maintaining good performance for the remainder. The proposed methodology is tested on six datasets with different numbers of classes, and compared with other unimodal regularisation methods in the literature. In addition, performance in the extreme classes is compared using a new metric that takes into account their sensitivities. Experimental results and statistical analysis show that the proposed methodology obtains a superior average performance considering different metrics. The results for the proposed metric show that the generalised beta distribution generally improves classification performance in the extreme classes. At the same time, the other five nominal and ordinal metrics considered show that the overall performance is aligned with the performance of previous alternatives.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# Dirac-Bianconi Graph Neural Networks -- 非拡散長線グラフ予測の実現

Dirac--Bianconi Graph Neural Networks -- Enabling Non-Diffusive Long-Range Graph Predictions ( http://arxiv.org/abs/2407.12419v1 )

ライセンス: Link先を確認
Christian Nauck, Rohan Gorantla, Michael Lindner, Konstantin Schürholt, Antonia S. J. S. Mey, Frank Hellmann, (参考訳) グラフの幾何学はグラフ上の動的過程に符号化される。 多くのグラフニューラルネットワーク(GNN)アーキテクチャは、典型的にはグラフラプラシアンに基づくこのような動的システムにインスパイアされている。 本稿では,最近ビアンコーニが提唱したトポロジカルディラック方程式に基づいて,ディラック-ビアンコーニGNN(DBGNN)を紹介する。 グラフラプラシアンに基づいて、DBGNNが従来のメッセージパッシングニューラルネットワーク(MPNN)と根本的に異なる方法でグラフの幾何学を探索することを示した。 通常のMPNNは熱方程式と同様に拡散的に伝播するが、DBGNNはコヒーレントな長距離伝播を可能にする。 実験の結果,従来のMPNNよりもDBGNNの方が優れた性能を示し,電力グリッド安定性とペプチド特性の長期予測を行った。 本研究は,DBGNNが複雑なグラフダイナミクスを捕捉する上での有効性を強調し,GNNアーキテクチャの顕著な進歩を提供する。

The geometry of a graph is encoded in dynamical processes on the graph. Many graph neural network (GNN) architectures are inspired by such dynamical systems, typically based on the graph Laplacian. Here, we introduce Dirac--Bianconi GNNs (DBGNNs), which are based on the topological Dirac equation recently proposed by Bianconi. Based on the graph Laplacian, we demonstrate that DBGNNs explore the geometry of the graph in a fundamentally different way than conventional message passing neural networks (MPNNs). While regular MPNNs propagate features diffusively, analogous to the heat equation, DBGNNs allow for coherent long-range propagation. Experimental results showcase the superior performance of DBGNNs over existing conventional MPNNs for long-range predictions of power grid stability and peptide properties. This study highlights the effectiveness of DBGNNs in capturing intricate graph dynamics, providing notable advancements in GNN architectures.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# SafePowerGraph:送信電力グリッドのためのグラフニューラルネットワークの安全性を考慮した評価

SafePowerGraph: Safety-aware Evaluation of Graph Neural Networks for Transmission Power Grids ( http://arxiv.org/abs/2407.12421v1 )

ライセンス: Link先を確認
Salah Ghamizi, Aleksandar Bojchevski, Aoxiang Ma, Jun Cao, (参考訳) 電力グリッドは現代社会にとって最も重要な重要なインフラであり、その急速な進化と相互接続により、電力系統(PS)の運用の複雑さが増している。 グリッド分析の従来の手法は、大規模なRESとESの統合の計算要求に苦慮しており、機械学習(ML)技術、特にグラフニューラルネットワーク(GNN)の採用を促している。 GNNは、運用計画に不可欠な交流電力流(AC)と最適電力流(OPF)の問題を解決するのに有効であることが証明されている。 しかし、既存のベンチマークとデータセットは、その評価における安全性と堅牢性要件を完全に無視し、電力グリッドの運用に最も影響を及ぼす現実的な安全クリティカルシナリオを決して考慮しない。 SafePowerGraphは,PS操作におけるGNNのシミュレータに依存しない,安全指向のフレームワークおよびベンチマークである。 SafePowerGraphは複数のPFシミュレータとOPFシミュレータを統合し、エネルギー価格の変動や電力線停止など、さまざまなシナリオでGNNのパフォーマンスを評価する。 我々の広範な実験は、GNNの堅牢性に対する自己教師付き学習とグラフ注意アーキテクチャの重要性を浮き彫りにした。 私たちはhttps://github.com/yamizi/SafePowerGraphでオープンソースリポジトリ、包括的なリーダボード、データセット、モデル動物園を提供しています。

Power grids are critical infrastructures of paramount importance to modern society and their rapid evolution and interconnections has heightened the complexity of power systems (PS) operations. Traditional methods for grid analysis struggle with the computational demands of large-scale RES and ES integration, prompting the adoption of machine learning (ML) techniques, particularly Graph Neural Networks (GNNs). GNNs have proven effective in solving the alternating current (AC) Power Flow (PF) and Optimal Power Flow (OPF) problems, crucial for operational planning. However, existing benchmarks and datasets completely ignore safety and robustness requirements in their evaluation and never consider realistic safety-critical scenarios that most impact the operations of the power grids. We present SafePowerGraph, the first simulator-agnostic, safety-oriented framework and benchmark for GNNs in PS operations. SafePowerGraph integrates multiple PF and OPF simulators and assesses GNN performance under diverse scenarios, including energy price variations and power line outages. Our extensive experiments underscore the importance of self-supervised learning and graph attention architectures for GNN robustness. We provide at https://github.com/yamizi/SafePowerGraph our open-source repository, a comprehensive leaderboard, a dataset and model zoo and expect our framework to standardize and advance research in the critical field of GNN for power systems.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# StuGPTViz:学生とチャットGPTのインタラクションを理解するためのビジュアル分析手法

StuGPTViz: A Visual Analytics Approach to Understand Student-ChatGPT Interactions ( http://arxiv.org/abs/2407.12423v1 )

ライセンス: Link先を確認
Zixin Chen, Jiachen Wang, Meng Xia, Kento Shigyo, Dingdong Liu, Rong Zhang, Huamin Qu, (参考訳) 大規模言語モデル(LLM)、特にChatGPTの教育への統合は、革新的な会話学習手法を導入することによって、学生の学習経験に革命をもたらす可能性がある。 生徒がChatGPTの能力を完全に活用するためには、教師にとってChatGPTとの相互作用パターンの理解が不可欠である。 しかし、この取り組みは、学生とチャットGPTの会話に焦点を絞ったデータセットが存在しないことと、会話内の進化的相互作用パターンを特定し分析する複雑さのため、困難である。 これらの課題に対処するため、1学期以上の修士レベルのデータ可視化コースにおいて、ChatGPTと対話する48人の学生の会話データを収集した。 次に,学習者の相互作用パターンをChatGPTに分類するために,認知レベルとテーマ分析の文献に基づくコーディング手法を開発した。 さらに、学生のプロンプトの時間的パターンとChatGPTの応答の質を複数の尺度で追跡・比較する視覚分析システムStuGPTVizを提案する。 我々は,6人のデータ可視化インストラクターと3人のケーススタディとのエキスパートインタビューを通じて,システムの有効性を検証した。 その結果、StuGPTVizがChatGPTの教育的価値に対する教育者の洞察を高める能力があることが確認された。 また、視覚分析を教育に適用し、AIによるパーソナライズされた学習ソリューションを開発する研究機会の可能性についても論じる。

The integration of Large Language Models (LLMs), especially ChatGPT, into education is poised to revolutionize students' learning experiences by introducing innovative conversational learning methodologies. To empower students to fully leverage the capabilities of ChatGPT in educational scenarios, understanding students' interaction patterns with ChatGPT is crucial for instructors. However, this endeavor is challenging due to the absence of datasets focused on student-ChatGPT conversations and the complexities in identifying and analyzing the evolutional interaction patterns within conversations. To address these challenges, we collected conversational data from 48 students interacting with ChatGPT in a master's level data visualization course over one semester. We then developed a coding scheme, grounded in the literature on cognitive levels and thematic analysis, to categorize students' interaction patterns with ChatGPT. Furthermore, we present a visual analytics system, StuGPTViz, that tracks and compares temporal patterns in student prompts and the quality of ChatGPT's responses at multiple scales, revealing significant pedagogical insights for instructors. We validated the system's effectiveness through expert interviews with six data visualization instructors and three case studies. The results confirmed StuGPTViz's capacity to enhance educators' insights into the pedagogical value of ChatGPT. We also discussed the potential research opportunities of applying visual analytics in education and developing AI-driven personalized learning solutions.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# 騒々しい群衆をナビゲートする - クレーム検証のための重要な情報を見つける

Navigating the Noisy Crowd: Finding Key Information for Claim Verification ( http://arxiv.org/abs/2407.12425v1 )

ライセンス: Link先を確認
Haisong Gong, Huanhuan Ma, Qiang Liu, Shu Wu, Liang Wang, (参考訳) クレーム検証は、複数の証拠片に基づいて与えられたクレームの真偽を評価することを含むタスクである。 大きな言語モデル(LLM)をクレーム検証に使用することは、有望な方法である。 しかし、すべての証拠片をLSMに供給し、その主張が事実かどうかを問うだけでは良い結果が得られない。 証拠の通過は典型的に無関係な情報を含み、主要な事実は文脈内に隠され、クレームはしばしば複数の側面を同時に伝達する。 この「騒々しい群集」をナビゲートするために,証拠の中から重要な情報を見つけ出し,請求項の各側面を個別に検証するフレームワークEACon(Evidence Abstraction and Claim Deconstruction)を提案する。 EAConはまずクレームからキーワードを見つけ出し、ファジィマッチングを使用して、生のエビデンスごとに関連するキーワードを選択する。 これらのキーワードは、重要な情報を抽出し、抽象的な証拠にまとめるガイドとして機能する。 その後、EAConは元の主張をサブステートに分解し、個別に抽象化された証拠と生の証拠の両方に対して検証される。 2つの挑戦的データセット上で2つのオープンソースLCMを用いてEAConを評価する。 その結果, EACon は請求項検証における LLM の性能を一貫して, 実質的に向上することを示した。

Claim verification is a task that involves assessing the truthfulness of a given claim based on multiple evidence pieces. Using large language models (LLMs) for claim verification is a promising way. However, simply feeding all the evidence pieces to an LLM and asking if the claim is factual does not yield good results. The challenge lies in the noisy nature of both the evidence and the claim: evidence passages typically contain irrelevant information, with the key facts hidden within the context, while claims often convey multiple aspects simultaneously. To navigate this "noisy crowd" of information, we propose EACon (Evidence Abstraction and Claim Deconstruction), a framework designed to find key information within evidence and verify each aspect of a claim separately. EACon first finds keywords from the claim and employs fuzzy matching to select relevant keywords for each raw evidence piece. These keywords serve as a guide to extract and summarize critical information into abstracted evidence. Subsequently, EACon deconstructs the original claim into subclaims, which are then verified against both abstracted and raw evidence individually. We evaluate EACon using two open-source LLMs on two challenging datasets. Results demonstrate that EACon consistently and substantially improve LLMs' performance in claim verification.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# SemEval-2024 Task 1: Transformer as a Regression Model for Fine-Grained Scoring of Textual Semantic Relations (英語)

Sharif-STR at SemEval-2024 Task 1: Transformer as a Regression Model for Fine-Grained Scoring of Textual Semantic Relations ( http://arxiv.org/abs/2407.12426v1 )

ライセンス: Link先を確認
Seyedeh Fatemeh Ebrahimi, Karim Akhavan Azari, Amirmasoud Iravani, Hadi Alizadeh, Zeinab Sadat Taghavi, Hossein Sameti, (参考訳) Semantic Textual Relatednessは自然言語処理において重要な関連性を持ち、さまざまな領域にまたがる応用を見つける。 伝統的にSTRへのアプローチは知識ベースおよび統計手法に依存してきた。 しかし、大規模言語モデルの出現に伴い、新しい方法論を取り入れたパラダイムシフトが生まれている。 本稿では,RoBERTa変換器の微調整技術を活用し,トラックA内の文レベルSTR(Supervised)について検討する。 本研究は,様々な言語にまたがって,このアプローチの有効性を評価することに焦点を当てた。 特に,中南米語ではSTRの性能向上が期待できる。 具体的には、英語の顕著な改善が示され、相関は0.82で、賞賛できる19番目のランクが確保された。 同様に、スペイン語では0.67の相関を達成し、第15位を確保しました。 しかし、我々のアプローチはアラビア語のような言語で困難に遭遇し、わずか0.38の相関しか見られず、結果として20位になった。

Semantic Textual Relatedness holds significant relevance in Natural Language Processing, finding applications across various domains. Traditionally, approaches to STR have relied on knowledge-based and statistical methods. However, with the emergence of Large Language Models, there has been a paradigm shift, ushering in new methodologies. In this paper, we delve into the investigation of sentence-level STR within Track A (Supervised) by leveraging fine-tuning techniques on the RoBERTa transformer. Our study focuses on assessing the efficacy of this approach across different languages. Notably, our findings indicate promising advancements in STR performance, particularly in Latin languages. Specifically, our results demonstrate notable improvements in English, achieving a correlation of 0.82 and securing a commendable 19th rank. Similarly, in Spanish, we achieved a correlation of 0.67, securing the 15th position. However, our approach encounters challenges in languages like Arabic, where we observed a correlation of only 0.38, resulting in a 20th rank.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# GeneralAD: 歪んだ特徴を考慮したドメイン間の異常検出

GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features ( http://arxiv.org/abs/2407.12427v1 )

ライセンス: Link先を確認
Luc P. J. Sträter, Mohammadreza Salehi, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano, (参考訳) 異常検出の領域では、メソッドは高レベルのセマンティックまたは低レベルの産業ベンチマークで優れていることが多く、ドメイン間の習熟性はほとんど得られない。 セマンティックな異常(Semantic anomalies)は、自動運転車の見えない物体のように、トレーニングセットとは異なる意味を持つ新規性である。 対照的に、産業上の異常は、航空機の部品のひび割れのような意味的な意味を保存する微妙な欠陥である。 本稿では,タスク毎に最小限の調整を施した,意味的,ほぼ分布的,産業的設定で動作するための異常検出フレームワークであるGeneralADを提案する。 提案手法では,イメージパッチに基づいてトレーニングされたビジョントランスフォーマーの固有設計に乗じて,最後の隠れ状態がパッチベース構造を保持することを保証する。 本稿では, ノイズ付加やシャッフルなどの簡単な操作を利用して, 擬似異常サンプルの作成を行う, 自己教師付き異常生成モジュールを提案する。 これらの特徴は注意に基づく識別器に供給され、画像のすべてのパッチを評価するように訓練される。 これにより、画像レベルでの異常を正確に識別し、解釈可能な異常マップを生成することができる。 我々は,10個のデータセットに対するアプローチを広範囲に評価し,各タスクのローカライゼーションと検出の両面において,残りの6つのパフォーマンスで最先端の結果を達成した。

In the domain of anomaly detection, methods often excel in either high-level semantic or low-level industrial benchmarks, rarely achieving cross-domain proficiency. Semantic anomalies are novelties that differ in meaning from the training set, like unseen objects in self-driving cars. In contrast, industrial anomalies are subtle defects that preserve semantic meaning, such as cracks in airplane components. In this paper, we present GeneralAD, an anomaly detection framework designed to operate in semantic, near-distribution, and industrial settings with minimal per-task adjustments. In our approach, we capitalize on the inherent design of Vision Transformers, which are trained on image patches, thereby ensuring that the last hidden states retain a patch-based structure. We propose a novel self-supervised anomaly generation module that employs straightforward operations like noise addition and shuffling to patch features to construct pseudo-abnormal samples. These features are fed to an attention-based discriminator, which is trained to score every patch in the image. With this, our method can both accurately identify anomalies at the image level and also generate interpretable anomaly maps. We extensively evaluated our approach on ten datasets, achieving state-of-the-art results in six and on-par performance in the remaining for both localization and detection tasks.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# 深層学習モデルのロバスト性向上のための文脈認識ファジリング

Context-Aware Fuzzing for Robustness Enhancement of Deep Learning Models ( http://arxiv.org/abs/2407.12428v1 )

ライセンス: Link先を確認
Haipeng Wang, Zhengyuan Wei, Qilin Zhou, Wing-Kwong Chan, (参考訳) ディープラーニング(DL)モデルのロバスト性向上のためのテスト訓練パイプラインでは,多くの最先端のロバスト性指向ファジリング技術がメトリック指向である。 パイプラインは、このようなDLテスト技術を介してテストケースとして逆例を生成し、これらのテストケースを含むテストスイートでテスト中のDLモデルをトレーニングする。 一方、これらのファジィング手法の戦略は、テストメトリクスの重要な特徴をしっかりと統合しています。 一方、これらのテストケースは、これらのテストケースを取り巻くサンプルと異なり、また、現在のテストケースを生成する際に、他のシードのテストケースが関係しているかどうかを知らないことが多い。 本稿では,コンテキスト信頼(CC)と呼ばれる新しいテスト指標を提案する。 CCは、テストケースの予測ラベルに予測される平均確率の観点から、テストケースの周辺サンプルを通してテストケースを測定する。 この測定値に基づいて,パイプラインのDLテスト手法として,新しいファジリング手法であるCloverを提案する。 各ファジングラウンドで、クローバーはまず、ファジング中の種子のラベルと同じラベルを持つ種子のセットを見つける。 同時に、各種子の既存のテストケースのうち、最も高いCC値を達成する対応するテストケースを特定し、最も高いCC値を得るファジングの下で、種子の既存のテストケースと同じ予測ラベルを共有する。 Cloverは、これらのペアのシードとテストケースの差分を計算する。 これらの相違点を段階的に応用し, ファジング条件下での種子の現在の試験ケースを摂動させ, 得られた試料を勾配に沿って摂動させ, ファジング条件下での新しい試験ケースを生成する。

In the testing-retraining pipeline for enhancing the robustness property of deep learning (DL) models, many state-of-the-art robustness-oriented fuzzing techniques are metric-oriented. The pipeline generates adversarial examples as test cases via such a DL testing technique and retrains the DL model under test with test suites that contain these test cases. On the one hand, the strategies of these fuzzing techniques tightly integrate the key characteristics of their testing metrics. On the other hand, they are often unaware of whether their generated test cases are different from the samples surrounding these test cases and whether there are relevant test cases of other seeds when generating the current one. We propose a novel testing metric called Contextual Confidence (CC). CC measures a test case through the surrounding samples of a test case in terms of their mean probability predicted to the prediction label of the test case. Based on this metric, we further propose a novel fuzzing technique Clover as a DL testing technique for the pipeline. In each fuzzing round, Clover first finds a set of seeds whose labels are the same as the label of the seed under fuzzing. At the same time, it locates the corresponding test case that achieves the highest CC values among the existing test cases of each seed in this set of seeds and shares the same prediction label as the existing test case of the seed under fuzzing that achieves the highest CC value. Clover computes the piece of difference between each such pair of a seed and a test case. It incrementally applies these pieces of differences to perturb the current test case of the seed under fuzzing that achieves the highest CC value and to perturb the resulting samples along the gradient to generate new test cases for the seed under fuzzing.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# GLARE: 生成遅延特徴に基づくコードブック検索による低光画像強調

GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval ( http://arxiv.org/abs/2407.12431v1 )

ライセンス: Link先を確認
Han Zhou, Wei Dong, Xiaohong Liu, Shuaicheng Liu, Xiongkuo Min, Guangtao Zhai, Jun Chen, (参考訳) 既存のLow-light Image Enhancement(LLIE)メソッドは、Low-Light(LL)をNormal-Light(NL)イメージに直接マッピングするか、セマンティックマップまたは照明マップをガイドとして使用する。 しかし、LLIEの誤った性質と、障害のある入力からのセマンティック検索の難しさは、特に極低照度条件においてこれらの手法を制限している。 本稿では,GLARE (Generative LAtent feature based codebook Retrieval) を通じて新たなLLIEネットワークを提案し,Vector Quantization (VQ) 戦略を用いた未劣化NL画像からコードブックを導出する。 さらに,コードブック内の正しいコード検索を保証するために,LL特徴分布をNL潜在表現に整合させる生成的非可逆潜在正規化フロー (I-LNF) モジュールを開発した。 さらに、ユーザ向けに調整可能な機能を備え、デュアルデコーダアーキテクチャとともにアダプティブ・ミックスアップ・ブロック(AMB)を構成する、新しいアダプティブ・フィーチャー・トランスフォーメーション(AFT)モジュールを考案した。 大規模な実験により、さまざまなベンチマークデータセットと実世界のデータに対するGLAREの優れた性能が確認された。 低照度物体検出タスクにおける前処理ツールとしての有効性は、高レベル視覚アプリケーションにおけるGLAREをさらに検証する。 コードはhttps://github.com/LowLevelAI/GLAREで公開されている。

Most existing Low-light Image Enhancement (LLIE) methods either directly map Low-Light (LL) to Normal-Light (NL) images or use semantic or illumination maps as guides. However, the ill-posed nature of LLIE and the difficulty of semantic retrieval from impaired inputs limit these methods, especially in extremely low-light conditions. To address this issue, we present a new LLIE network via Generative LAtent feature based codebook REtrieval (GLARE), in which the codebook prior is derived from undegraded NL images using a Vector Quantization (VQ) strategy. More importantly, we develop a generative Invertible Latent Normalizing Flow (I-LNF) module to align the LL feature distribution to NL latent representations, guaranteeing the correct code retrieval in the codebook. In addition, a novel Adaptive Feature Transformation (AFT) module, featuring an adjustable function for users and comprising an Adaptive Mix-up Block (AMB) along with a dual-decoder architecture, is devised to further enhance fidelity while preserving the realistic details provided by codebook prior. Extensive experiments confirm the superior performance of GLARE on various benchmark datasets and real-world data. Its effectiveness as a preprocessing tool in low-light object detection tasks further validates GLARE for high-level vision applications. Code is released at https://github.com/LowLevelAI/GLARE.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# F-HOI:きめ細かいセマンティックな3次元オブジェクトインタラクションを目指して

F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions ( http://arxiv.org/abs/2407.12435v1 )

ライセンス: Link先を確認
Jie Yang, Xuesong Niu, Nan Jiang, Ruimao Zhang, Siyuan Huang, (参考訳) 既存の3Dヒューマンオブジェクトインタラクション(HOI)データセットとモデルは、中間状態と状態間の遷移の詳細な理解を欠きながら、グローバルな記述と長いHOIシーケンスを単純に一致させる。 本稿では,状態レベルの記述を利用した細粒度セマンティックアライメントが,意味的にリッチなHOI表現を学習する上で有望なパラダイムとなることを論じる。 そこで本研究では,20万組以上のHOI状態からなるセマンティックHOIについて,各HOI状態と2つの連続状態の間に生じる身体運動について詳細な記述を行った。 提案したデータセットを活用することで、HOIシーケンス内の細かなセマンティックアライメントを実現するために、3つの状態レベルHOIタスクを設計する。 さらに、F-HOIと呼ばれる統合モデルを提案し、マルチモーダル命令を活用し、多モーダル大規模言語モデルにより多様なHOIタスクを効率的に処理できるようにする。 F-HOIは、(1)多目的マルチモーダル入力の使用をサポートする統一されたタスク定式化を採用する。 2) 2D, 3D, 言語空間におけるHOIの整合性を維持する。 (3) HOI状態の複雑なモデリングを回避し, 微粒なテキスト管理を直接最適化に活用する。 大規模な実験により、F-HOIはHOI状態と細粒度のセマンティック記述を効果的に整合させ、理解、推論、生成、再構築のタスクに順応することが明らかとなった。

Existing 3D human object interaction (HOI) datasets and models simply align global descriptions with the long HOI sequence, while lacking a detailed understanding of intermediate states and the transitions between states. In this paper, we argue that fine-grained semantic alignment, which utilizes state-level descriptions, offers a promising paradigm for learning semantically rich HOI representations. To achieve this, we introduce Semantic-HOI, a new dataset comprising over 20K paired HOI states with fine-grained descriptions for each HOI state and the body movements that happen between two consecutive states. Leveraging the proposed dataset, we design three state-level HOI tasks to accomplish fine-grained semantic alignment within the HOI sequence. Additionally, we propose a unified model called F-HOI, designed to leverage multimodal instructions and empower the Multi-modal Large Language Model to efficiently handle diverse HOI tasks. F-HOI offers multiple advantages: (1) It employs a unified task formulation that supports the use of versatile multimodal inputs. (2) It maintains consistency in HOI across 2D, 3D, and linguistic spaces. (3) It utilizes fine-grained textual supervision for direct optimization, avoiding intricate modeling of HOI states. Extensive experiments reveal that F-HOI effectively aligns HOI states with fine-grained semantic descriptions, adeptly tackling understanding, reasoning, generation, and reconstruction tasks.
翻訳日:2024-07-18 17:47:48 公開日:2024-07-17
# 強化学習のための可変非依存因果探索

Variable-Agnostic Causal Exploration for Reinforcement Learning ( http://arxiv.org/abs/2407.12437v1 )

ライセンス: Link先を確認
Minh Hoang Nguyen, Hung Le, Svetha Venkatesh, (参考訳) 現代の強化学習(RL)は、現実世界の因果関係を捉えるのに苦労しており、大規模な試行錯誤行動による非効率な探索につながっている。 エージェント探索を改善する最近の試みは因果発見を利用したが、しばしば環境における因果変数の非現実的な仮定を行う。 本稿では, 環境因果変数を指定せずにRLにおける探索を促進するために, 因果関係を組み込んだ新しい枠組みであるVACERLを提案する。 本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。 その後、これらのステップを接続する因果グラフを構築し、タスク完了に対する因果的な影響が大きい観察-作用ペアへエージェントを誘導する。 これは本質的な報酬を生成するために利用したり、探索効率を高めるためにサブゴールの階層を確立するために利用することができる。 実験結果から, グリッドワールド, 2dゲーム, ロボットドメインにおけるエージェント性能の大幅な向上が確認された。

Modern reinforcement learning (RL) struggles to capture real-world cause-and-effect dynamics, leading to inefficient exploration due to extensive trial-and-error actions. While recent efforts to improve agent exploration have leveraged causal discovery, they often make unrealistic assumptions of causal variables in the environments. In this paper, we introduce a novel framework, Variable-Agnostic Causal Exploration for Reinforcement Learning (VACERL), incorporating causal relationships to drive exploration in RL without specifying environmental causal variables. Our approach automatically identifies crucial observation-action steps associated with key variables using attention mechanisms. Subsequently, it constructs the causal graph connecting these steps, which guides the agent towards observation-action pairs with greater causal influence on task completion. This can be leveraged to generate intrinsic rewards or establish a hierarchy of subgoals to enhance exploration efficiency. Experimental results showcase a significant improvement in agent performance in grid-world, 2d games and robotic domains, particularly in scenarios with sparse rewards and noisy actions, such as the notorious Noisy-TV environments.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# データ入力のためのマルチモーダルデータのセマンティック・アウェア表現:文献レビュー

Semantic-Aware Representation of Multi-Modal Data for Data Ingress: A Literature Review ( http://arxiv.org/abs/2407.12438v1 )

ライセンス: Link先を確認
Pierre Lamart, Yinan Yu, Christian Berger, (参考訳) 機械学習(ML)は、アプリケーションドメインの増加を継続的に浸透させています。 LLM(Large Language Models)のような生成AIも、テキスト、画像、オーディオ、ビデオなどのマルチモーダルデータを処理するために広く採用されている。 この傾向は、トレーニングにずっと大きなデータセットを使用することであるが、このデータを効率的に管理することは、データの量ほど良くないため、業界倍の課題となっている。 むしろ、基盤となるデータレイクの本質的な品質と多様性を理解することは、アプリケーション固有のMLだけでなく、微調整の基盤モデルにとっても、ますます困難になっている。 さらに、データレイクの拡張からの情報検索(IR)は、その意味的値を決定するために考慮しなければならない時系列データに固有の時間次元によって複雑になる。 本研究では, モノモーダル, マルチモーダル, クロスモーダルデータから埋め込みを抽出し, 成長するデータレイクにおけるIR能力を向上するために, セマンティック・アウェアの異なる手法に焦点を当てた。 データモダリティの3つのカテゴリに対する埋め込みの応用に焦点を当てた,最先端技術に関する情報を要約した記事が収集された。

Machine Learning (ML) is continuously permeating a growing amount of application domains. Generative AI such as Large Language Models (LLMs) also sees broad adoption to process multi-modal data such as text, images, audio, and video. While the trend is to use ever-larger datasets for training, managing this data efficiently has become a significant practical challenge in the industry-double as much data is certainly not double as good. Rather the opposite is important since getting an understanding of the inherent quality and diversity of the underlying data lakes is a growing challenge for application-specific ML as well as for fine-tuning foundation models. Furthermore, information retrieval (IR) from expanding data lakes is complicated by the temporal dimension inherent in time-series data which must be considered to determine its semantic value. This study focuses on the different semantic-aware techniques to extract embeddings from mono-modal, multi-modal, and cross-modal data to enhance IR capabilities in a growing data lake. Articles were collected to summarize information about the state-of-the-art techniques focusing on applications of embedding for three different categories of data modalities.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# GraphGuard: マルチリレーショナルダイナミックグラフにおけるクレジットカード不正検出のための対照的な自己監督学習

GraphGuard: Contrastive Self-Supervised Learning for Credit-Card Fraud Detection in Multi-Relational Dynamic Graphs ( http://arxiv.org/abs/2407.12440v1 )

ライセンス: Link先を確認
Kristófer Reynisson, Marco Schreyer, Damian Borth, (参考訳) クレジットカード詐欺は個人レベルでも社会レベルでも重大な意味を持ち、効果的な予防が不可欠である。 現在の手法は機能エンジニアリングとラベル付き情報に大きく依存しており、どちらも大きな制限がある。 本稿では,不正なクレジットカード取引を検出するための,新たなコントラスト付き自己教師型グラフベースのフレームワークであるGraphGuardを提案する。 実世界のデータセットと合成データセットで実験を行う。 本研究は,クレジットカード不正検出のためのグラフベースの自己教師型手法の有効性を検討する上で,有望な初期方向性を提供する。

Credit card fraud has significant implications at both an individual and societal level, making effective prevention essential. Current methods rely heavily on feature engineering and labeled information, both of which have significant limitations. In this work, we present GraphGuard, a novel contrastive self-supervised graph-based framework for detecting fraudulent credit card transactions. We conduct experiments on a real-world dataset and a synthetic dataset. Our results provide a promising initial direction for exploring the effectiveness of graph-based self-supervised approaches for credit card fraud detection.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# 準リース微分を持つ分数離散非線形シュレーディンガー方程式における離散ソリトンのダイナミクス

Dynamics of discrete solitons in the fractional discrete nonlinear Schrödinger equation with the quasi-Riesz derivative ( http://arxiv.org/abs/2407.12441v1 )

ライセンス: Link先を確認
Ming Zhong, Boris A. Malomed, Zhenya Yan, (参考訳) 我々は、リーズ分数微分の適切に修正された定義に基づいて、そのL\'{e}vy index (LI) によって特徴づけられる分数分解的非線形シュル'{o}dinger (FDNLS) 方程式を精査する。 このFDNLS方程式は、格子サイト間の分離の逆正方形として崩壊する、最も近い隣り合う結合と長距離相互作用を結合する新しい離散系を表す。 この系は、原子または小さな分子からなる平行な準1次元ボース・アインシュタイン凝縮体の配列として、永久磁気または電気双極子モーメントとして実現することができる。 系の線形スペクトルにおける格子波の分散関係(DR)と対応する伝搬帯域は、LIの全ての値に対して正確な形で見出される。 DRは連続極限と一致しており、波数の範囲が異なる。 単一部位および2部位の離散ソリトンの形成は、反連続限界から始まり、離散ソリトンの存在境界までの数値的な解析を継続する。 ソリトンの安定性は、小さな摂動に対する固有値の観点から同定され、直接シミュレーションで検証される。 離散ソリトン(英語版)の移動性も、システムのピエルス・ナバロポテンシャル障壁の推定と直接シミュレーションの助けにより考慮されている。 永続的に動く離散ソリトン間の衝突も研究されている。

We elaborate a fractional discrete nonlinear Schr\"{o}dinger (FDNLS) equation based on an appropriately modified definition of the Riesz fractional derivative, which is characterized by its L\'{e}vy index (LI). This FDNLS equation represents a novel discrete system, in which the nearest-neighbor coupling is combined with long-range interactions, that decay as the inverse square of the separation between lattice sites. The system may be realized as an array of parallel quasi-one-dimensional Bose-Einstein condensates composed of atoms or small molecules carrying, respectively, a permanent magnetic or electric dipole moment. The dispersion relation (DR) for lattice waves and the corresponding propagation band in the system's linear spectrum are found in an exact form for all values of LI. The DR is consistent with the continuum limit, differing in the range of wavenumbers. Formation of single-site and two-site discrete solitons is explored, starting from the anti-continuum limit and continuing the analysis in the numerical form up to the existence boundary of the discrete solitons. Stability of the solitons is identified in terms of eigenvalues for small perturbations, and verified in direct simulations. Mobility of the discrete solitons is considered too, by means of an estimate of the system's Peierls-Nabarro potential barrier, and with the help of direct simulations. Collisions between persistently moving discrete solitons are also studied.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# ClearCLIP:Dense Vision-Language推論のためのCLIP表現の分解

ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference ( http://arxiv.org/abs/2407.12442v1 )

ライセンス: Link先を確認
Mengcheng Lan, Chaofeng Chen, Yiping Ke, Xinjiang Wang, Litong Feng, Wayne Zhang, (参考訳) 大規模な事前学習型視覚言語モデル(VLM)、特にCLIPが様々なオープン語彙タスクで成功したにもかかわらず、セマンティックセマンティックセマンティクスへの応用は依然として困難であり、誤った領域を持つノイズの多いセマンティクスマップを生成する。 本稿では,CLIPのアーキテクチャを再検討し,残余接続をセグメント化品質を劣化させるノイズの一次源として同定する。 残差接続における統計的特性と、異なる事前訓練されたモデル間での注意出力の比較分析により、CLIPの画像テキストコントラスト訓練パラダイムが、局所的な識別性を犠牲にしてグローバルな特徴を強調し、ノイズセグメンテーションの結果をもたらすことが判明した。 そこで我々はCLIPの表現を分解してオープン語彙セマンティックセマンティックセグメンテーションを強化する新しいアプローチであるClearCLIPを提案する。 最後に,残余接続の除去,自己注意の実施,フィードフォワードネットワークの破棄という3つの簡単な変更を導入する。 ClearCLIPは一貫して、より明確で正確なセグメンテーションマップを生成し、既存のアプローチを複数のベンチマークで上回り、発見の重要性を確認します。

Despite the success of large-scale pretrained Vision-Language Models (VLMs) especially CLIP in various open-vocabulary tasks, their application to semantic segmentation remains challenging, producing noisy segmentation maps with mis-segmented regions. In this paper, we carefully re-investigate the architecture of CLIP, and identify residual connections as the primary source of noise that degrades segmentation quality. With a comparative analysis of statistical properties in the residual connection and the attention output across different pretrained models, we discover that CLIP's image-text contrastive training paradigm emphasizes global features at the expense of local discriminability, leading to noisy segmentation results. In response, we propose ClearCLIP, a novel approach that decomposes CLIP's representations to enhance open-vocabulary semantic segmentation. We introduce three simple modifications to the final layer: removing the residual connection, implementing the self-self attention, and discarding the feed-forward network. ClearCLIP consistently generates clearer and more accurate segmentation maps and outperforms existing approaches across multiple benchmarks, affirming the significance of our discoveries.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# 高速対人訓練における破滅的オーバーフィッティングの防止:二段階最適化の視点から

Preventing Catastrophic Overfitting in Fast Adversarial Training: A Bi-level Optimization Perspective ( http://arxiv.org/abs/2407.12443v1 )

ライセンス: Link先を確認
Zhaoxin Wang, Handing Wang, Cong Tian, Yaochu Jin, (参考訳) 対戦訓練(AT)は、敵の例(AE)に対する効果的な防御方法となり、通常は二段階最適化問題として扱われる。 様々なAT手法の中で、訓練プロセスの指導に一段攻撃戦略を用いる高速AT(FAT)は、低コストで敵攻撃に対して良好な堅牢性を実現することができる。 しかし、FAT法は、特に複雑なタスクや大規模パラメーターモデルにおいて、破滅的なオーバーフィッティング問題に悩まされる。 本研究では,FGSM-PCOと呼ばれるFAT法を提案し,二段階最適化プロセスにおける内部最適化問題の崩壊を回避し,破滅的なオーバーフィッティングを緩和する。 FGSM-PCOは、過去のAEから現在段階のAEを生成し、適応機構を用いてトレーニングプロセスに組み込む。 この機構は、トレーニングモデル上でのAEの性能に応じて適切な融合比を決定する。 トレーニングフレームワークに合わせた損失関数と組み合わせることで、FGSM-PCOは破滅的なオーバーフィッティングを軽減し、過剰フィッティングモデルの回復を効果的に行うことができる。 3つのモデルと3つのデータセットにまたがってアルゴリズムを評価し,その有効性を検証した。 他のFATアルゴリズムとの比較実験により,提案手法は既存アルゴリズムの未解決オーバーフィッティング問題に効果的に対処できることを示した。

Adversarial training (AT) has become an effective defense method against adversarial examples (AEs) and it is typically framed as a bi-level optimization problem. Among various AT methods, fast AT (FAT), which employs a single-step attack strategy to guide the training process, can achieve good robustness against adversarial attacks at a low cost. However, FAT methods suffer from the catastrophic overfitting problem, especially on complex tasks or with large-parameter models. In this work, we propose a FAT method termed FGSM-PCO, which mitigates catastrophic overfitting by averting the collapse of the inner optimization problem in the bi-level optimization process. FGSM-PCO generates current-stage AEs from the historical AEs and incorporates them into the training process using an adaptive mechanism. This mechanism determines an appropriate fusion ratio according to the performance of the AEs on the training model. Coupled with a loss function tailored to the training framework, FGSM-PCO can alleviate catastrophic overfitting and help the recovery of an overfitted model to effective training. We evaluate our algorithm across three models and three datasets to validate its effectiveness. Comparative empirical studies against other FAT algorithms demonstrate that our proposed method effectively addresses unresolved overfitting issues in existing algorithms.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# 機械学習と人工知能のための包括的持続可能なフレームワーク

A Comprehensive Sustainable Framework for Machine Learning and Artificial Intelligence ( http://arxiv.org/abs/2407.12445v1 )

ライセンス: Link先を確認
Roberto Pagliari, Peter Hill, Po-Yu Chen, Maciej Dabrowny, Tingsheng Tan, Francois Buet-Golfouse, (参考訳) 金融アプリケーションでは、規制やベストプラクティスは、公正性、プライバシ、解釈可能性、温室効果ガス排出の4つの主要な柱に関する機械学習の特定の要件につながることが多い。 これらはすべて、新たな実践的AIトピックである、AIの持続可能性というより広い文脈に置かれている。 しかし、これらの柱は過去の文献によって個別に対処されてきたが、いずれもすべての柱を考慮に入れていない。 各柱の間には固有のトレードオフがあり(例えば、正確性、公正性、または正確性、プライバシ)、それらを一緒に考えることがさらに重要である。 本稿では、持続可能な機械学習のための新しいフレームワークの概要を述べるとともに、これらの重要なトピックを同時に考慮し、柱間のトレードオフをよりよく学習するための汎用AIパイプラインであるFPIGを提案する。 FPIGフレームワークをベースとして,モデル学習前のデータセット要約,モデルアーキテクチャ,ハイパーパラメータの4つの鍵柱を推定するメタ学習アルゴリズムを提案する。 このアルゴリズムでは、与えられたデータセットの最適なモデルアーキテクチャと、ピラー上のユーザの要求セットを選択することができる。 3つの古典的データセット上でFPIGモデルの下でのトレードオフを説明し、実際のデータセットと異なる解釈可能性を持つモデルの例を用いてメタラーニングアプローチを実証し、モデル選択をいかに支援できるかを示す。

In financial applications, regulations or best practices often lead to specific requirements in machine learning relating to four key pillars: fairness, privacy, interpretability and greenhouse gas emissions. These all sit in the broader context of sustainability in AI, an emerging practical AI topic. However, although these pillars have been individually addressed by past literature, none of these works have considered all the pillars. There are inherent trade-offs between each of the pillars (for example, accuracy vs fairness or accuracy vs privacy), making it even more important to consider them together. This paper outlines a new framework for Sustainable Machine Learning and proposes FPIG, a general AI pipeline that allows for these critical topics to be considered simultaneously to learn the trade-offs between the pillars better. Based on the FPIG framework, we propose a meta-learning algorithm to estimate the four key pillars given a dataset summary, model architecture, and hyperparameters before model training. This algorithm allows users to select the optimal model architecture for a given dataset and a given set of user requirements on the pillars. We illustrate the trade-offs under the FPIG model on three classical datasets and demonstrate the meta-learning approach with an example of real-world datasets and models with different interpretability, showcasing how it can aid model selection.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# 非パラメトリック規則化による非バランス型医用画像分類

Non-parametric regularization for class imbalance federated medical image classification ( http://arxiv.org/abs/2407.12446v1 )

ライセンス: Link先を確認
Jeffry Wicaksana, Zengqiang Yan, Kwang-Ting Cheng, (参考訳) 限られたトレーニングデータと重度のクラス不均衡は、臨床的に堅牢なディープラーニングモデルを開発する上で大きな課題となる。 フェデレートラーニング(FL)は、異なる医療クライアントがプライバシーに敏感なデータを共有せずに、ディープモデルを協調的にトレーニングできるようにすることによって、前者に対処する。 しかし、クラス間のクラス分布の変化により、クラス不均衡が悪化する。 我々は,FedNPRとFedNPRのパーソナライズ版であるFedNPRとFedNPR-Perを併用して,特徴抽出器を正規化し,特徴空間における有用かつ識別的な信号を強化するフェデレーション学習を提案する。 以上の結果より,FedNPRは非バランスな皮膚病変の分類や頭蓋内出血の同定において,既存のFLアプローチよりも優れていたことが示唆された。 さらに、非パラメトリック正規化モジュールは、既存の最先端FLアプローチの性能を一貫して改善する。 臨床的条件下では,NPRはFLにとって貴重なツールであると考えられる。

Limited training data and severe class imbalance pose significant challenges to developing clinically robust deep learning models. Federated learning (FL) addresses the former by enabling different medical clients to collaboratively train a deep model without sharing privacy-sensitive data. However, class imbalance worsens due to variation in inter-client class distribution. We propose federated learning with non-parametric regularization (FedNPR and FedNPR-Per, a personalized version of FedNPR) to regularize the feature extractor and enhance useful and discriminative signal in the feature space. Our extensive experiments show that FedNPR outperform the existing state-of-the art FL approaches in class imbalance skin lesion classification and intracranial hemorrhage identification. Additionally, the non-parametric regularization module consistently improves the performance of existing state-of-the-art FL approaches. We believe that NPR is a valuable tool in FL under clinical settings.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# オフライン-オンライン強化学習のためのエネルギー誘導拡散サンプリング

Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2407.12448v1 )

ライセンス: Link先を確認
Xu-Hui Liu, Tian-Shuo Liu, Shengyi Jiang, Ruifeng Chen, Zhilong Zhang, Xinwei Chen, Yang Yu, (参考訳) オフラインとオンラインの強化学習(RL)技術を組み合わせることは、データ取得が高価である効率的な安全な学習を実現する上で、本当に重要です。 既存の方法はオフラインデータをオンラインフェーズで直接再生するので、データ分散シフトの大きな課題となり、オンラインの微調整では非効率になる。 この問題に対処するため,我々は,オフラインデータセットから事前知識を抽出する拡散モデルを用いて,この知識をオンラインフェーズにおける拡張データ生成のために抽出するためにエネルギー関数を利用する,革新的アプローチである『textbf{E}nergy-guided \textbf{DI}ffusion \textbf{S}ampling』(EDIS)を導入する。 この理論解析は、EDISがオンラインデータのみを利用する場合やオフラインデータを直接利用する場合に比べて、最適でないことが示されている。 EDISはプラグインのアプローチであり、オフラインからオフラインのRL設定で既存のメソッドと組み合わせることができる。 既成のメソッドであるCal-QLとIQLにEDISを実装することで、MuJoCo、AntMaze、Adroit環境上での実証的なパフォーマンスの平均20%の改善が目覚ましい。 コードは \url{https://github.com/liuxhym/EDIS} で入手できる。

Combining offline and online reinforcement learning (RL) techniques is indeed crucial for achieving efficient and safe learning where data acquisition is expensive. Existing methods replay offline data directly in the online phase, resulting in a significant challenge of data distribution shift and subsequently causing inefficiency in online fine-tuning. To address this issue, we introduce an innovative approach, \textbf{E}nergy-guided \textbf{DI}ffusion \textbf{S}ampling (EDIS), which utilizes a diffusion model to extract prior knowledge from the offline dataset and employs energy functions to distill this knowledge for enhanced data generation in the online phase. The theoretical analysis demonstrates that EDIS exhibits reduced suboptimality compared to solely utilizing online data or directly reusing offline data. EDIS is a plug-in approach and can be combined with existing methods in offline-to-online RL setting. By implementing EDIS to off-the-shelf methods Cal-QL and IQL, we observe a notable 20% average improvement in empirical performance on MuJoCo, AntMaze, and Adroit environments. Code is available at \url{https://github.com/liuxhym/EDIS}.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# 物理ベース構造光合成データシミュレーションによるSim2realギャップの閉鎖

Close the Sim2real Gap via Physically-based Structured Light Synthetic Data Simulation ( http://arxiv.org/abs/2407.12449v1 )

ライセンス: Link先を確認
Kaixin Bai, Lei Zhang, Zhaopeng Chen, Fang Wan, Jianwei Zhang, (参考訳) ディープラーニングの大幅な進歩にもかかわらず、産業用ロボットプロジェクトへの採用は、主にデータ取得とラベル付けの課題のために制限されている。 ドメインランダム化を用いた従来のsim2realアプローチは、広範囲のシーンとモデルの最適化を必要とする。 これらの課題に対処するために,従来のデータセット生成ツールを超越して,RGBと物理的にリアルな深度画像を生成する,革新的な物理ベース構造化光シミュレーションシステムを導入する。 我々は、ロボット産業の把握シナリオに適したRGBDデータセットを作成し、オブジェクトの検出、インスタンスのセグメンテーション、産業用ロボットの把握におけるシモディリアルな視覚知覚の埋め込みなど、さまざまなタスクにわたって評価する。 sim2realのギャップを減らし、深層学習訓練を強化することにより、深層学習モデルを産業環境に適用しやすくする。 プロジェクトの詳細はhttps://baikaixinpublic.github.io/structured light 3D synthesisr/で確認できる。

Despite the substantial progress in deep learning, its adoption in industrial robotics projects remains limited, primarily due to challenges in data acquisition and labeling. Previous sim2real approaches using domain randomization require extensive scene and model optimization. To address these issues, we introduce an innovative physically-based structured light simulation system, generating both RGB and physically realistic depth images, surpassing previous dataset generation tools. We create an RGBD dataset tailored for robotic industrial grasping scenarios and evaluate it across various tasks, including object detection, instance segmentation, and embedding sim2real visual perception in industrial robotic grasping. By reducing the sim2real gap and enhancing deep learning training, we facilitate the application of deep learning models in industrial settings. Project details are available at https://baikaixinpublic.github.io/structured light 3D synthesizer/.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# プラットフォームと言語を越えて: オランダのインフルエンサーとInstagram、YouTube、TikTok上の法的開示

Across Platforms and Languages: Dutch Influencers and Legal Disclosures on Instagram, YouTube and TikTok ( http://arxiv.org/abs/2407.12451v1 )

ライセンス: Link先を確認
Haoyang Gui, Thales Bertaglia, Catalina Goanta, Sybe de Vries, Gerasimos Spanakis, (参考訳) ソーシャルメディア上のコンテンツ収益化は、インフルエンサー経済を加速させる。 インフルエンサーマーケティングは、ソーシャルメディア上でほとんど公表されていないか、不適切に開示されている。 非開示問題は、ますます厳しい制裁を課し始めている世界各国や超国家当局にとって、優先事項となっている。 本稿では,法的基準に基づいて,インフルエンサーが開示を遵守するかどうかを,透過的に測定する手法を提案する。 我々は,法的に十分な(緑)と法的に不十分な(黄)開示の区別を新たに導入する。 本手法を,最近導入された登録義務に基づき,オランダメディア機関に公に登録された150人のオランダ人インフルエンサーの内容を反映したオリジナルデータセットに適用する。 データセットは292,315のポストで構成され、多言語(英語とオランダ語)とクロスプラットフォーム(Instagram、YouTube、TikTok)で構成されている。 インフルエンサーのマーケティングは、一般的にソーシャルメディア上では公表されていないが、大きなインフルエンサーは必ずしも開示基準に準拠しているとは限らない。

Content monetization on social media fuels a growing influencer economy. Influencer marketing remains largely undisclosed or inappropriately disclosed on social media. Non-disclosure issues have become a priority for national and supranational authorities worldwide, who are starting to impose increasingly harsher sanctions on them. This paper proposes a transparent methodology for measuring whether and how influencers comply with disclosures based on legal standards. We introduce a novel distinction between disclosures that are legally sufficient (green) and legally insufficient (yellow). We apply this methodology to an original dataset reflecting the content of 150 Dutch influencers publicly registered with the Dutch Media Authority based on recently introduced registration obligations. The dataset consists of 292,315 posts and is multi-language (English and Dutch) and cross-platform (Instagram, YouTube and TikTok). We find that influencer marketing remains generally underdisclosed on social media, and that bigger influencers are not necessarily more compliant with disclosure standards.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# 深層強化学習による反応障壁の推定

Estimating Reaction Barriers with Deep Reinforcement Learning ( http://arxiv.org/abs/2407.12453v1 )

ライセンス: Link先を確認
Adittya Pal, (参考訳) 複雑な系の安定状態は、関連するポテンシャルエネルギー表面上の局所ミニマに対応する。 これらの局所ミニマ間の遷移は、そのような系の力学を支配している。 複雑系と高次元系の遷移経路を正確に決定することは、これらの遷移は稀な出来事であり、実験において関連する種を分離することが困難である。 たいていの場合、システムは局所的な最小値に近づき、希少な大きなゆらぎがミニマ間の遷移に繋がる。 このような遷移の確率はエネルギー障壁の高さとともに指数関数的に減少し、システムのダイナミクスは計算されたエネルギー障壁に非常に敏感になる。 本研究の目的は,システム状態空間における2つの安定状態間の最小エネルギー障壁をコスト最小化問題として求めることである。 本稿では、強化学習アルゴリズムを用いてこの問題を解決することを提案する。 強化学習剤の探索的性質は、遷移の最小エネルギー障壁の効率的なサンプリングと決定を可能にする。

Stable states in complex systems correspond to local minima on the associated potential energy surface. Transitions between these local minima govern the dynamics of such systems. Precisely determining the transition pathways in complex and high-dimensional systems is challenging because these transitions are rare events, and isolating the relevant species in experiments is difficult. Most of the time, the system remains near a local minimum, with rare, large fluctuations leading to transitions between minima. The probability of such transitions decreases exponentially with the height of the energy barrier, making the system's dynamics highly sensitive to the calculated energy barriers. This work aims to formulate the problem of finding the minimum energy barrier between two stable states in the system's state space as a cost-minimization problem. We propose solving this problem using reinforcement learning algorithms. The exploratory nature of reinforcement learning agents enables efficient sampling and determination of the minimum energy barrier for transitions.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# 非教師的セマンティックセグメンテーションにおけるプロキシーアンカーのプログレッシブプロパゲーション

Progressive Proxy Anchor Propagation for Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2407.12463v1 )

ライセンス: Link先を確認
Hyun Seok Seong, WonJun Moon, SuBeen Lee, Jae-Pil Heo, (参考訳) 意味的セグメンテーションのための労働集約的なラベル付けは、教師なしセマンティックセグメンテーションの出現を刺激している。 近年の研究では、画像レベルの自己教師付き事前学習モデルの特徴に基づくパッチワイドコントラスト学習を利用している。 しかし、画像レベルの事前訓練モデルからの類似性に基づく監視のみに依存すると、パッチレベルのセマンティック表現が不十分なため、信頼性の低いガイダンスにつながることが多い。 そこで我々は,プログレッシブプロキシ・アンカー・プロパゲーション(PPAP)戦略を提案する。 この方法は、各アンカーに対して、そのプロキシを意味的に類似したサンプルが密集した領域に移動させることにより、より信頼に値する正を徐々に識別する。 具体的には、まず、各アンカーの周囲に信頼性の高い正のサンプルを収集するために、厳密な境界を確立する。 そして, 正試料の分布を考慮すると, 正の濃度の高い領域にプロキシアンカーを移動させ, プロキシアンカーの伝播度に基づいて正の度合い境界を調整した。 また, 正と負のサンプルが正の境界付近に共存するあいまい領域を考慮し, インスタンスワイドあいまいゾーンを導入する。 これらのゾーン内のサンプルは負集合から除外され、さらに負集合の信頼性が向上する。 提案手法の有効性を検証し,提案手法の有効性を検証した。

The labor-intensive labeling for semantic segmentation has spurred the emergence of Unsupervised Semantic Segmentation. Recent studies utilize patch-wise contrastive learning based on features from image-level self-supervised pretrained models. However, relying solely on similarity-based supervision from image-level pretrained models often leads to unreliable guidance due to insufficient patch-level semantic representations. To address this, we propose a Progressive Proxy Anchor Propagation (PPAP) strategy. This method gradually identifies more trustworthy positives for each anchor by relocating its proxy to regions densely populated with semantically similar samples. Specifically, we initially establish a tight boundary to gather a few reliable positive samples around each anchor. Then, considering the distribution of positive samples, we relocate the proxy anchor towards areas with a higher concentration of positives and adjust the positiveness boundary based on the propagation degree of the proxy anchor. Moreover, to account for ambiguous regions where positive and negative samples may coexist near the positiveness boundary, we introduce an instance-wise ambiguous zone. Samples within these zones are excluded from the negative set, further enhancing the reliability of the negative set. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for Unsupervised Semantic Segmentation.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# 量子2パラメータ推定における推定限界の比較

Comparison of estimation limits for quantum two-parameter estimation ( http://arxiv.org/abs/2407.12466v1 )

ライセンス: Link先を確認
Simon K. Yung, Lorcan O. Conlon, Jie Zhao, Ping Koy Lam, Syed M. Assad, (参考訳) 測度の不確実性について低い境界を与える局所的な量子マルチパラメータ推定のための測定境界は、古典的クラム-ラオ境界(例えば、量子クラム-ラオ境界と長岡クラム-ラオ境界)を拡張し、パラメータ推定フレームワークを不確実性原理に組み込むことにより、これまでに2つの方法で定式化されてきた。 本研究では,これらの異なる種類の推定限界の直接比較を可能にする汎用フレームワークを提案する。 具体的には,解析的および数値的手法を用いて,長岡クラム-ラオ境界とルワング不確実性関係の到達可能性を比較する。 これらの2つの限界は、物理的に達成可能な精度について異なる情報を提供できることを示す。 両限界が同じ到達可能な精度を提供する例と、純粋状態においてもLu-Wangの不確実性関係が達成できない例を示す。さらに、Lu-Wangの不確実性関係(量子的および古典的フィッシャー情報行列の違い)の根底にあるメリットの図形が、従来使用されていたメリットの図形(平均二乗誤差)と必ずしも一致しないため、後者の場合において不確実性が生じることを示す。 その結果,Lu-Wang不確実性関係の一般到達可能性と適用性に関する知見が得られた。 さらに、異なる型の境界を比較するためのフレームワークは、他の設定で有用であることを示した。

Measurement estimation bounds for local quantum multiparameter estimation, which provide lower bounds on possible measurement uncertainties, have so far been formulated in two ways: by extending the classical Cram\'er--Rao bound (e.g., the quantum Cram\'er--Rao bound and the Nagaoka Cram'er--Rao bound) and by incorporating the parameter estimation framework with the uncertainty principle, as in the Lu--Wang uncertainty relation. In this work, we present a general framework that allows a direct comparison between these different types of estimation limits. Specifically, we compare the attainability of the Nagaoka Cram\'er--Rao bound and the Lu--Wang uncertainty relation, using analytical and numerical techniques. We show that these two limits can provide different information about the physically attainable precision. We present an example where both limits provide the same attainable precision and an example where the Lu--Wang uncertainty relation is not attainable even for pure states. We further demonstrate that the unattainability in the latter case arises because the figure of merit underpinning the Lu--Wang uncertainty relation (the difference between the quantum and classical Fisher information matrices) does not necessarily agree with the conventionally used figure of merit (mean squared error). The results offer insights into the general attainability and applicability of the Lu--Wang uncertainty relation. Furthermore, our proposed framework for comparing bounds of different types may prove useful in other settings.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# 検索エンジン, LLM, あるいはその両方 : 健康問題への回答のための情報検索戦略の評価

Search Engines, LLMs or Both? Evaluating Information Seeking Strategies for Answering Health Questions ( http://arxiv.org/abs/2407.12468v1 )

ライセンス: Link先を確認
Fernández-Pichel Marcos, Pichel Juan C., Losada David E, (参考訳) 検索エンジンは伝統的に情報検索の主要なツールとして機能してきた。 しかし、新しいLarge Language Models (LLM) は、最近、複数のタスクにおいて顕著な機能を示しており、特に、質問応答システムとしての採用が増えている。 LLMベースの対話システムと従来のウェブエンジンは今後も共存し続け、エンドユーザーを様々な形でサポートしていくことが期待されている。 しかし、正確な情報検索を容易にするために、両方のタイプのシステムの有効性についてより科学的に研究する必要がある。 本研究では,健康問題に答えることのメリットに焦点をあてる。 我々は、異なるWeb検索エンジン、LLM、検索強化(RAG)アプローチを比較し、広範囲にわたる研究を行った。 私たちの研究は興味深い結論を浮き彫りにしている。 例えば、健康問題に対処する可能性のあるWebページの品質は、ランク付けされたリストをさらに下回るにつれて低下しない。 しかし,本評価の結果,Web エンジンは健康問題に対する正しい回答を見出す上での LLM よりも精度が低いことがわかった。 一方、LSMは入力プロンプトに非常に敏感であり、RAGが高効率な情報探索手法をもたらすことも判明した。

Search engines have traditionally served as primary tools for information seeking. However, the new Large Language Models (LLMs) have recently demonstrated remarkable capabilities in multiple tasks and, specifically, their adoption as question answering systems is becoming increasingly prevalent. It is expected that LLM-based conversational systems and traditional web engines will continue to coexist in the future, supporting end users in various ways. But there is a need for more scientific research on the effectiveness of both types of systems in facilitating accurate information seeking. In this study, we focus on their merits in answering health questions. We conducted an extensive study comparing different web search engines, LLMs and retrieval-augmented (RAG) approaches. Our research reveals intriguing conclusions. For example, we observed that the quality of webpages potentially responding to a health question does not decline as we navigate further down the ranked lists. However, according to our evaluation, web engines are less accurate than LLMs in finding correct answers to health questions. On the other hand, LLMs are quite sensitive to the input prompts, and we also found out that RAG leads to highly effective information seeking methods.
翻訳日:2024-07-18 17:37:53 公開日:2024-07-17
# 有限ストリップ幾何学におけるHgTe量子井戸の逆参加比とエッジ状態の絡み合い

Inverse participation ratio and entanglement of edge states in HgTe quantum wells in a finite strip geometry ( http://arxiv.org/abs/2407.12469v1 )

ライセンス: Link先を確認
Manuel Calixto, Octavio Castaños, (参考訳) 幅$L$の有限ストリップ幾何学におけるHgTe量子井戸のエッジ状態の局在と絡み合い特性は、次のように量子情報の概念の下で研究される。 1)ローカライゼーションを測定する逆参加率(IPR)、及び 2) スピン軌道結合(SOC)による量子相関を測定するスピンセクターに対する還元密度行列(RDM)のエントロピー。 解析的および数値的ハミルトン対角化手法から、エッジ状態エネルギーと波動関数の定性的かつ定量的な情報を抽出する。 以前に観測されたエネルギーギャップの約$L$による指数関数的崩壊と変調を確認し、電荷伝導率に対するストリップ幅とラシュバ項の非自明な結果についてもレビューした。 スピン、運動量$k_x$、位置$y$におけるエッジ状態波動関数の構造の解析は、境界におけるエッジ状態のスピン偏極構造を証明している。 IPR分析により、価辺状態は、$\Gamma$点の近傍にあるモータ$k_x$の特定の値の境界の最大局所化を示すことが明らかになった。 エッジ状態のウェーブパケットは、ストリップのバウンダリである$y=0,L$(および中心である$y=L/2$)に近づくと、徐々にモーメントが減る。 エッジ状態のスピンセクターに対するRDMの研究は、(k_x,y)$空間におけるスピン確率の構造に関する相補的な情報を隠蔽し、極値の明確な位置を与える。 RDMの純度とエントロピーは、SOCによりスピンセクターが系の他の部分と絡み合っている領域$(k_x,y)$に通知する。

Localization and entanglement properties of edge states of HgTe quantum wells in a finite strip geometry of width $L$ are studied under quantum information concepts such as: 1) inverse participation ratio (IPR), which measures localization, and 2) entropies of the reduced density matrix (RDM) for the spin sector, which measures quantum correlations due to the spin-orbit coupling (SOC). Qualitative and quantitative information on the edge states energies and wavefunctions is extracted from analytic and numerical Hamiltonian diagonalization approaches. The previously observed exponential decay of the energy gap with $L$ and its modulations is confirmed and nontrivial consequences of the strip width and Rashba terms on the charge conductance are also reviewed. Analysis of the structure of the edge-state wave functions in terms of spin, momentum $k_x$ in the $x$-direction and position $y$, evidences the spin polarization structure of edge states at the boundaries. An IPR analysis reveals that the valence edge states show maximum localization on the boundaries for certain values of the momenta $k_x$ in the vicinity of the $\Gamma$ point. The edge-state wave packets participate of less and less momenta as we approach to the boundaries $y=0,L$ (and also the center $y=L/2$, for some of them) of the strip. A study of the RDM to the spin sector of edge states sheds complementary information on the structure of spin probabilities in $(k_x,y)$ space, giving clear location of extremal values. The purity and entropies of the RDM inform on the regions $(k_x,y)$ where the spin sector is more and less entangled with the rest of the system, due to SOC.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# 時間感性質問応答に対する継続的な学習

Continual Learning for Temporal-Sensitive Question Answering ( http://arxiv.org/abs/2407.12470v1 )

ライセンス: Link先を確認
Wanqi Yang, Yunqiu Xu, Yanda Li, Kunze Wang, Binbin Huang, Ling Chen, (参考訳) 本研究では,時間的感性質問応答(CLTSQA)のための継続学習の新たな研究領域について検討する。 従来の研究は主に時間感性質問回答(TSQA)に焦点を当てており、しばしば将来の出来事の予測不可能な性質を見落としている。 現実のアプリケーションでは、静的で完全なデータセットに頼るのではなく、モデルが時間とともに知識を継続的に取得することが重要です。 本稿では,CLTSQAに内在する課題に対処するため,モデルが絶え間なく進化する情報ランドスケープに適応できる戦略について検討する。 本研究を支援するために,我々はまず,連続学習の様々な段階に特化して設計された5つのサブセットからなる新しいデータセットを作成する。 次に、時間記憶再生と時間的コントラスト学習を統合したCLTSQAのトレーニングフレームワークを提案する。 まず、CLTSQAタスクは既存のモデルに固有の課題を導入します。 第2に、提案するフレームワークがこれらの課題を効果的にナビゲートし、パフォーマンスが向上する。

In this study, we explore an emerging research area of Continual Learning for Temporal Sensitive Question Answering (CLTSQA). Previous research has primarily focused on Temporal Sensitive Question Answering (TSQA), often overlooking the unpredictable nature of future events. In real-world applications, it's crucial for models to continually acquire knowledge over time, rather than relying on a static, complete dataset. Our paper investigates strategies that enable models to adapt to the ever-evolving information landscape, thereby addressing the challenges inherent in CLTSQA. To support our research, we first create a novel dataset, divided into five subsets, designed specifically for various stages of continual learning. We then propose a training framework for CLTSQA that integrates temporal memory replay and temporal contrastive learning. Our experimental results highlight two significant insights: First, the CLTSQA task introduces unique challenges for existing models. Second, our proposed framework effectively navigates these challenges, resulting in improved performance.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# Twitter上での言語毒性による政治的偏在化ユーザの特性評価

Characterization of Political Polarized Users Attacked by Language Toxicity on Twitter ( http://arxiv.org/abs/2407.12471v1 )

ライセンス: Link先を確認
Wentao Xu, (参考訳) ソーシャルメディアにおける言語毒性のダイナミクスを理解することは、米国大統領選挙などの政治シナリオにおいて、誤情報の伝播とエコーチャンバーの開発を調査する上で重要である。 近年の研究では、ソーシャルメディアプラットフォーム間のダイナミクスを調査するために大規模なデータを用いている。 しかし、毒性力学の研究は不十分である。 本研究は,左,右,センター利用者間の潜在的言語毒性フローを初めて調査することを目的とする。 具体的には,左ユーザが言語毒性により攻撃されやすいかを検討することを目的とする。 本研究では,5億件以上のTwitter投稿が調査された。 その結果、左派ユーザーは右派やセンター派よりもはるかに有毒な回答が得られた。

Understanding the dynamics of language toxicity on social media is important for us to investigate the propagation of misinformation and the development of echo chambers for political scenarios such as U.S. presidential elections. Recent research has used large-scale data to investigate the dynamics across social media platforms. However, research on the toxicity dynamics is not enough. This study aims to provide a first exploration of the potential language toxicity flow among Left, Right and Center users. Specifically, we aim to examine whether Left users were easier to be attacked by language toxicity. In this study, more than 500M Twitter posts were examined. It was discovered that Left users received much more toxic replies than Right and Center users.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# 談話データ分析の強化のための新しい依存性フレームワーク

A Novel Dependency Framework for Enhancing Discourse Data Analysis ( http://arxiv.org/abs/2407.12473v1 )

ライセンス: Link先を確認
Kun Sun, Rong Wang, (参考訳) 談話構造の異なる理論の発展は、これらの理論に基づく談話コーパスの確立につながった。 しかし、異なる理論的基盤上に確立された談話コーパスの存在は、それらを一貫した結束的な方法で探索する上での課題を生み出している。 この研究はPDTBアノテーションを依存性構造に変換することに重点を置いている。 改良されたBERTベースの談話パーサを使用して、英語、中国語、その他の言語でPDTBスタイルのコーパスから派生した依存性データの妥当性をテストする。 本研究は,同じテキストに対するPDTBアノテーションとRTTアノテーションの両方を依存関係に変換することにより,英語におけるPDTBアノテーションとPDTBアノテーションの相関性を検討するための 'dependency distance'' メトリクスを適用した。 その結果,PDTB依存性データは有効であり,両者の依存関係距離には強い相関関係があることが示唆された。 本研究では,談話依存を用いて談話コーパスを分析し,評価するための総合的なアプローチを提案する。 依存関係表現を適用することで、PDTB、RTT、SDRTコーパスからデータのコヒーレントで統一的な方法で抽出することができる。 さらに、クロス言語による検証は、このフレームワークの英語以外の一般化可能性を確立している。 この包括的依存関係フレームワークの確立は、既存の談話コーパスの限界を克服し、多様なアルゴリズムをサポートし、計算談話分析や言語科学におけるさらなる研究を促進する。

The development of different theories of discourse structure has led to the establishment of discourse corpora based on these theories. However, the existence of discourse corpora established on different theoretical bases creates challenges when it comes to exploring them in a consistent and cohesive way. This study has as its primary focus the conversion of PDTB annotations into dependency structures. It employs refined BERT-based discourse parsers to test the validity of the dependency data derived from the PDTB-style corpora in English, Chinese, and several other languages. By converting both PDTB and RST annotations for the same texts into dependencies, this study also applies ``dependency distance'' metrics to examine the correlation between RST dependencies and PDTB dependencies in English. The results show that the PDTB dependency data is valid and that there is a strong correlation between the two types of dependency distance. This study presents a comprehensive approach for analyzing and evaluating discourse corpora by employing discourse dependencies to achieve unified analysis. By applying dependency representations, we can extract data from PDTB, RST, and SDRT corpora in a coherent and unified manner. Moreover, the cross-linguistic validation establishes the framework's generalizability beyond English. The establishment of this comprehensive dependency framework overcomes limitations of existing discourse corpora, supporting a diverse range of algorithms and facilitating further studies in computational discourse analysis and language sciences.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# マハラノビス距離を利用した無監督脳MRI異常検出

Leveraging the Mahalanobis Distance to enhance Unsupervised Brain MRI Anomaly Detection ( http://arxiv.org/abs/2407.12474v1 )

ライセンス: Link先を確認
Finn Behrendt, Debayan Bhattacharya, Robin Mieling, Lennart Maack, Julia Krüger, Roland Opfer, Alexander Schlaefer, (参考訳) 教師なし異常検出(UAD)法は、異常を外れ値として識別するために健全なデータ分布に依存する。 脳MRIでは、再生モデルが正常な脳MRIを再構成し、異常が入力と再構成のずれとして検出される。 しかし、この方法は不完全な再建に敏感であり、セグメント化を阻害する偽陽性を引き起こす。 この制限に対処するため、確率的拡散モデルを用いて複数の再構成を構築する。 次に,マハラノビス距離を用いて再構成結果の分布を分析し,異常を外れ値として同定する。 この分布内における個々の画素の正常な変動と共分散の情報を活用することにより、異常スコアを効果的に洗練し、セグメンテーションを改善した。 実験結果から,各種データセット間での大幅な性能向上が得られた。 具体的には,BRATS21,ATLAS,MSLUB,WMHの各データセットに対して,AUPRCの相対的な改善を15.9%,35.4%,48.0%,4.7%とした。

Unsupervised Anomaly Detection (UAD) methods rely on healthy data distributions to identify anomalies as outliers. In brain MRI, a common approach is reconstruction-based UAD, where generative models reconstruct healthy brain MRIs, and anomalies are detected as deviations between input and reconstruction. However, this method is sensitive to imperfect reconstructions, leading to false positives that impede the segmentation. To address this limitation, we construct multiple reconstructions with probabilistic diffusion models. We then analyze the resulting distribution of these reconstructions using the Mahalanobis distance to identify anomalies as outliers. By leveraging information about normal variations and covariance of individual pixels within this distribution, we effectively refine anomaly scoring, leading to improved segmentation. Our experimental results demonstrate substantial performance improvements across various data sets. Specifically, compared to relying solely on single reconstructions, our approach achieves relative improvements of 15.9%, 35.4%, 48.0%, and 4.7% in terms of AUPRC for the BRATS21, ATLAS, MSLUB and WMH data sets, respectively.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# SENC: ニューラルネットワークシミュレーションにおける自己照合処理

SENC: Handling Self-collision in Neural Cloth Simulation ( http://arxiv.org/abs/2407.12479v1 )

ライセンス: Link先を確認
Zhouyingcheng Liao, Sinan Wang, Taku Komura, (参考訳) 布の自己修復の課題に対処する,新しい自己教師型ニューラルネットワークシミュレータSENCを提案する。 この問題は、最近の衝突検出と応答アプローチと自己教師型ニューラルシミュレータのシミュレーション設定の欠如により未解決のままである。 前者は衝突のない初期設定を必要とし、後者はトレーニング中にランダムな布のインスタンス化を必要とする。 この問題に対処するために,Global Intersection Analysis (GIA) に基づく新たな損失を提案する。 この損失は、貫通を形成する布領域に囲まれた体積を抽出する。 この体積に基づいてエネルギーを構築することにより、我々の自己教師型ニューラルネットワークは布の自己複製を効果的に処理できる。 さらに,位相的に離れた部分であっても,自己照合を学習可能な自己照合対応グラフニューラルネットワークを開発した。 さらに,ランダムな外力に応答して布の挙動をシミュレーションで学習できる効果的な外力スキームを提案する。 我々は,SENCの有効性を定量的および定性的実験により検証し,高品質なアニメーション結果を維持しつつ,布の自己調整を効果的に低減できることを実証した。

We present SENC, a novel self-supervised neural cloth simulator that addresses the challenge of cloth self-collision. This problem has remained unresolved due to the gap in simulation setup between recent collision detection and response approaches and self-supervised neural simulators. The former requires collision-free initial setups, while the latter necessitates random cloth instantiation during training. To tackle this issue, we propose a novel loss based on Global Intersection Analysis (GIA). This loss extracts the volume surrounded by the cloth region that forms the penetration. By constructing an energy based on this volume, our self-supervised neural simulator can effectively address cloth self-collisions. Moreover, we develop a self-collision-aware graph neural network capable of learning to handle self-collisions, even for parts that are topologically distant from one another. Additionally, we introduce an effective external force scheme that enables the simulation to learn the cloth's behavior in response to random external forces. We validate the efficacy of SENC through extensive quantitative and qualitative experiments, demonstrating that it effectively reduces cloth self-collision while maintaining high-quality animation results.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# インディクティブLDMのための事前データとトケナイザ

Pretraining Data and Tokenizer for Indic LLM ( http://arxiv.org/abs/2407.12481v1 )

ライセンス: Link先を確認
Rahul Kumar, Shubham Kakde, Divyansh Rajput, Daud Ibrahim, Rishabh Nahata, Pidathala Sowjanya, Deepak Kumar, (参考訳) 本稿では,多言語Indic大言語モデル構築のためのデータ準備手法を提案する。 私たちの厳密なデータ取得は、Common Crawl、Indic Book、ニュース記事、Wikipediaなど、オープンソースとプロプライエタリなソースにまたがっており、多様でリッチな言語表現を確保しています。 Indic言語毎に、冗長で低品質なテキストコンテンツを効果的に除去するカスタムプリプロセッシングパイプラインを設計する。 さらに、クローリングされたWebページの70%に存在する冗長性に対処するため、Common Crawlデータ上で重複処理を行う。 本研究では,3Bおよび7Bパラメータを持つ多言語大言語モデルに対して,高品質なデータの開発,トークン化を最適化することに焦点を当てた。 Indic言語に対して優れたトークン対ワード比を実現し,最先端のOpenAI Tiktokenトークンよりも優れた性能を発揮することを,我々のカスタムトレーニングされたIndicトークン化手法を実証する,新しい多言語トークン化学習戦略を導入する。

We present a novel approach to data preparation for developing multilingual Indic large language model. Our meticulous data acquisition spans open-source and proprietary sources, including Common Crawl, Indic books, news articles, and Wikipedia, ensuring a diverse and rich linguistic representation. For each Indic language, we design a custom preprocessing pipeline to effectively eliminate redundant and low-quality text content. Additionally, we perform deduplication on Common Crawl data to address the redundancy present in 70% of the crawled web pages. This study focuses on developing high-quality data, optimizing tokenization for our multilingual dataset for Indic large language models with 3B and 7B parameters, engineered for superior performance in Indic languages. We introduce a novel multilingual tokenizer training strategy, demonstrating our custom-trained Indic tokenizer outperforms the state-of-the-art OpenAI Tiktoken tokenizer, achieving a superior token-to-word ratio for Indic languages.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# サッカーのためのAIを利用したビデオアシスタント・レフェリーシステムを目指して

Towards AI-Powered Video Assistant Referee System for Association Football ( http://arxiv.org/abs/2407.12483v1 )

ライセンス: Link先を確認
Jan Held, Anthony Cioppa, Silvio Giancola, Abdullah Hamdi, Christel Devue, Bernard Ghanem, Marc Van Droogenbroeck, (参考訳) 過去10年間で、サッカーの審判が使用する技術は大幅に改善され、決定の公平さと正確さが向上した。 この進歩は、バックステージレフェリーがピッチ上のインシデントを複数の視点からレビューできるイノベーションであるVAR(Video Assistant Referee)の実装において頂点に達した。 しかしながら、VARは現在、高価なインフラと世界中の審判の欠如のために、プロリーグに限られている。 本稿では,多視点ビデオ解析における最新の知見を活用する半自動ビデオアシスタント参照システム(VARS)を提案する。 VARSはサッカーファウルのマルチビュービデオデータセットである SoccerNet-MVFoul データセットに新たな最先端技術を設定する。 VARSは,50%のインスタンスでファウルのタイプを認識し,46%のケースで適切な制裁をすることで,サッカーネット-MVFoulデータセットの新たな最先端化を実現している。 最後に, ファールとそれに対応する重症度を分類し, VARSと比較した。 その結果,VARSが人間のパフォーマンスに到達し,プロとアマチュアのあらゆるレベルのサッカー審判を支援する可能性を強調した。

Over the past decade, the technology used by referees in football has improved substantially, enhancing the fairness and accuracy of decisions. This progress has culminated in the implementation of the Video Assistant Referee (VAR), an innovation that enables backstage referees to review incidents on the pitch from multiple points of view. However, the VAR is currently limited to professional leagues due to its expensive infrastructure and the lack of referees worldwide. In this paper, we present the semi-automated Video Assistant Referee System (VARS) that leverages the latest findings in multi-view video analysis. VARS sets a new state-of-the-art on the SoccerNet-MVFoul dataset, a multi-view video dataset of football fouls. Our VARS achieves a new state-of-the-art on the SoccerNet-MVFoul dataset by recognizing the type of foul in 50% of instances and the appropriate sanction in 46% of cases. Finally, we conducted a comparative study to investigate human performance in classifying fouls and their corresponding severity and compared these findings to our VARS. The results of our study highlight the potential of our VARS to reach human performance and support football refereeing across all levels of professional and amateur federations.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# 分配的正義とは何か? 近似的正義の観点からアルゴリズム的公正性を再考する

What's Distributive Justice Got to Do with It? Rethinking Algorithmic Fairness from the Perspective of Approximate Justice ( http://arxiv.org/abs/2407.12488v1 )

ライセンス: Link先を確認
Corinna Hertweck, Christoph Heitz, Michele Loi, (参考訳) アルゴリズムフェアネスの分野では、多くのフェアネス基準が提案されている。 しばしば、彼らの提案は道徳哲学からの考えと緩やかに結びついているだけであり、それは、提案された基準が意思決定システムの公平性を評価するためにいつ使われるべきかを理解するのが困難である。 最近では、研究者たちは、既存の公正基準を哲学的概念に結びつけることを遡及的に試みている。 集団公正性基準は通常、分配的正義の理論である平等主義と関連付けられている。 このことは、公平性基準が数学的に分配的正義の理想を表しており、これが典型的に描かれるものであると信じがちである。 本稿では,アルゴリズムフェアネスと分配正義をリンクする現在のアプローチが単純すぎて不十分である理由について論じる。 不完全な意思決定システム – アルゴリズムの公正性において私たちが対処する – という文脈では,個人間の利益やハームの理想的な分布がどのようなものかだけでなく,その理想からの逸脱がいかに分散されているかも気にするべきだ,と私たちは主張しています。 我々の主張では、アルゴリズムの公平さはこれらの偏見における不公平に関係している。 このためには、アルゴリズムフェアネス研究者として、分配的正義を見極め、公正性基準を使用する方法を再考する必要がある。

In the field of algorithmic fairness, many fairness criteria have been proposed. Oftentimes, their proposal is only accompanied by a loose link to ideas from moral philosophy -- which makes it difficult to understand when the proposed criteria should be used to evaluate the fairness of a decision-making system. More recently, researchers have thus retroactively tried to tie existing fairness criteria to philosophical concepts. Group fairness criteria have typically been linked to egalitarianism, a theory of distributive justice. This makes it tempting to believe that fairness criteria mathematically represent ideals of distributive justice and this is indeed how they are typically portrayed. In this paper, we will discuss why the current approach of linking algorithmic fairness and distributive justice is too simplistic and, hence, insufficient. We argue that in the context of imperfect decision-making systems -- which is what we deal with in algorithmic fairness -- we should not only care about what the ideal distribution of benefits/harms among individuals would look like but also about how deviations from said ideal are distributed. Our claim is that algorithmic fairness is concerned with unfairness in these deviations. This requires us to rethink the way in which we, as algorithmic fairness researchers, view distributive justice and use fairness criteria.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# ポイントクラウドセグメンテーションにおける新しいクラス発見のためのデュアルレベル適応型自己ラベル

Dual-level Adaptive Self-Labeling for Novel Class Discovery in Point Cloud Segmentation ( http://arxiv.org/abs/2407.12489v1 )

ライセンス: Link先を確認
Ruijie Xu, Chuyu Zhang, Hui Ren, Xuming He, (参考訳) そこで我々は,点雲セグメンテーションにおける新しいクラス発見に挑戦し,見受けられるクラスの意味的知識に基づいて,新しいクラスを発見する。 既存の研究は、解の退化を避けるために、新しいクラスに等しいクラスサイズの制約を単純化したオンラインポイントワイズクラスタリング手法を提案する。 しかし、点雲における新しいクラスの性質的不均衡分布は、通常等級サイズの制約に反する。 さらに、ポイントワイドクラスタリングは、オブジェクトの豊富な空間的コンテキスト情報を無視し、セマンティックセグメンテーションの表現力の低下をもたらす。 上記の課題に対処するため、モデルトレーニング中に不均衡クラスのための高品質な擬似ラベルを適応的に生成する新しい自己ラベル方式を提案する。 さらに、局所的な一貫性を点レベル分類器学習に組み込んだ二重レベル表現を開発し、生成したセグメンテーションのノイズを低減する。 最後に,SemanticKITTIとSemanticPOSSという2つの広く使われているデータセットについて広範な実験を行った。

We tackle the novel class discovery in point cloud segmentation, which discovers novel classes based on the semantic knowledge of seen classes. Existing work proposes an online point-wise clustering method with a simplified equal class-size constraint on the novel classes to avoid degenerate solutions. However, the inherent imbalanced distribution of novel classes in point clouds typically violates the equal class-size constraint. Moreover, point-wise clustering ignores the rich spatial context information of objects, which results in less expressive representation for semantic segmentation. To address the above challenges, we propose a novel self-labeling strategy that adaptively generates high-quality pseudo-labels for imbalanced classes during model training. In addition, we develop a dual-level representation that incorporates regional consistency into the point-level classifier learning, reducing noise in generated segmentation. Finally, we conduct extensive experiments on two widely used datasets, SemanticKITTI and SemanticPOSS, and the results show our method outperforms the state of the art by a large margin.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# 自律運転のための階層的・非結合型BEV知覚学習フレームワーク

Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving ( http://arxiv.org/abs/2407.12491v1 )

ライセンス: Link先を確認
Yuqi Dai, Jian Sun, Shengbo Eben Li, Qing Xu, Jianqiang Wang, Lei He, Keqiang Li, (参考訳) 認識は自律運転システムに不可欠である。 Bird's-eye-view (BEV) とディープラーニングに基づく最近のアプローチは大きな進歩を遂げた。 しかし、認識アルゴリズム開発プロセスにおいて、長い開発サイクル、再利用性の低さ、複雑なセンサー設定などの課題が存在する。 このような課題に対処するために,本研究では,基本認識モジュールとユーザフレンドリなグラフィカルインタフェースのライブラリを提供することを目的として,新しい階層型バードアイビュー(BEV)認識パラダイムを提案する。 我々は,大規模公開データセットと合理化開発プロセスを効果的に活用するために,Pretrain-Finetune戦略を実行している。 具体的には,MML(Multi-Module Learning)アプローチを提案する。 Nuscenesデータセットの大規模な実験結果から,本手法は従来のトレーニング手法よりも大幅に改善されていることが示された。

Perception is essential for autonomous driving system. Recent approaches based on Bird's-eye-view (BEV) and deep learning have made significant progress. However, there exists challenging issues including lengthy development cycles, poor reusability, and complex sensor setups in perception algorithm development process. To tackle the above challenges, this paper proposes a novel hierarchical Bird's-eye-view (BEV) perception paradigm, aiming to provide a library of fundamental perception modules and user-friendly graphical interface, enabling swift construction of customized models. We conduct the Pretrain-Finetune strategy to effectively utilize large scale public datasets and streamline development processes. Specifically, we present a Multi-Module Learning (MML) approach, enhancing performance through synergistic and iterative training of multiple models. Extensive experimental results on the Nuscenes dataset demonstrate that our approach renders significant improvement over the traditional training method.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# 状態空間モデルによるテスト時間適応

Test-Time Adaptation with State-Space Models ( http://arxiv.org/abs/2407.12492v1 )

ライセンス: Link先を確認
Mona Schirmer, Dan Zhang, Eric Nalisnick, (参考訳) トレーニングデータとテストデータの分散シフトは、デプロイされたモデルのライフサイクルにおいて必然的であり、パフォーマンスの低下につながります。 モデルへの適応は、パフォーマンスの低下を軽減することを願っている。 通常はテスト時にラベル付きデータにアクセスできません。 本稿では,分散ドリフトを受ける配置モデルに適応可能な確率的状態空間モデルを提案する。 我々のモデルは、最後の隠れた特徴セットの分布シフトによって引き起こされるダイナミクスを学習する。 ラベルを必要とせずに、動的分類ヘッドとして機能する時間進化型クラスプロトタイプを推測する。 さらに、我々のアプローチは軽量で、モデルの最後の線形層だけを変更します。 実世界の分布シフトと合成腐敗の実験において,本手法がバックプロパゲーションとモデルバックボーンへのアクセスを必要とする手法と競合することを示した。 私たちのモデルは、特に小さなテストバッチの場合、最も難しい設定で優れています。

Distribution shifts between training and test data are all but inevitable over the lifecycle of a deployed model and lead to performance decay. Adapting the model can hopefully mitigate this drop in performance. Yet, adaptation is challenging since it must be unsupervised: we usually do not have access to any labeled data at test time. In this paper, we propose a probabilistic state-space model that can adapt a deployed model subjected to distribution drift. Our model learns the dynamics induced by distribution shifts on the last set of hidden features. Without requiring labels, we infer time-evolving class prototypes that serve as a dynamic classification head. Moreover, our approach is lightweight, modifying only the model's last linear layer. In experiments on real-world distribution shifts and synthetic corruptions, we demonstrate that our approach performs competitively with methods that require back-propagation and access to the model backbone. Our model especially excels in the case of small test batches - the most difficult setting.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# ファウショット学習用レンズにおける多モードLLMの言語機能評価

Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning ( http://arxiv.org/abs/2407.12498v1 )

ライセンス: Link先を確認
Mustafa Dogan, Ilker Kesen, Iacer Calixto, Aykut Erdem, Erkut Erdem, (参考訳) MLLM(Multimodal Large Language Models)の言語能力は、様々なタスクにまたがる効果的な応用に不可欠である。 本研究は, MLLMの性能をVALSEベンチマークで評価することを目的として, 数発のIn-Context Learning (ICL) と Chain-of-Thought (CoT) のプロンプトの有効性に着目した。 我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。 実験の結果,複雑な推論や文脈理解を必要とするタスクにおいて,ICLとCoTはモデル性能を著しく向上させることがわかった。 キャプションデータセットで事前トレーニングされたモデルは、ゼロショットのパフォーマンスが優れており、インターリーブされた画像テキストデータでトレーニングされたモデルは、数ショット学習の恩恵を受ける。 本研究は,MLLMを視覚的文脈における言語基盤の最適化に活用する上で,事前学習データの構成の重要性と,MLLMの推論能力を向上させるための数発学習戦略の可能性を強調した上で,MLLMの最適化に関する貴重な知見を提供する。

The linguistic capabilities of Multimodal Large Language Models (MLLMs) are critical for their effective application across diverse tasks. This study aims to evaluate the performance of MLLMs on the VALSE benchmark, focusing on the efficacy of few-shot In-Context Learning (ICL), and Chain-of-Thought (CoT) prompting. We conducted a comprehensive assessment of state-of-the-art MLLMs, varying in model size and pretraining datasets. The experimental results reveal that ICL and CoT prompting significantly boost model performance, particularly in tasks requiring complex reasoning and contextual understanding. Models pretrained on captioning datasets show superior zero-shot performance, while those trained on interleaved image-text data benefit from few-shot learning. Our findings provide valuable insights into optimizing MLLMs for better grounding of language in visual contexts, highlighting the importance of the composition of pretraining data and the potential of few-shot learning strategies to improve the reasoning abilities of MLLMs.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# 学術静的分析装置の保守性向上

Easing Maintenance of Academic Static Analyzers ( http://arxiv.org/abs/2407.12499v1 )

ライセンス: Link先を確認
Raphaël Monat, Abdelraouf Ouadjaout, Antoine Miné, (参考訳) 静的解析における学術研究は、ソフトウェアの実装を生み出す。 これらの実装は開発に時間がかかり、その実装に関するさらなる研究を構築するためにメンテナンスされる必要がある。 必要ではあるが、これらのプロセスはすぐに困難になる可能性がある。 この記事では、2017年以来のMopsaのメンテナンスを簡素化するために、私たちが作り出したツールとテクニックについて説明する。 Mopsaは、音を出すことを目的とした静的分析プラットフォームである。 まず、手動で結果を調べることによって得られる真のバグのベースラインを一切必要としない精度を自動で測定する方法について述べる。 さらに、分析の透明性を改善し、継続的インテグレーション中のレグレッションの検出を支援する。 第2に,プログラムの具体的な実行を観察する標準ツールからインスピレーションを得て,解析プログラム自体の抽象的な実行を観察するカスタムツール,例えば抽象デバッガやプロファイラを設計した。 最後に,自動テストケースリダクションのいくつかの症例について報告する。

Academic research in static analysis produces software implementations. These implementations are time-consuming to develop and some need to be maintained in order to enable building further research upon the implementation. While necessary, these processes can be quickly challenging. This article documents the tools and techniques we have come up with to simplify the maintenance of Mopsa since 2017. Mopsa is a static analysis platform that aims at being sound. First, we describe an automated way to measure precision that does not require any baseline of true bugs obtained by manually inspecting the results. Further, it improves transparency of the analysis, and helps discovering regressions during continuous integration. Second, we have taken inspiration from standard tools observing the concrete execution of a program to design custom tools observing the abstract execution of the analyzed program itself, such as abstract debuggers and profilers. Finally, we report on some cases of automated testcase reduction.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# オートメイトかアシストか?米国資本裁判における性談話の特定における計算モデルの役割

Automate or Assist? The Role of Computational Models in Identifying Gendered Discourse in US Capital Trial Transcripts ( http://arxiv.org/abs/2407.12500v1 )

ライセンス: Link先を確認
Andrea W Wen-Yi, Kathryn Adamson, Nathalie Greenfield, Rachel Goldberg, Sandra Babcock, David Mimno, Allison Koenecke, (参考訳) 米国の法廷弁護士が刑事裁判で用いた言語は、長い間偏見について研究されてきた。 しかし、偏見の微妙な性質と法的な専門性のために、高等法廷裁判における偏見に関する体系的な研究は困難であった。 新しい大規模言語モデルは、アノテーションの自動化、時間とコストの節約を可能にする。 しかし、これらのアプローチを検証するためには、高い量的パフォーマンスと、自動化されたメソッドが既存のワークフローにどのように適合するか、そしてそれらが本当に提供するものを理解することが必要である。 本稿では,女性被告に対する米国資本裁判において,ジェンダーバイアス言語を識別する,複雑かつ高額な問題に自動システムを追加するケーススタディを提案する。 まず、手動で注釈を付け、次に計算モデルのトレーニングと評価を行い、最後に人間のアノテーションとモデル予測を比較しました。 多くの典型的なNLPタスクとは異なり、数ヶ月の資本試験で性別バイアスに注釈を付けることは、多くの個人による判断の呼び出しを伴う複雑なタスクであった。 効率性とスケーラビリティに基づく自動化の標準的な議論とは対照的に、法の専門家は、この計算モデルはアノテーションの個人的偏見に挑戦し、アノテーションのルールに関するコンセンサスを洗練し構築する機会を提供するのに最も有用であると判断した。 これは、専門家を計算モデルに置き換えることが非現実的で望ましくないことを示唆している。 むしろ、計算モデルは、アノテーションに基づく研究で法の専門家を支援する貴重な機会を提供する。

The language used by US courtroom actors in criminal trials has long been studied for biases. However, systematic studies for bias in high-stakes court trials have been difficult, due to the nuanced nature of bias and the legal expertise required. New large language models offer the possibility to automate annotation, saving time and cost. But validating these approaches requires both high quantitative performance as well as an understanding of how automated methods fit in existing workflows, and what they really offer. In this paper we present a case study of adding an automated system to a complex and high-stakes problem: identifying gender-biased language in US capital trials for women defendants. Our team of experienced death-penalty lawyers and NLP technologists pursued a three-phase study: first annotating manually, then training and evaluating computational models, and finally comparing human annotations to model predictions. Unlike many typical NLP tasks, annotating for gender bias in months-long capital trials was a complicated task that involves with many individual judgment calls. In contrast to standard arguments for automation that are based on efficiency and scalability, legal experts found the computational models most useful in challenging their personal bias in annotation and providing opportunities to refine and build consensus on rules for annotation. This suggests that seeking to replace experts with computational models is both unrealistic and undesirable. Rather, computational models offer valuable opportunities to assist the legal experts in annotation-based studies.
翻訳日:2024-07-18 17:27:45 公開日:2024-07-17
# EmoFace:オーディオ駆動の3D顔アニメーション

EmoFace: Audio-driven Emotional 3D Face Animation ( http://arxiv.org/abs/2407.12501v1 )

ライセンス: Link先を確認
Chang Liu, Qunfen Lin, Zijiao Zeng, Ye Pan, (参考訳) 音声による感情的な3D顔のアニメーションは、感情的に表現力のある会話ヘッドと、同調した唇の動きを生成することを目的としている。 しかし、以前の研究では、多様な感情が表情に与える影響を見逃したり、メタヒューマンモデルを動かすのに不向きであったりすることがしばしば見過ごされてきた。 そこで本研究では,感情動態を鮮明に表現した表情アニメーションを作成するための新しい音声駆動手法であるEmoFaceを紹介する。 提案手法では,複数の感情で表情を生成でき,唇の正確な同期を維持しつつ,ランダムだが自然な点滅や眼球運動を生成できる。 本研究では、音声、感情、および対応する顔制御装置の関係を学習するために、独立した音声エンコーダと感情エンコーダを提案し、最終的にコントローラ値のシーケンスにマップする。 さらに,特に点滅や眼球運動においてアニメーションの信頼性を高めるための2つのポストプロセッシング技術を紹介した。 さらに,メタヒューマンモデル操作に適した感情音声・視覚データの不足を認識し,各フレームに対する感情音声・視覚データセットと制御パラメータの導出に寄与する。 提案手法は、ビデオゲームにおける非プレイ可能な文字(NPC)の対話アニメーションの作成や、バーチャルリアリティ環境でのアバターの駆動に応用できる。 さらに定量的、質的な実験を行い、既存の研究と比較したユーザスタディにより、我々のアプローチは3D顔モデルを駆動する上で優れた結果を示すことが示された。 コードとサンプルデータはhttps://github.com/SJTU-Lucy/EmoFace.comで公開されている。

Audio-driven emotional 3D face animation aims to generate emotionally expressive talking heads with synchronized lip movements. However, previous research has often overlooked the influence of diverse emotions on facial expressions or proved unsuitable for driving MetaHuman models. In response to this deficiency, we introduce EmoFace, a novel audio-driven methodology for creating facial animations with vivid emotional dynamics. Our approach can generate facial expressions with multiple emotions, and has the ability to generate random yet natural blinks and eye movements, while maintaining accurate lip synchronization. We propose independent speech encoders and emotion encoders to learn the relationship between audio, emotion and corresponding facial controller rigs, and finally map into the sequence of controller values. Additionally, we introduce two post-processing techniques dedicated to enhancing the authenticity of the animation, particularly in blinks and eye movements. Furthermore, recognizing the scarcity of emotional audio-visual data suitable for MetaHuman model manipulation, we contribute an emotional audio-visual dataset and derive control parameters for each frames. Our proposed methodology can be applied in producing dialogues animations of non-playable characters (NPCs) in video games, and driving avatars in virtual reality environments. Our further quantitative and qualitative experiments, as well as an user study comparing with existing researches show that our approach demonstrates superior results in driving 3D facial models. The code and sample data are available at https://github.com/SJTU-Lucy/EmoFace.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# Case2Code: 合成データによる帰納的推論の学習

Case2Code: Learning Inductive Reasoning with Synthetic Data ( http://arxiv.org/abs/2407.12504v1 )

ライセンス: Link先を確認
Yunfan Shao, Linyang Li, Yichuan Ma, Peiji Li, Demin Song, Qinyuan Cheng, Shimin Li, Xiaonan Li, Pengyu Wang, Qipeng Guo, Hang Yan, Xipeng Qiu, Xuanjing Huang, Dahua Lin, (参考訳) 複雑な推論は、大きな言語モデル(LLM)によって示される印象的な能力である。 ほとんどのLCMは、難解なタスクをステップバイステップで解決するために、チェーン・オブ・ソート・プロンプトや反復的なツールなど、演能的な推論に熟練している。 本稿では, LLM の帰納的推論, すなわち LLM は実例や逐次的変換を観察することで, 基礎となるルールを推論することに集中して, 評価と教育を行おうとする。 しかし,大規模かつ多様な人為的なインダクティブデータの収集は困難である。 コード領域におけるデータ合成に焦点をあて,プログラムの表現性や正確性を活用して \textbf{Case2Code} タスクを提案する。 具体的には、多種多様な実行可能プログラムを収集し、各プログラムの入力出力変換を合成し、LLMに対して、合成I/Oケースに基づいて、基礎となるコード実装を推論するように強制する。 まず、合成したCase2Codeタスクにおける代表LLMを評価し、LLMにおいてケース・ツー・コード誘導が困難であることを実証する。 次に,大規模Case2Codeトレーニングサンプルを合成し,LLMを学習して帰納的推論を行う。 実験結果から,このような帰納的学習は配布だけでなく,学習用LLMの様々なコーディング能力の向上にも寄与し,合成データによる帰納的推論の学習の可能性を示している。

Complex reasoning is an impressive ability shown by large language models (LLMs). Most LLMs are skilled in deductive reasoning, such as chain-of-thought prompting or iterative tool-using to solve challenging tasks step-by-step. In this paper, we hope to focus on evaluating and teaching LLMs to conduct inductive reasoning, that is, LLMs are supposed to infer underlying rules by observing examples or sequential transformations. However, collecting large-scale and diverse human-generated inductive data is challenging. We focus on data synthesis in the code domain and propose a \textbf{Case2Code} task by exploiting the expressiveness and correctness of programs. Specifically, we collect a diverse set of executable programs, synthesize input-output transformations for each program, and force LLMs to infer the underlying code implementations based on the synthetic I/O cases. We first evaluate representative LLMs on the synthesized Case2Code task and demonstrate that the Case-to-code induction is challenging for LLMs. Then, we synthesize large-scale Case2Code training samples to train LLMs to perform inductive reasoning. Experimental results show that such induction training benefits not only in distribution Case2Code performance but also enhances various coding abilities of trained LLMs, demonstrating the great potential of learning inductive reasoning via synthetic data.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# 3次元多要素物理環境における準変分強化学習

Subequivariant Reinforcement Learning in 3D Multi-Entity Physical Environments ( http://arxiv.org/abs/2407.12505v1 )

ライセンス: Link先を確認
Runfa Chen, Ling Wang, Yu Du, Tianrui Xue, Fuchun Sun, Jianwei Zhang, Wenbing Huang, (参考訳) 3D環境における多元性システムの学習ポリシーは、エンティティの数が増加するにつれて、グローバルな状態空間が指数関数的に拡張されるため、単一元性シナリオに対してはるかに複雑である。 指数複雑性を緩和する潜在的な解決策の1つは、大域空間を変換や回転を含む変換に不変な独立局所ビューに分割することである。 そこで本研究では,多義性ポリシー学習を容易にするために,サブ平等な階層型ニューラルネットワーク(SHNN)を提案する。 特にSHNNは,まずグローバルスペースを,タスク割り当てを通じてローカルエンティティレベルのグラフに動的に分離する。 第二に、局所的な実体レベルグラフを渡る準変分メッセージを利用して、局所的な参照フレームを考案し、特に重力の影響のある環境で、表現の冗長性を著しく圧縮する。 さらに、ユークリッド対称性の下でのマルチエンタリティシステムの微妙さを捉える上で、既存のベンチマークの限界を克服するために、幅広いマルチエンタリティ強化学習のための新しい環境スイートであるMulti-entity Benchmark(MEBEN)を提案する。 大規模な実験は、既存の手法と比較して提案したベンチマークにおいて、SHNNの大幅な進歩を示している。 タスク割り当てとサブ平等の不必要性を検証するために、包括的改善を行う。

Learning policies for multi-entity systems in 3D environments is far more complicated against single-entity scenarios, due to the exponential expansion of the global state space as the number of entities increases. One potential solution of alleviating the exponential complexity is dividing the global space into independent local views that are invariant to transformations including translations and rotations. To this end, this paper proposes Subequivariant Hierarchical Neural Networks (SHNN) to facilitate multi-entity policy learning. In particular, SHNN first dynamically decouples the global space into local entity-level graphs via task assignment. Second, it leverages subequivariant message passing over the local entity-level graphs to devise local reference frames, remarkably compressing the representation redundancy, particularly in gravity-affected environments. Furthermore, to overcome the limitations of existing benchmarks in capturing the subtleties of multi-entity systems under the Euclidean symmetry, we propose the Multi-entity Benchmark (MEBEN), a new suite of environments tailored for exploring a wide range of multi-entity reinforcement learning. Extensive experiments demonstrate significant advancements of SHNN on the proposed benchmarks compared to existing methods. Comprehensive ablations are conducted to verify the indispensability of task assignment and subequivariance.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# 古典的および量子ニューラルネットワークを用いた問題単画素画像の分類と再構成

Classification and reconstruction of images in the problem single-pixel imaging using classical and quantum neural networks ( http://arxiv.org/abs/2407.12506v1 )

ライセンス: Link先を確認
Sofya Manko, Dmitriy Frolovtsev, (参考訳) シングルピクセルカメラは、可視スペクトルの外の光域に優れたソリューションとなり、機械学習と組み合わせることで、実用的な用途に十分な速度で画像を解析することができる。 未来の量子技術の発展において、量子コンピュータはそのような問題の解をさらに高速化することができる。 本研究では,MNIST手書き桁データセットの画像をオブジェクトとして用いた,Hadamardベースパターンを用いた一画素検出実験をシミュレーションした。 最大分散率(画像中の画素数の6\%)で64個の測定値が選択された。 我々は、古典的な完全連結ニューラルネットワークとパラメータ化量子回路を用いて、これらの測定に基づいて画像の分類と再構成を行うアルゴリズムを開発した。 古典的分類器と量子分類器は6つの訓練エポックの後にそれぞれ96 %と95 %の精度を示したが、これは非常に競合的な結果である。 画像再構成は、古典的ニューラルネットワークと量子ニューラルネットワークを用いて10の訓練後、それぞれ0.76と0.25という構造的類似度指数値を用いて実証された。

Single-pixel cameras can be an excellent solution for light ranges outside the visible spectrum, combined with machine learning, they can analyze images quickly enough for practical applications. In the future of the development of quantum technologies, quantum computers can further speed up the solution of such problems. In this work we simulated a single-pixel detection experiment using Hadamard basis patterns, where images from the MNIST handwritten digit dataset were used as objects. There were selected 64 measurements with maximum variance (6\% of the number of pixels in the image). We created algorithms for classifying and reconstruction images based on these measurements using classical fully connected neural networks and parameterized quantum circuits. Classical and quantum classifiers showed accuracies of 96\% and 95\% respectively after 6 training epochs, which is quite competitive result. Image reconstruction was also demonstrated using classical and quantum neural networks after 10 training epochs, the structural similarity index values were 0.76 and 0.25, respectively, which indicates that the problem in such a formulation turned out to be too difficult for quantum neural networks in such a configuration for now.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# MERLIN:LLMを用いたテキスト・ビデオ検索・参照パイプラインの反復ナビゲーションによるマルチモーダル・エンベディング・リファインメント

MERLIN: Multimodal Embedding Refinement via LLM-based Iterative Navigation for Text-Video Retrieval-Rerank Pipeline ( http://arxiv.org/abs/2407.12508v1 )

ライセンス: Link先を確認
Donghoon Han, Eunhwan Park, Gisang Lee, Adam Lee, Nojun Kwak, (参考訳) マルチメディアコンテンツの急速な拡大は、大規模なコレクションから関連ビデオの正確な検索を困難にしている。 テキストビデオ検索の最近の進歩は、クロスモーダルなインタラクション、大規模な基礎モデルトレーニング、確率的モデリングに重点を置いているが、重要なユーザ視点を無視することが多いため、ユーザクエリと検索したコンテンツとの相違が生じている。 そこで本研究では,MERLIN (Multimodal Embedding Refinement via LLM-based Iterative Navigation)を導入した。 MERLINは、クエリの埋め込みをユーザの視点から洗練し、動的質問応答プロセスを通じて、クエリとビデオコンテンツのアライメントを強化する。 MSR-VTT、MSVD、ActivityNetなどのデータセットによる実験結果から、MERLINはRecall@1を大幅に改善し、既存のシステムより優れ、LLMをマルチモーダル検索システムに統合することで、より応答性が高く、コンテキスト対応のマルチメディア検索の利点を確認している。

The rapid expansion of multimedia content has made accurately retrieving relevant videos from large collections increasingly challenging. Recent advancements in text-video retrieval have focused on cross-modal interactions, large-scale foundation model training, and probabilistic modeling, yet often neglect the crucial user perspective, leading to discrepancies between user queries and the content retrieved. To address this, we introduce MERLIN (Multimodal Embedding Refinement via LLM-based Iterative Navigation), a novel, training-free pipeline that leverages Large Language Models (LLMs) for iterative feedback learning. MERLIN refines query embeddings from a user perspective, enhancing alignment between queries and video content through a dynamic question answering process. Experimental results on datasets like MSR-VTT, MSVD, and ActivityNet demonstrate that MERLIN substantially improves Recall@1, outperforming existing systems and confirming the benefits of integrating LLMs into multimodal retrieval systems for more responsive and context-aware multimedia retrieval.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# ニューラルインシシシト表現による高速コンテキストベース低光画像強調

Fast Context-Based Low-Light Image Enhancement via Neural Implicit Representations ( http://arxiv.org/abs/2407.12511v1 )

ライセンス: Link先を確認
Tomáš Chobola, Yu Liu, Hanyi Zhang, Julia A. Schnabel, Tingying Peng, (参考訳) 現在のディープラーニングベースの低照度画像強調手法は、高解像度画像に苦しむことが多く、多様な、目に見えないシナリオにまたがる視覚的知覚の現実的な要求を満たすことができない。 本稿では,未公開画像の2次元座標をその照明成分にマッピングすることで,局所的文脈で条件付きで拡張過程を再定義する,CoLIEという新しいアプローチを提案する。 本稿では,暗黙的ニューラル関数と組込み誘導フィルタを組み合わせることで,HSV空間内の強調光画像の再構成を行い,計算オーバーヘッドを大幅に低減する。 さらに,画像に基づくトレーニング損失関数を導入し,各種シーンへの適応性を向上し,実用性を高める。 厳密な評価を通じて,提案するフレームワークの特性を分析し,画質とシーン適応性の両方において優位性を示す。 さらに,我々の評価は,低照度シナリオにおける下流タスクの応用にまで拡張され,COLIEの実用性が強調される。 ソースコードはhttps://github.com/ctom2/colie.comで入手できる。

Current deep learning-based low-light image enhancement methods often struggle with high-resolution images, and fail to meet the practical demands of visual perception across diverse and unseen scenarios. In this paper, we introduce a novel approach termed CoLIE, which redefines the enhancement process through mapping the 2D coordinates of an underexposed image to its illumination component, conditioned on local context. We propose a reconstruction of enhanced-light images within the HSV space utilizing an implicit neural function combined with an embedded guided filter, thereby significantly reducing computational overhead. Moreover, we introduce a single image-based training loss function to enhance the model's adaptability to various scenes, further enhancing its practical applicability. Through rigorous evaluations, we analyze the properties of our proposed framework, demonstrating its superiority in both image quality and scene adaptability. Furthermore, our evaluation extends to applications in downstream tasks within low-light scenarios, underscoring the practical utility of CoLIE. The source code is available at https://github.com/ctom2/colie.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# $\textit{GeoHard}$: クラスセマンティックスをモデル化してクラスのハードネスを測定する

$\textit{GeoHard}$: Towards Measuring Class-wise Hardness through Modelling Class Semantics ( http://arxiv.org/abs/2407.12512v1 )

ライセンス: Link先を確認
Fengyu Cai, Xinran Zhao, Hongming Zhang, Iryna Gurevych, Heinz Koeppl, (参考訳) 低リソースシナリオにおけるサンプル選択におけるデータガイド言語モデルの硬度ワイド特性測定の最近の進歩 しかし、クラス固有のプロパティはタスクの設定と学習のために見過ごされている。 これらの特性はモデル学習にどのように影響し、データセット間で一般化可能か? この質問に答えるために、この研究は$\textit{class-wise hardness}$という概念を正式に開始する。 8つの自然言語理解(NLU)データセットに対する実験は、学習パラダイム、モデル、人間の判断にまたがる一貫した硬さ分布を示す。 その後の実験では、そのようなクラスレベルの硬さを以前の研究でインスタンスレベルのメトリクスで測定する上で、顕著な課題が明らかにされた。 これを解決するために,クラス幾何学をセマンティック埋め込み空間内でモデル化することにより,クラスワイド硬度測定のための$\textit{GeoHard}$を提案する。 $\textit{GeoHard}$は、$\textit{Pearson}$でインスタンスレベルのメトリクスを59%以上超えます。 我々の分析は、データ診断の新しい視点として$\textit{GeoHard}$の一般化を理論的に実証的に裏付けている。 さらに,授業の難易度を理解することが,タスク学習の改善に有効であることを示す。

Recent advances in measuring hardness-wise properties of data guide language models in sample selection within low-resource scenarios. However, class-specific properties are overlooked for task setup and learning. How will these properties influence model learning and is it generalizable across datasets? To answer this question, this work formally initiates the concept of $\textit{class-wise hardness}$. Experiments across eight natural language understanding (NLU) datasets demonstrate a consistent hardness distribution across learning paradigms, models, and human judgment. Subsequent experiments unveil a notable challenge in measuring such class-wise hardness with instance-level metrics in previous works. To address this, we propose $\textit{GeoHard}$ for class-wise hardness measurement by modeling class geometry in the semantic embedding space. $\textit{GeoHard}$ surpasses instance-level metrics by over 59 percent on $\textit{Pearson}$'s correlation on measuring class-wise hardness. Our analysis theoretically and empirically underscores the generality of $\textit{GeoHard}$ as a fresh perspective on data diagnosis. Additionally, we showcase how understanding class-wise hardness can practically aid in improving task learning.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# プレトレーニング埋め込みを用いた初期化変圧器について

On Initializing Transformers with Pre-trained Embeddings ( http://arxiv.org/abs/2407.12514v1 )

ライセンス: Link先を確認
Ha Young Kim, Niranjan Balasubramanian, Byungkon Kang, (参考訳) トランスフォーマーベースのモデルをスクラッチからトレーニングする場合、事前訓練された埋め込みよりもランダム初期化スキームを使うのが一般的になっている。 実際、GloVeから事前学習した単語埋め込みや、T5やmT5などの言語モデルから抽出したサブワード埋め込みは、ランダム初期化よりもはるかに悪い。 これは、プレトレーニングのよく知られた表現的および伝達学習の利点を考えると、直感に反する。 興味深いことに、BERTとmBERTの埋め込みはランダムな初期化よりも優れており、事前訓練された表現の利点を示している。 本研究では、パラメータ分布に対するモデル感度と位置符号化との埋め込み相互作用という、これらの混合結果に寄与する2つのポテンシャル因子を仮定する。 事前学習したGloVe,T5,mT5の埋め込みはより広い値分布を持つ。 初期化研究で論じられているように、そのような大きな値の初期化は飽和出力のために訓練が不十分になる可能性がある。 さらに、より大きな埋め込み値が付加されると、より小さな位置符号化値を吸収し、位置情報が失われる。 訓練済みの埋め込みを(例えばザビエルが定めるような)狭い範囲に標準化することは、Glove、T5、mT5の埋め込みにかなりの利益をもたらす。 一方、BERTの事前学習された埋め込みは大きいが、Xavierの初期化範囲にはまだ比較的近いため、事前学習された知識を効果的に伝達することができる。

It has become common practice now to use random initialization schemes, rather than the pre-trained embeddings, when training transformer based models from scratch. Indeed, we find that pre-trained word embeddings from GloVe, and some sub-word embeddings extracted from language models such as T5 and mT5 fare much worse compared to random initialization. This is counter-intuitive given the well-known representational and transfer-learning advantages of pre-training. Interestingly, we also find that BERT and mBERT embeddings fare better than random initialization, showing the advantages of pre-trained representations. In this work, we posit two potential factors that contribute to these mixed results: the model sensitivity to parameter distribution and the embedding interactions with position encodings. We observe that pre-trained GloVe, T5, and mT5 embeddings have a wider distribution of values. As argued in the initialization studies, such large value initializations can lead to poor training because of saturated outputs. Further, the larger embedding values can, in effect, absorb the smaller position encoding values when added together, thus losing position information. Standardizing the pre-trained embeddings to a narrow range (e.g. as prescribed by Xavier) leads to substantial gains for Glove, T5, and mT5 embeddings. On the other hand, BERT pre-trained embeddings, while larger, are still relatively closer to Xavier initialization range which may allow it to effectively transfer the pre-trained knowledge.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# ニューロモルフィックスパイキングニューラルネットワークのオンライン擬似ゼロ階学習

Online Pseudo-Zeroth-Order Training of Neuromorphic Spiking Neural Networks ( http://arxiv.org/abs/2407.12516v1 )

ライセンス: Link先を確認
Mingqing Xiao, Qingyan Meng, Zongpeng Zhang, Di He, Zhouchen Lin, (参考訳) スパイクニューラルネットワーク(SNN)を用いた脳誘発ニューロモルフィックコンピューティングは、有望なエネルギー効率の計算手法である。 しかし、より生物学的に可塑性でニューロモルフィックなハードウェアに優しい方法でSNNを訓練することに成功したことは、依然として困難である。 最近の手法では、空間的および時間的バックプロパゲーション(BP)を利用しており、ニューロモルフィックの性質に固執していない。 いくつかのオンライントレーニング手法の努力にもかかわらず、空間BPに匹敵する性能を持つ代替品による空間クレジットの割り当てに対処することは重要な問題である。 本研究では,オンライン擬似ゼロオーダートレーニング(OPZO)を提案する。 本手法では,空間的BPの対称重み問題を回避するため,ノイズ注入による一方向伝搬と直接トップダウン信号のみを必要とする。 OPZOは、擬ゼロ階法と運動量フィードバック接続によるゼロ階法の大規模な分散問題を、ランダムなフィードバックよりも高い保証を持ちながら解決する。 オンライントレーニングを組み合わせることで、OPZOはオンチップSNNトレーニングへのパスを舗装することができる。 完全連結および畳み込みネットワークを用いたニューロモルフィックおよび静的データセットの実験は、空間BPと同等の性能を持つOPZOの有効性と、推定された低トレーニングコストを示す。

Brain-inspired neuromorphic computing with spiking neural networks (SNNs) is a promising energy-efficient computational approach. However, successfully training SNNs in a more biologically plausible and neuromorphic-hardware-friendly way is still challenging. Most recent methods leverage spatial and temporal backpropagation (BP), not adhering to neuromorphic properties. Despite the efforts of some online training methods, tackling spatial credit assignments by alternatives with comparable performance as spatial BP remains a significant problem. In this work, we propose a novel method, online pseudo-zeroth-order (OPZO) training. Our method only requires a single forward propagation with noise injection and direct top-down signals for spatial credit assignment, avoiding spatial BP's problem of symmetric weights and separate phases for layer-by-layer forward-backward propagation. OPZO solves the large variance problem of zeroth-order methods by the pseudo-zeroth-order formulation and momentum feedback connections, while having more guarantees than random feedback. Combining online training, OPZO can pave paths to on-chip SNN training. Experiments on neuromorphic and static datasets with fully connected and convolutional networks demonstrate the effectiveness of OPZO with similar performance compared with spatial BP, as well as estimated low training costs.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# 気候ダウンスケーリングのためのディープラーニングモデルの伝達可能性の評価

Evaluating the transferability potential of deep learning models for climate downscaling ( http://arxiv.org/abs/2407.12517v1 )

ライセンス: Link先を確認
Ayush Prasad, Paula Harder, Qidong Yang, Prasanna Sattegeri, Daniela Szwarcman, Campbell Watson, David Rolnick, (参考訳) 低分解能シミュレーションから高分解能な気候データを生成するプロセスである気候ダウンスケーリングは、地域や地域規模での気候変動の理解と適応に不可欠である。 ディープラーニングアプローチは、この問題に対処するのに有用であることが証明されている。 しかし、既存の研究は通常、ある特定のタスク、場所、変数のトレーニングモデルに焦点を合わせており、従って一般化可能性や伝達可能性に制限がある。 本稿では,多種多様な気候データセット上での深層学習ダウンスケーリングモデルのトレーニングの有効性を評価し,より堅牢で伝達可能な表現を学習する。 CNN, フーリエニューラル演算子 (FNO) , ビジョン変換器 (ViT) を用いたゼロショット転送性能の評価を行った。 ダウンスケーリングモデルの空間的, 変動的, 製品移動可能性について実験的に評価し, これらの異なるアーキテクチャの一般化可能性について考察する。

Climate downscaling, the process of generating high-resolution climate data from low-resolution simulations, is essential for understanding and adapting to climate change at regional and local scales. Deep learning approaches have proven useful in tackling this problem. However, existing studies usually focus on training models for one specific task, location and variable, which are therefore limited in their generalizability and transferability. In this paper, we evaluate the efficacy of training deep learning downscaling models on multiple diverse climate datasets to learn more robust and transferable representations. We evaluate the effectiveness of architectures zero-shot transferability using CNNs, Fourier Neural Operators (FNOs), and vision Transformers (ViTs). We assess the spatial, variable, and product transferability of downscaling models experimentally, to understand the generalizability of these different architecture types.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# 歩行認識のための3つの領域における因果性にインスパイアされた識別的特徴学習

Causality-inspired Discriminative Feature Learning in Triple Domains for Gait Recognition ( http://arxiv.org/abs/2407.12519v1 )

ライセンス: Link先を確認
Haijun Xiong, Bin Feng, Xinggang Wang, Wenyu Liu, (参考訳) 歩行認識は、歩行パターンによって個人を識別する生体計測技術である。 しかし, 従来の手法では, 非同一性手がかりに絡まってしまうことが多いため, 識別特徴を正確に抽出する際の課題に直面していた。 この課題に対処するために、三重ドメイン、シャイ、空間、時間、スペクトルにおける共同創設者の影響を効果的に排除するために、因果性に着想を得た特徴学習モジュールであるCLTDを提案する。 具体的には、Cross Pixel-wise Attention Generator (CPAG)を用いて、空間的および時間的領域における実物的特徴と反物的特徴の注意分布を生成する。 次に、FPH(Fourier Projection Head)を導入し、空間的特徴をスペクトル空間に投影し、計算コストを低減しつつ重要な情報を保存する。 さらに、コントラスト学習を用いた最適化手法を用いて、同一主題からのシーケンス間の意味的一貫性の制約を強制する。 当社のアプローチは、データセットに挑戦する上で大幅なパフォーマンス向上を示し、その効果を実証しています。 さらに、既存の歩行認識手法にシームレスに統合することができる。

Gait recognition is a biometric technology that distinguishes individuals by their walking patterns. However, previous methods face challenges when accurately extracting identity features because they often become entangled with non-identity clues. To address this challenge, we propose CLTD, a causality-inspired discriminative feature learning module designed to effectively eliminate the influence of confounders in triple domains, \ie, spatial, temporal, and spectral. Specifically, we utilize the Cross Pixel-wise Attention Generator (CPAG) to generate attention distributions for factual and counterfactual features in spatial and temporal domains. Then, we introduce the Fourier Projection Head (FPH) to project spatial features into the spectral space, which preserves essential information while reducing computational costs. Additionally, we employ an optimization method with contrastive learning to enforce semantic consistency constraints across sequences from the same subject. Our approach has demonstrated significant performance improvements on challenging datasets, proving its effectiveness. Moreover, it can be seamlessly integrated into existing gait recognition methods.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# Struct-X: 構造化データを用いた大規模言語モデルの強化

Struct-X: Enhancing Large Language Models Reasoning with Structured Data ( http://arxiv.org/abs/2407.12522v1 )

ライセンス: Link先を確認
Xiaoyu Tan, Haoyu Wang, Xihe Qiu, Yuan Cheng, Yinghui Xu, Wei Chu, Yuan Qi, (参考訳) 論理的および関係的な情報に富んだ構造化データは、大規模言語モデル(LLM)の推論能力を高める可能性がある。 それでもその統合は、過剰なトークンと無関係なコンテキスト情報を持つ圧倒的なLLMのリスクのため、課題となる。 そこで本研究では,LLMを効率よく活用できる「read-model-fill-reflect-reason'」という,5つの重要なフェーズを通した新しいフレームワークであるStruct-Xを提案する。 まず、構造化されたデータをグラフ埋め込みを使ってトポロジ空間にエンコードし、その後、知識検索モジュールで欠落したエンティティ情報を埋め込み、自己管理モジュールを通じて無関係なトークンをフィルタリングする。 最終フェーズでは、より効果的なLLM推論のために、トークン全体の長さをさらに削減するために、選択されたトークンを持つトポロジネットワークを構築する。 さらに、Struct-Xには、プロンプトを生成するために訓練された補助モジュールが含まれており、構造化データの解析においてLLMを支援する。 知識グラフ質問応答タスクや長い文書読解タスクなどのベンチマーク実験により、Struct-XはLLM推論を顕著に改善し、複雑な入力コンテキストによるLLM推論の改善における構造化データ拡張の有効性を示した。

Structured data, rich in logical and relational information, has the potential to enhance the reasoning abilities of large language models (LLMs). Still, its integration poses a challenge due to the risk of overwhelming LLMs with excessive tokens and irrelevant context information. To address this, we propose Struct-X, a novel framework that operates through five key phases: ``read-model-fill-reflect-reason'' efficiently enabling LLMs to utilize structured data. It begins by encoding structured data into a topological space using graph embeddings, followed by filling in missing entity information with knowledge retrieval modules, and filtering out irrelevant tokens via a self-supervised module. The final phase involves constructing a topological network with selected tokens to further reduce the total token length for more effective LLM inference. Additionally, Struct-X includes an Auxiliary Module trained to generate prompts, aiding LLMs in analyzing structured data. Extensive experiments on benchmarks, including the knowledge graph question-answer task and the long document reading comprehension task, show that Struct-X notably improves LLM reasoning, demonstrating the effectiveness of structured data augmentation in improving LLM inference with complex input context.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# 線形構造因果モデルにおける同定の複雑さについて

On the Complexity of Identification in Linear Structural Causal Models ( http://arxiv.org/abs/2407.12528v1 )

ライセンス: Link先を確認
Julian Dörfler, Benito van der Zander, Markus Bläser, Maciej Liskiewicz, (参考訳) 線形構造因果モデルの未知因果パラメータを学習することは因果解析の基本的な課題である。 同定問題として知られるこのタスクは、モデルのグラフィカルな構造に関する仮定と、非因果共分散行列として表される観測データの組み合わせからモデルのパラメータを推定する。 本稿では,多項式空間で動作する一般化同定のための,新しい音響および完全アルゴリズムを提案する。 標準的なシミュレーション結果から,このアルゴリズムは,Gr\"オブナーベースアプローチを用いて,最先端の2次指数時間法を大幅に改善する指数実行時間を持つ。 また,パラメータ同定が一般に困難であることを示す。 特に、与えられた実現可能な相関行列に対して、観測された行列を説明するパラメータセットが1つ以上存在するかどうかを問うタスクは、実数の存在論的理論の共クラスである$\forall R$に対して難しいことを証明している。 特に、この問題は$coNP$-hardである。 私たちの知る限りでは、これは識別可能性の概念に対する最初の難しさの結果です。

Learning the unknown causal parameters of a linear structural causal model is a fundamental task in causal analysis. The task, known as the problem of identification, asks to estimate the parameters of the model from a combination of assumptions on the graphical structure of the model and observational data, represented as a non-causal covariance matrix. In this paper, we give a new sound and complete algorithm for generic identification which runs in polynomial space. By standard simulation results, this algorithm has exponential running time which vastly improves the state-of-the-art double exponential time method using a Gr\"obner basis approach. The paper also presents evidence that parameter identification is computationally hard in general. In particular, we prove, that the task asking whether, for a given feasible correlation matrix, there are exactly one or two or more parameter sets explaining the observed matrix, is hard for $\forall R$, the co-class of the existential theory of the reals. In particular, this problem is $coNP$-hard. To our best knowledge, this is the first hardness result for some notion of identifiability.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# パスを作る - 情報検索のためのロバストなクエリ書き換え

Crafting the Path: Robust Query Rewriting for Information Retrieval ( http://arxiv.org/abs/2407.12529v1 )

ライセンス: Link先を確認
Ingeol Baek, Jimin Lee, Joonho Yang, Hwanhee Lee, (参考訳) クエリの書き直しは、元のクエリを補完して情報検索システムを改善する新しいクエリを生成することを目的としている。 クエリ2doc(Q2D)、Query2expand(Q2E)、querey2cot(Q2C)などのクエリ書き換えに関する最近の研究は、クエリに情報を追加するための関連するパスを生成するために、Large Language Models(LLM)の内部知識に依存している。 それでも、これらの方法論の有効性は、モデル固有のパラメータに必須知識がカプセル化されていない場合において著しく低下する可能性がある。 本稿では,検索システム用に最適化された Crafting the Path という,構造化されたクエリ書き換え手法を提案する。 Pathを作るには3段階のプロセスが必要で、各ステップで検索されるパスを見つけるのに必要なクエリ関連情報を作成する。 具体的には、Crafting the PathはQuery Concept Comprehensionから始まり、Query Type Identificationに進み、最後に期待されたAnswer extractを実行する。 実験結果から,本手法は従来の書き直し手法,特にLLMの慣れ親しみのない領域において,優れた性能を示した。 本研究では,本手法がモデルの内部パラメータの知識に依存せず,事実的不正確なクエリを生成することを示す。 さらに,工法が基本ラインよりもレイテンシが低いことも確認した。

Query rewriting aims to generate a new query that can complement the original query to improve the information retrieval system. Recent studies on query rewriting, such as query2doc (Q2D), query2expand (Q2E) and querey2cot (Q2C), rely on the internal knowledge of Large Language Models (LLMs) to generate a relevant passage to add information to the query. Nevertheless, the efficacy of these methodologies may markedly decline in instances where the requisite knowledge is not encapsulated within the model's intrinsic parameters. In this paper, we propose a novel structured query rewriting method called Crafting the Path tailored for retrieval systems. Crafting the Path involves a three-step process that crafts query-related information necessary for finding the passages to be searched in each step. Specifically, the Crafting the Path begins with Query Concept Comprehension, proceeds to Query Type Identification, and finally conducts Expected Answer Extraction. Experimental results show that our method outperforms previous rewriting methods, especially in less familiar domains for LLMs. We demonstrate that our method is less dependent on the internal parameter knowledge of the model and generates queries with fewer factual inaccuracies. Furthermore, we observe that Crafting the Path has less latency compared to the baselines.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# コラボレーションインテリジェンスに向けて:大規模言語モデルを用いた多エージェントコーディネートのための意図と推論

Towards Collaborative Intelligence: Propagating Intentions and Reasoning for Multi-Agent Coordination with Large Language Models ( http://arxiv.org/abs/2407.12532v1 )

ライセンス: Link先を確認
Xihe Qiu, Haoyu Wang, Xiaoyu Tan, Chao Qu, Yujie Xiong, Yuan Cheng, Yinghui Xu, Wei Chu, Yuan Qi, (参考訳) マルチエージェントシステムにおける効果的なコラボレーションには、エージェント間の目標と意図のコミュニケーションが必要である。 現在のエージェントフレームワークは、シングルエージェント実行への依存に悩まされ、モジュール間通信の堅牢さが欠如していることが多く、しばしば準最適マルチエージェント強化学習(MARL)ポリシーやタスク調整の不十分につながる。 これらの課題に対処するために、協調的MARLにおける協調行動を可能にするための協調エージェントとして、大規模言語モデル(LLM)を訓練するためのフレームワークを提案する。 各エージェントは、現在の目標と関連するサブタスクからなるプライベートな意図を維持している。 エージェントはその意図を定期的に放送し、他のエージェントが調整タスクを推測できるようにした。 伝搬ネットワークは、放送意図をチームメイト固有のコミュニケーションメッセージに変換し、指定されたチームメイトと関連する目標を共有する。 フレームワークのアーキテクチャは、計画、接地、実行モジュールで構成されています。 実行中、複数のエージェントが下流の環境で相互作用し、意図を伝えることで協調的な動作を可能にする。 グラウンドモジュールは、新しい調整パターンに基づいた理解戦略を動的に適用し、実行エージェントからのフィードバックは計画モジュールに影響し、サブタスクの動的再計画を可能にする。 協調環境シミュレーションの結果は、エージェント間のサブタスク依存性の整合によって、意図的伝搬が誤調整誤差を低減することを示した。 エージェントはいつ意図を伝えるか、どのチームメイトがタスクの詳細を必要とするかを学ぶ。 LLMを用いた協調型マルチエージェントRLにおける意図共有の有効性を示す。

Effective collaboration in multi-agent systems requires communicating goals and intentions between agents. Current agent frameworks often suffer from dependencies on single-agent execution and lack robust inter-module communication, frequently leading to suboptimal multi-agent reinforcement learning (MARL) policies and inadequate task coordination. To address these challenges, we present a framework for training large language models (LLMs) as collaborative agents to enable coordinated behaviors in cooperative MARL. Each agent maintains a private intention consisting of its current goal and associated sub-tasks. Agents broadcast their intentions periodically, allowing other agents to infer coordination tasks. A propagation network transforms broadcast intentions into teammate-specific communication messages, sharing relevant goals with designated teammates. The architecture of our framework is structured into planning, grounding, and execution modules. During execution, multiple agents interact in a downstream environment and communicate intentions to enable coordinated behaviors. The grounding module dynamically adapts comprehension strategies based on emerging coordination patterns, while feedback from execution agents influnces the planning module, enabling the dynamic re-planning of sub-tasks. Results in collaborative environment simulation demonstrate intention propagation reduces miscoordination errors by aligning sub-task dependencies between agents. Agents learn when to communicate intentions and which teammates require task details, resulting in emergent coordinated behaviors. This demonstrates the efficacy of intention sharing for cooperative multi-agent RL based on LLMs.
翻訳日:2024-07-18 17:17:27 公開日:2024-07-17
# VC証明書型効率的なTLS 1.3ハンドシェイクプロトコル

An Efficient TLS 1.3 Handshake Protocol with VC Certificate Type ( http://arxiv.org/abs/2407.12536v1 )

ライセンス: Link先を確認
Leonardo Perugini, Andrea Vesco, (参考訳) 本稿では,RFC-8446の完全準拠を維持しつつ,TLS 1.3のセキュリティ機能をすべて保持しつつ,検証認証(VC)の使用を可能にするトランスポート層セキュリティ(TLS)ハンドシェイクプロトコルの設計と実装について述べる。 これまでの作業に対する改善はハンドシェイク設計にある。TLS 1.3ですでに定義されているメッセージのみを使用するようになった。 設計はOpenSSLライブラリの変更を最小限にし、VCや分散IDentifier関連の操作を扱うための新しい外部プロバイダに依存しています。 実験結果は、設計の実現可能性を示し、PKIおよびX.509証明書に基づく元のソリューションに匹敵する性能を示した。 これらの結果は、大規模なIoTシステムでセルフソブリンIDを採用するための道を開くもので、ID管理コストの削減という面で明らかなメリットがある。

The paper presents a step forward in the design and implementation of a Transport Layer Security (TLS) handshake protocol that enables the use of Verifiable Credential (VC) while maintaining full compliance with RFC-8446 and preserving all the security features of TLS 1.3. The improvement over our previous work lies in the handshake design, which now only uses messages already defined for TLS 1.3. The design has an incredibly positive impact on the implementation, as we made minimal changes to the OpenSSL library and relied mostly on a novel external provider to handle VC and Decentralized IDentifier related operations. The experimental results prove the feasibility of the design and show comparable performance to the original solution based on PKI and X.509 certificates. These results pave the way for the adoption of Self-Sovereign Identity in large-scale IoT systems, with a clear benefit in terms of reducing the cost of identity management.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# 高周波:ウェーブレット拡散による不確かさ誘導画像圧縮

High Frequency Matters: Uncertainty Guided Image Compression with Wavelet Diffusion ( http://arxiv.org/abs/2407.12538v1 )

ライセンス: Link先を確認
Juan Song, Jiaxiang He, Mingtao Feng, Keyan Wang, Yunsong Li, Ajmal Mian, (参考訳) 拡散確率モデルは近年,高品質な画像の生成において顕著な成功を収めている。 しかし、画像圧縮アプリケーションでは、高い知覚品質と低歪みのバランスが依然として困難である。 この問題に対処するために,ウェーブレット拡散(UGDiff)を用いた効率の良い不確実性誘導画像圧縮手法を提案する。 本稿では,ウェーブレット変換による高周波圧縮に着目した。 本稿では、高周波予測のためのウェーブレット条件拡散モデルを導入し、次いでデコーダに残差を圧縮し送信する残差コーデックを提案する。 この拡散予測残差圧縮パラダイムは、既存の拡散モデルによる直接再構成に共通する低忠実度問題に効果的に対処する。 拡散モデルのランダムサンプリングからの不確実性を考えると、残留圧縮に適した不確実性重み付き速度歪み(R-D)損失を設計し、速度と歪みのより合理的なトレードオフを与える。 2つのベンチマークデータセットの総合的な実験により、R-Dパフォーマンス、知覚品質、主観的品質、推測時間における最先端の画像圧縮手法を超越したUGDiffの有効性が検証された。 私たちのコードは、https://github.com/hejiaxiang1/Wavelet-Diffusion/tree/mainで利用可能です。

Diffusion probabilistic models have recently achieved remarkable success in generating high-quality images. However, balancing high perceptual quality and low distortion remains challenging in image compression applications. To address this issue, we propose an efficient Uncertainty-Guided image compression approach with wavelet Diffusion (UGDiff). Our approach focuses on high frequency compression via the wavelet transform, since high frequency components are crucial for reconstructing image details. We introduce a wavelet conditional diffusion model for high frequency prediction, followed by a residual codec that compresses and transmits prediction residuals to the decoder. This diffusion prediction-then-residual compression paradigm effectively addresses the low fidelity issue common in direct reconstructions by existing diffusion models. Considering the uncertainty from the random sampling of the diffusion model, we further design an uncertainty-weighted rate-distortion (R-D) loss tailored for residual compression, providing a more rational trade-off between rate and distortion. Comprehensive experiments on two benchmark datasets validate the effectiveness of UGDiff, surpassing state-of-the-art image compression methods in R-D performance, perceptual quality, subjective quality, and inference time. Our code is available at: https://github.com/hejiaxiang1/Wavelet-Diffusion/tree/main
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# データ同化による大気汚染の正確なマッピングのための協調的マルチエージェントRL

Navigating the Smog: A Cooperative Multi-Agent RL for Accurate Air Pollution Mapping through Data Assimilation ( http://arxiv.org/abs/2407.12539v1 )

ライセンス: Link先を確認
Ichrak Mokhtari, Walid Bechkit, Mohamed Sami Assenine, Hervé Rivano, (参考訳) 大気汚染の急激な増加は、情報緩和戦略のための正確なリアルタイムモニタリングを必要とする。 データ同化法(DA)は有望な解を提供するが、その有効性は最適な測定位置に大きく依存する。 本稿では,MARL(Multi-Adnt reinforcement Learning)フレームワークによって誘導される自律型ドローンが,空飛ぶ探偵として機能する,空気質マッピングの新しい手法を提案する。 静的センサーネットワークの限界を減らし、ドローンは相乗的相互作用を行い、飛行経路をリアルタイムで調整し、データ同化(DA)のための最適なデータを集める。 提案手法では, 動的信用代入による報酬関数を用いて, 地上の真理データを必要とせず, ドローンによる情報計測の優先順位付けが可能であり, 実世界の展開に有効である。 実世界のデータセットを用いた大規模な実験では、ドローンの資源が限られているり、汚染の事前知識が限られていたりしても、我々のソリューションは大気汚染の見積もりを大幅に改善することを示した。 空気の質以外にも、このソリューションは、スケーラブルで自律的なドローンの協力を通じて、山火事の検出や管理といった多様な環境問題に対処する可能性がある。

The rapid rise of air pollution events necessitates accurate, real-time monitoring for informed mitigation strategies. Data Assimilation (DA) methods provide promising solutions, but their effectiveness hinges heavily on optimal measurement locations. This paper presents a novel approach for air quality mapping where autonomous drones, guided by a collaborative multi-agent reinforcement learning (MARL) framework, act as airborne detectives. Ditching the limitations of static sensor networks, the drones engage in a synergistic interaction, adapting their flight paths in real time to gather optimal data for Data Assimilation (DA). Our approach employs a tailored reward function with dynamic credit assignment, enabling drones to prioritize informative measurements without requiring unavailable ground truth data, making it practical for real-world deployments. Extensive experiments using a real-world dataset demonstrate that our solution achieves significantly improved pollution estimates, even with limited drone resources or limited prior knowledge of the pollution plume. Beyond air quality, this solution unlocks possibilities for tackling diverse environmental challenges like wildfire detection and management through scalable and autonomous drone cooperation.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# 弾性率演算のための高速ハードウェアアルゴリズムとその素数計算への応用

A High-Speed Hardware Algorithm for Modulus Operation and its Application in Prime Number Calculation ( http://arxiv.org/abs/2407.12541v1 )

ライセンス: Link先を確認
W. A. Susantha Wijesinghe, (参考訳) 本稿ではFPGA実装のためのモジュラー演算のための新しい高速ハードウェアアルゴリズムを提案する。 提案アルゴリズムは加算・減算・論理・ビットシフト演算のみを用い,乗算・除算に伴う複雑さとハードウェアコストを回避する。 32ビットから2048ビットまでのオペランドサイズで一貫したパフォーマンスを示し、暗号アプリケーションにおけるスケーラビリティの課題に対処する。 Verilog HDLで実装され、Xilinx Zynq-7000ファミリーFPGA上でテストされ、このアルゴリズムはビット長差(BLD)を伴うサイクルカウントの予測可能な線形スケーリングを示す。 このアルゴリズムを50,000までの素数計算に適用すると、実用性と性能上の利点が示される。 総合的な評価では、効率的な資源利用、堅牢なタイミング性能、効率的な電力管理が示され、高性能で資源に制約のあるプラットフォームに適している。 その結果、提案アルゴリズムは、暗号プロトコルやセキュアコンピューティングに潜在的な影響を伴って、モジュラー演算の効率を大幅に向上することが示された。

This paper presents a novel high-speed hardware algorithm for the modulus operation for FPGA implementation. The proposed algorithm use only addition, subtraction, logical, and bit shift operations, avoiding the complexities and hardware costs associated with multiplication and division. It demonstrates consistent performance across operand sizes ranging from 32-bit to 2048-bit, addressing scalability challenges in cryptographic applications. Implemented in Verilog HDL and tested on a Xilinx Zynq-7000 family FPGA, the algorithm shows a predictable linear scaling of cycle count with bit length difference (BLD), described by the equation $y=2x+2$, where $y$ represents the cycle count and $x$ represents the BLD. The application of this algorithm in prime number calculation up to 500,000 shows its practical utility and performance advantages. Comprehensive evaluations reveal efficient resource utilization, robust timing performance, and effective power management, making it suitable for high-performance and resource-constrained platforms. The results indicate that the proposed algorithm significantly improves the efficiency of modular arithmetic operations, with potential implications for cryptographic protocols and secure computing.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# 抽象アライメント:モデルと人間の概念的関係の比較

Abstraction Alignment: Comparing Model and Human Conceptual Relationships ( http://arxiv.org/abs/2407.12543v1 )

ライセンス: Link先を確認
Angie Boggust, Hyemin Bang, Hendrik Strobelt, Arvind Satyanarayan, (参考訳) 抽象化 — 特定の例を広範囲に再利用可能なパターンに一般化するプロセス — は、人々が情報を効率的に処理し、保存し、知識を新しいデータに適用する方法の中心である。 MLモデルは、"ボロタイ"や"カータイヤ"といった特定の概念から、"CEO"や"モデル"といったより一般的な概念まで、抽象化のレベルにまたがる表現を学びます。 しかし、既存の技術はこれらの表現を分離して分析し、学習された概念を相互接続された抽象の網ではなく独立した人工物として扱う。 その結果、モデルが出力を生成するために使用する概念を特定できるが、新しいデータに一般化する概念の人間による抽象化を学習したかどうかを評価することは困難である。 このギャップに対処するために、モデルの学習した抽象と期待される人間の抽象との一致を測定する手法である抽象化アライメントを導入する。 モデル出力を言語関係や医学的疾患階層といった人間の抽象グラフと比較することにより、抽象的アライメントを定量化する。 画像モデルの解釈、言語モデルのベンチマーク、医療データセットの分析において、抽象化アライメントは、モデルの振る舞いとデータセットの内容をより深く理解し、人間の知識との一致に基づいてエラーを識別し、現在のモデル品質メトリクスの冗長性を拡張し、既存の人間の抽象化を改善する方法を明らかにする。

Abstraction -- the process of generalizing specific examples into broad reusable patterns -- is central to how people efficiently process and store information and apply their knowledge to new data. Promisingly, research has shown that ML models learn representations that span levels of abstraction, from specific concepts like "bolo tie" and "car tire" to more general concepts like "CEO" and "model". However, existing techniques analyze these representations in isolation, treating learned concepts as independent artifacts rather than an interconnected web of abstraction. As a result, although we can identify the concepts a model uses to produce its output, it is difficult to assess if it has learned a human-aligned abstraction of the concepts that will generalize to new data. To address this gap, we introduce abstraction alignment, a methodology to measure the agreement between a model's learned abstraction and the expected human abstraction. We quantify abstraction alignment by comparing model outputs against a human abstraction graph, such as linguistic relationships or medical disease hierarchies. In evaluation tasks interpreting image models, benchmarking language models, and analyzing medical datasets, abstraction alignment provides a deeper understanding of model behavior and dataset content, differentiating errors based on their agreement with human knowledge, expanding the verbosity of current model quality metrics, and revealing ways to improve existing human abstractions.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# 陰謀論とTikTokでの発見

Conspiracy theories and where to find them on TikTok ( http://arxiv.org/abs/2407.12545v1 )

ライセンス: Link先を確認
Francesco Corso, Francesco Pierri, Gianmarco De Francisci Morales, (参考訳) TikTokは近年、特に若年層の間で人気が高まっている。 しかし、このプラットフォームがオンラインの有害で危険なコンテンツを宣伝し、増幅する可能性を懸念する声が上がっている。 公式のTikTok Research APIを活用して、米国内で3年間に共有されている150万本のビデオの時系列データセットを収集し、陰謀論を推進しているビデオの存在を分析し、その出現率(全ビデオの約0.1%)を低く見積もり、クリエイターが共謀コンテンツの供給に新たなマネタイズ方法を提供する新しいクリエータープログラムの効果を評価する。 ビデオの音声書き起こしを抽出して陰謀論を特定できる最先端のオープン言語モデルの有効性を評価し,RoBERTaのような微調整された伝統言語モデルに匹敵する性能で有害なコンテンツを検出できることを確認した。 我々の発見は、TikTokのような急速に進化するソーシャルメディアプラットフォーム上で有害なコンテンツの拡散を理解し、緩和することを目的としたコンテンツモデレーション戦略に役立ちます。

TikTok has skyrocketed in popularity over recent years, especially among younger audiences, thanks to its viral trends and social challenges. However, concerns have been raised about the potential of this platform to promote and amplify online harmful and dangerous content. Leveraging the official TikTok Research API and collecting a longitudinal dataset of 1.5M videos shared in the US over a period of 3 years, our study analyzes the presence of videos promoting conspiracy theories, providing a lower-bound estimate of their prevalence (approximately 0.1% of all videos) and assessing the effects of the new Creator Program, which provides new ways for creators to monetize, on the supply of conspiratorial content. We evaluate the capabilities of state-of-the-art open Large Language Models to identify conspiracy theories after extracting audio transcriptions of videos, finding that they can detect harmful content with high precision but with overall performance comparable to fine-tuned traditional language models such as RoBERTa. Our findings are instrumental for content moderation strategies that aim to understand and mitigate the spread of harmful content on rapidly evolving social media platforms like TikTok.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# 超蛍光における二階コヒーレンスの創出

Emergence of second-order coherence in superfluorescence ( http://arxiv.org/abs/2407.12549v1 )

ライセンス: Link先を確認
Constanze Bach, Felix Tebbenjohanns, Christian Liedl, Philipp Schneeweiss, Arno Rauschenbeutel, (参考訳) カスケード量子系における超ラジカルバーストの2階量子コヒーレンス関数を実験的に検討した。 我々は、(方向依存的に)約900セシウム原子を光ナノファイバーの前方伝播モードに冷却する。 次に、最大反転状態のアンサンブルを作成し、その後にバーストの集合放出を超蛍光(Superfluorescence)と呼ぶ。 ここでは、崩壊の過程で二階コヒーレンスが発生することを観察する。 これは、超新星爆発自体の起源でもある基礎となる集合力学の明らかな特徴である。 さらに,アンサンブルの初期平均双極子モーメントに依存する放射の2次コヒーレンス関数のダイナミクスについて検討した。 また, 早期および後期の光子放射の観測を関連づけることで, バースト放出開始の遅れにおける基本的なショット・ツー・ショット変動の証拠を得ることができた。 本研究の結果から,ハミルトニアンの結合が根本的に異なるにもかかわらず,カスケード系および対称結合系における超放射能は著しく多くの類似点を有することが明らかとなった。

We experimentally investigate the second-order quantum coherence function of a superradiant burst in a cascaded quantum system. We chirally (i.e. direction-dependently) couple roughly 900 cesium atoms to the forward propagating mode of an optical nanofiber. We then prepare the ensemble in the maximally inverted state, where the subsequent collective emission of a burst is known as superfluorescence. Here, we observe that second-order coherence emerges in the course of the decay. This is a clear feature of the underlying collective dynamics that is also at the origin of the superradiant burst itself. We furthermore study the dynamics of the second-order coherence function of the emission in dependence on the initial average dipole moment of the ensemble. In addition, by correlating the detection of early and late photon emission events, we obtain evidence for fundamental shot-to-shot fluctuations in the delay of the start of the burst emission. Our findings reveal that, despite the fundamentally different coupling Hamiltonian, superradiance in cascaded and symmetrically coupled systems feature a strikingly large number of similarities.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# UniTE: 事前学習ST軌道埋め込みのためのサーベイと統一パイプライン

UniTE: A Survey and Unified Pipeline for Pre-training ST Trajectory Embeddings ( http://arxiv.org/abs/2407.12550v1 )

ライセンス: Link先を確認
Yan Lin, Zeyu Zhou, Yicheng Liu, Haochen Lv, Haomin Wen, Tianyi Li, Yushuai Li, Christian S. Jensen, Shengnan Guo, Youfang Lin, Huaiyu Wan, (参考訳) 時空間(ST)軌道はタイムスタンプされた位置の列であり、それによって様々な分析が可能となり、それによって重要な現実世界の応用が可能になる。 後続の分析の前に、軌道を埋め込みと呼ばれるベクトルにマッピングすることが一般的である。 したがって、埋め込みの質は非常に重要である。 普遍的な埋め込みの訓練にラベルのない軌跡を利用した事前学習法は,様々なタスクに適用可能性を示しており,かなりの関心を集めている。 しかし,本研究の進展には,既存手法の包括的概要の欠如,未認識のメソッドのいくつか,統合パイプラインの欠如,新たな手法の開発やメソッド分析の複雑化,という2つの課題がある。 これらの障害を克服し、軌道埋め込みの事前訓練の分野を前進させるために、UniTE、サーベイおよびこの領域の統一パイプラインを提案する。 そこで本研究では,事前学習手法を明示的あるいは暗黙的に採用する手法を含む,既存の軌道埋め込みの事前学習方法の包括的リストを示す。 さらに、路面埋め込みの事前学習方法の構築と評価のプロセスを簡素化し、一般に利用可能な基盤コードを備えた統一型モジュールパイプラインを提案する。 さらに,提案したパイプラインを実世界のデータセットに適用した実験結果の選定に貢献する。

Spatio-temporal (ST) trajectories are sequences of timestamped locations, which enable a variety of analyses that in turn enable important real-world applications. It is common to map trajectories to vectors, called embeddings, before subsequent analyses. Thus, the qualities of embeddings are very important. Methods for pre-training embeddings, which leverage unlabeled trajectories for training universal embeddings, have shown promising applicability across different tasks, thus attracting considerable interest. However, research progress on this topic faces two key challenges: a lack of a comprehensive overview of existing methods, resulting in several related methods not being well-recognized, and the absence of a unified pipeline, complicating the development new methods and the analysis of methods. To overcome these obstacles and advance the field of pre-training of trajectory embeddings, we present UniTE, a survey and a unified pipeline for this domain. In doing so, we present a comprehensive list of existing methods for pre-training trajectory embeddings, which includes methods that either explicitly or implicitly employ pre-training techniques. Further, we present a unified and modular pipeline with publicly available underlying code, simplifying the process of constructing and evaluating methods for pre-training trajectory embeddings. Additionally, we contribute a selection of experimental results using the proposed pipeline on real-world datasets.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# 貯水池型有効接続と解釈可能な人工知能を用いたエンドツーエンドストローク画像解析

End-to-end Stroke imaging analysis, using reservoir computing-based effective connectivity, and interpretable Artificial intelligence ( http://arxiv.org/abs/2407.12553v1 )

ライセンス: Link先を確認
Wojciech Ciezobka, Joan Falco-Roget, Cemal Koba, Alessandro Crimi, (参考訳) 本稿では,貯水池計算に基づく有向グラフ解析パイプラインを提案する。 このパイプラインの目的は、磁気共鳴画像から得られる脳卒中データに接続するための効率的な脳表現を定義することである。 最終的に、この表現は、有向グラフ畳み込みアーキテクチャ内で使用され、説明可能な人工知能(AI)ツールで調査される。 ストロークは世界中で死亡率と死亡率の主な原因の1つであり、タイムリーな介入と患者の予後改善のための正確な診断ツールを必要としている。 神経画像データは、その豊富な構造的および機能的な情報によって、バイオマーカー発見のための肥大した土台を提供する。 しかし、脳卒中患者の脳コネクトームによって与えられるネットワークが破壊された場合を考えると、脳内の情報フローの複雑さと変動性は高度な分析を必要とする。 この複雑なシナリオで得られるニーズに対処するために、私たちはエンドツーエンドのパイプラインを提案しました。 このパイプラインは、脳の効果的な接続を定義するために、貯水池コンピューティングの因果関係から始まる。 これにより、グラフ畳み込みネットワーク分類器によって、これまで十分に研究されていない有向グラフネットワーク表現が可能になる。 実際、パイプラインはその後分類モジュールを組み込んで、患者の脳ネットワークの効果的な接続性(方向グラフ)と健康管理の整合を分類する。 この分類は、与えられたヘテロジニアスデータセットを持つ曲線0.69の領域に導いた。 説明可能なツールのおかげで、脳ネットワークを横断する破壊されたネットワークの解釈が可能になった。 これにより、脳卒中分類への効果的なコネクティビティ・バイオマーカーの貢献が解明され、疾患のメカニズムや治療反応に対する洞察が育まれる。

In this paper, we propose a reservoir computing-based and directed graph analysis pipeline. The goal of this pipeline is to define an efficient brain representation for connectivity in stroke data derived from magnetic resonance imaging. Ultimately, this representation is used within a directed graph convolutional architecture and investigated with explainable artificial intelligence (AI) tools. Stroke is one of the leading causes of mortality and morbidity worldwide, and it demands precise diagnostic tools for timely intervention and improved patient outcomes. Neuroimaging data, with their rich structural and functional information, provide a fertile ground for biomarker discovery. However, the complexity and variability of information flow in the brain requires advanced analysis, especially if we consider the case of disrupted networks as those given by the brain connectome of stroke patients. To address the needs given by this complex scenario we proposed an end-to-end pipeline. This pipeline begins with reservoir computing causality, to define effective connectivity of the brain. This allows directed graph network representations which have not been fully investigated so far by graph convolutional network classifiers. Indeed, the pipeline subsequently incorporates a classification module to categorize the effective connectivity (directed graphs) of brain networks of patients versus matched healthy control. The classification led to an area under the curve of 0.69 with the given heterogeneous dataset. Thanks to explainable tools, an interpretation of disrupted networks across the brain networks was possible. This elucidates the effective connectivity biomarker's contribution to stroke classification, fostering insights into disease mechanisms and treatment responses.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# フラットマヨラナバンドを持つ北エフハニカム超格子のフラクショナルワニエ軌道とタイトバイディングゲージ場

Fractional Wannier Orbitals and Tight-Binding Gauge Fields for Kitaev Honeycomb Superlattices with Flat Majorana Bands ( http://arxiv.org/abs/2407.12559v1 )

ライセンス: Link先を確認
K. B. Yogendra, G. Baskaran, Tanmoy Das, (参考訳) フラクショナル励起は、基礎物理学と量子技術の両方に大きな可能性を秘めている。 しかし、ゲージ場の影響下でのそれらの力学は、従来のモデルにとって大きな課題となる。 そこで本研究では, ハニカム格子上のキタエフスピンモデルにおいて, 種々の結晶相における低エネルギーマヨナ分散の進化について検討する。 我々は、これらの低エネルギーマヨラナフェルミオンに対して、高エネルギースペクトルを体系的に排除する超交換的な相互作用を通じてゲージポテンシャルを導入する、効果的な強結合記述を開発する。 我々は、この超交換相互作用がZ2ゲージ場として作用する条件を特定し、マヨアナ・ワニエ軌道の強結合ホッピングを管理する。 本研究は,2つの非自明な位相位相間の興味深い相転移について明らかにした。 さらに平らなバンド物理学を探求するために、これらのバンド内のゲージ不変Majorana密度波列を記述する平均場理論を導入する。 その結果、チャーンバンドが分裂し、チャーンバンドの部分充填が促進され、事実上チャーン状態が分断される。 我々の研究はゲージ媒介の強結合モデルと平均場理論の両方を包含し、他の分数的あるいは絡み合ったワニエ励起に対するゲージ媒介の強結合アプローチとして$U(1)$,$SU(N)$の将来の探索の扉を開く。

Fractional excitations offer vast potential for both fundamental physics and quantum technologies. However, their dynamics under the influence of gauge fields pose a significant challenge to conventional models. Here, we investigate the evolution of low-energy Majorana dispersions across various crystalline phases of the \pi-flux in the Kitaev spin model on a honeycomb lattice. We develop an effective tight-binding description for these low-energy Majorana fermions, introducing a gauge potential through a superexchange-like interaction that systematically eliminates the high-energy spectrum. We identify conditions under which this superexchange interaction acts as a Z2 gauge field, governing the tight-binding hopping of Majorana Wannier orbitals. Our study reveals an intriguing phase transition between two non-trivial topological phases characterized by gapless flat-band (extensive) degeneracy. To further explore flat band physics, we introduce a mean-field theory describing a gauge-invariant Majorana density-wave order within these bands. The resulting split Chern bands facilitate the partial filling of Chern bands, effectively leading to fractional Chern states. Our work, encompassing both the gauge-mediated tight-binding model and the mean-field theory, opens doors for future exploration of $U(1)$, $SU(N)$ gauge-mediated tight-binding approach to other fractional or entangled Wannier excitations.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# ジョセフソン効果と量子ホール効果に基づく一次量子電流標準

A primary quantum current standard based on the Josephson and the quantum Hall effects ( http://arxiv.org/abs/2407.12562v1 )

ライセンス: Link先を確認
Sophie Djordjevic, Ralf Behr, W. Poirier, (参考訳) アンペアの新しい定義では、1秒あたりの基本的な電荷の流れを10^8$の相対的な不確実性で制御できる量子電流標準が要求される。 多くの努力にもかかわらず、電子を一つずつ扱うナノデバイスは、そのような正確さを実証することができなかった。 オムの法則をジョセフソン電圧と量子ホール標準に適用した代替ルートは、最近ターゲットの不確実性に達したが、これは誤り訂正の適用、単純さの妨げ、さらなる改善を犠牲にしていた。 結果として、国立気象学研究所はいまだに運用中の量子電流標準を欠いている。 本稿では,量子標準と超伝導極低温増幅器を組み合わせた新しい量子電流発生器について述べる。 我々は,mAから$\mu$Aまでの範囲でターゲット不確実性を持つアンペアの定義を実現し,100倍の精度でエンドユーザー電流測定を改善することができることを示す。 他の展望としては、新しい電流標準を量子ボルトメータと併用して大きな抵抗を測定することや、その低ノイズ性能を利用して、他の量子電流源の低い電流とのギャップを埋めることが挙げられる。

The new definition of the ampere calls for a quantum current standard able to deliver a flow of elementary charges per second controlled with a relative uncertainty of one part in $10^8$. Despite many efforts, nanodevices handling electrons one by one have never been able to demonstrate such an accuracy. The alternative route based on applying Ohm's law to the Josephson voltage and quantum Hall standards recently reached the target uncertainty but this was at the expense of the application of error corrections, hampering simplicity and further improvement. As a result, national metrology institutes still lack an operational quantum current standard. Here, we present a new quantum current generator, combining both quantum standards and a superconducting cryogenic amplifier, free of error correction, which provides quantized currents driven by the Josephson microwave signal. We show that it can realize the ampere definition with the target uncertainty over a range extended from mA down to $\mu$A and improve end-user current measurements, which are up to now a hundred times less accurate. Other prospects include measuring large resistances using the new current standard in conjunction with a quantum voltmeter and, by exploiting its low-noise performances, bridging the gap with the lower currents of other quantum current sources.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# 創発的多ビット絡み合いによる自然対称性の破れの実験的研究

Experimental demonstration of spontaneous symmetry breaking with emergent multi-qubit entanglement ( http://arxiv.org/abs/2407.12567v1 )

ライセンス: Link先を確認
Ri-Hua Zheng, Wen Ning, Jia-Hao Lü, Xue-Jia Yu, Fang Wu, Cheng-Lin Deng, Zhen-Biao Yang, Kai Xu, Dongning Zheng, Heng Fan, Shi-Biao Zheng, (参考訳) 自発的対称性破壊(SSB)は相転移の発生に不可欠である。 相転移が起こると、量子系はハミルトニアンの対称性を欠いた退化固有状態を示す。 臨界点を越えた後、系は本質的にこれらの固有状態の量子重ね合わせに発展し、デコヒーレンスをセットする。 SSBと量子メカニカルキャラクタの実証は、単一量子ビットを単一フォトニックモードに結合した超ラジカル相転移において観測されている。 本稿では,複数量子ビット系の量子相転移において,個々の駆動と量子内相互作用の競合によって制御されるSSBを提案する。 量子力学SSBは、2つの縮退対称性を破る固有状態によって形成される多ビットの猫状態の出現によって現れる。 回路量子力学系において,6つのXmon量子ビットが共振器を介する仮想光子交換により全対一に結合される理論モデルを合成する。 観測された非古典的特徴は従来のSSBの記述を超え、量子多体系の相転移に新しい光を放つ。

Spontaneous symmetry breaking (SSB) is crucial to the occurrence of phase transitions. Once a phase transition occurs, a quantum system presents degenerate eigenstates that lack the symmetry of the Hamiltonian. After crossing the critical point, the system is essentially evolved to a quantum superposition of these eigenstates until decoherence sets in. Demonstrations of SSB with quantum-mechanical characters have been observed in superradiant phase transitions with a single qubit coupled to a single photonic mode. We here propose and demonstrate SSB in the quantum phase transition of a multi-qubit system, governed by the competition between individual drivings and intra-qubit interactions. The quantum-mechanical SSB is manifested by the emergence of a multi-qubit cat state, formed by two degenerate symmetry-breaking eigenstates. We synthesize the theoretical model in a circuit quantum electrodynamics system, where 6 Xmon qubits are coupled in an all-to-all manner through virtual photon exchange mediated by a resonator. The observed nonclassical features go beyond the conventional description of SSB, shedding new light on phase transitions for quantum many-body systems.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# LTRL:リフレクティブラーニングによるロングテール認識の促進

LTRL: Boosting Long-tail Recognition via Reflective Learning ( http://arxiv.org/abs/2407.12568v1 )

ライセンス: Link先を確認
Qihao Zhao, Yalun Dai, Shen Lin, Wei Hu, Fan Zhang, Jun Liu, (参考訳) 現実のシナリオでは、知識分布は長い尾を示す。 人間は、不均衡な分布にまたがって知識を均一にマスターする。 本研究は,この学習プロセスに動機づけられた,ロングテール認識の処理において,リフレクティングラーニングと呼ばれる新しい学習パラダイムを提案する。 本手法は,学習中の過去の予測の見直し,クラス間の特徴関係の要約と活用,損失関数の勾配競合の補正という3つのプロセスを統合する。 これらの設計は、既存のロングテール学習手法をプラグアンドプレイできるほど軽量であり、人気のあるロングテールビジュアルベンチマークで最先端のパフォーマンスを達成する。 実験結果から,長時間の認識に学習を反映させる大きな可能性を浮き彫りにした。

In real-world scenarios, where knowledge distributions exhibit long-tail. Humans manage to master knowledge uniformly across imbalanced distributions, a feat attributed to their diligent practices of reviewing, summarizing, and correcting errors. Motivated by this learning process, we propose a novel learning paradigm, called reflecting learning, in handling long-tail recognition. Our method integrates three processes for reviewing past predictions during training, summarizing and leveraging the feature relation across classes, and correcting gradient conflict for loss functions. These designs are lightweight enough to plug and play with existing long-tail learning methods, achieving state-of-the-art performance in popular long-tail visual benchmarks. The experimental results highlight the great potential of reflecting learning in dealing with long-tail recognition.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# DP-KAN: Kolmogorov-Arnold Networks

DP-KAN: Differentially Private Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2407.12569v1 )

ライセンス: Link先を確認
Nikita P. Kalinin, Simone Bombari, Hossein Zakerinia, Christoph H. Lampert, (参考訳) 我々は,従来のMLP(Multilayer Perceptron)の代替として最近提案されたKAN(Kolmogorov-Arnold Network)を,微分プライベートモデルトレーニングへの応用として検討した。 DP-SGDアルゴリズムを用いて,kanを直接的にプライベートにすることが可能であることを実証し,その性能を複数のデータセットで評価した。 以上の結果から,kan の精度は MLP に匹敵するだけでなく,プライバシー制約による類似の劣化も経験していることが示唆された。

We study the Kolmogorov-Arnold Network (KAN), recently proposed as an alternative to the classical Multilayer Perceptron (MLP), in the application for differentially private model training. Using the DP-SGD algorithm, we demonstrate that KAN can be made private in a straightforward manner and evaluated its performance across several datasets. Our results indicate that the accuracy of KAN is not only comparable with MLP but also experiences similar deterioration due to privacy constraints, making it suitable for differentially private model training.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# ラゲール・ガウスビームで励起されたカスケード系によって生じる軌道角運動量を持つシュミットモード

Schmidt modes carrying orbital angular momentum generated by cascaded systems pumped with Laguerre-Gaussian beams ( http://arxiv.org/abs/2407.12571v1 )

ライセンス: Link先を確認
D. Scharwald, L. Gehse, P. R. Sharapova, (参考訳) 軌道角運動モード(Orbital Angular Momentum、OAM)は、量子科学とテクノロジーの様々な分野において、そのユニークなヘリカル構造と数え切れないほど無限の基底によって使われる重要な資源である。 高次軌道角モータを同時に担い、量子相関を示す光の生成は難しい課題である。 本研究では, パラメトリックダウンコンバージョン(PDC)を用いて, ラゲール・ガウスビームで励起される非線形系(非線形干渉計)の相関シュミットモードを生成するための理論的アプローチを提案する。 本研究では, ポンプパラメータ, PDCプロセスの利得, 結晶間の距離を変化させることで, 生成モードの数と個体群を制御できることを実証する。 これらの干渉計の角変位感度について検討し、古典的なショットノイズ限界を克服できることを実証する。

Orbital Angular Momentum (OAM) modes are an important resource used in various branches of quantum science and technology due to their unique helical structure and countably infinite basis. Generating light that simultaneously carries high-order orbital angular momenta and exhibits quantum correlations is a challenging task. In this work, we present a theoretical approach to the generation of correlated Schmidt modes carrying OAM via parametric down-conversion (PDC) in cascaded nonlinear systems (nonlinear interferometers) pumped by Laguerre-Gaussian beams. We demonstrate how the number of generated modes and their population can be controlled by varying the pump parameters, the gain of the PDC process and the distance between the crystals. We investigate the angular displacement sensitivity of these interferometers and demonstrate that it can overcome the classical shot noise limit.
翻訳日:2024-07-18 17:07:03 公開日:2024-07-17
# IICPilot: Open EDAを用いたインテリジェント集積回路バックエンド設計フレームワーク

IICPilot: An Intelligent Integrated Circuit Backend Design Framework Using Open EDA ( http://arxiv.org/abs/2407.12576v1 )

ライセンス: Link先を確認
Zesong Jiang, Qing Zhang, Cheng Liu, Huawei Li, Xiaowei Li, (参考訳) オープンソースEDAツールは急速に進歩し、EDAコミュニティ内でのコラボレーション、イノベーション、知識共有を促進しています。 しかし、これらのツールの複雑さは、多くの設計パラメータとヒューリスティックによって特徴づけられ、広く普及する上で大きな障壁となっている。 この複雑さは特に統合回路(IC)バックエンド設計において顕著であり、EDAツールの技術者の専門知識にかなりの需要がある。 この課題に対処するために,LLM技術に基づくインテリジェントICバックエンド設計システムであるIICPilotを紹介する。 IICPilotはスクリプト生成、EDAツールの実行、EDAパラメータの設計空間探索、コンテナベースのコンピューティングリソース割り当て、例外管理など、さまざまなバックエンド設計手順を自動化する。 これらのタスクを自動化することで、IICPilotはオープンソースのEDAツールの参入障壁を著しく低くする。 具体的には、IICPilotはLangChainのマルチエージェントフレームワークを使用して、異なる設計タスクを効率的に処理し、フレキシブルな拡張を可能にする。 さらに、IICPilotは、バックエンド設計ワークフローと特定のオープンソースEDAツールを統一EDA呼び出しインターフェースで分離する。 このアプローチにより、OpenROADやiEDAといったさまざまなオープンソースEDAツールとのシームレスな統合が可能になり、EDAツール間のバックエンド設計と最適化の合理化が可能になります。

Open-source EDA tools are rapidly advancing, fostering collaboration, innovation, and knowledge sharing within the EDA community. However, the growing complexity of these tools, characterized by numerous design parameters and heuristics, poses a significant barrier to their widespread adoption. This complexity is particularly pronounced in integrated circuit (IC) backend designs, which place substantial demands on engineers' expertise in EDA tools. To tackle this challenge, we introduce IICPilot, an intelligent IC backend design system based on LLM technology. IICPilot automates various backend design procedures, including script generation, EDA tool invocation, design space exploration of EDA parameters, container-based computing resource allocation, and exception management. By automating these tasks, IICPilot significantly lowers the barrier to entry for open-source EDA tools. Specifically, IICPilot utilizes LangChain's multi-agent framework to efficiently handle distinct design tasks, enabling flexible enhancements independently. Moreover, IICPilot separates the backend design workflow from specific open-source EDA tools through a unified EDA calling interface. This approach allows seamless integration with different open-source EDA tools like OpenROAD and iEDA, streamlining the backend design and optimization across the EDA tools.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# 非エルミート量子系における例外点の交差

Crossing exceptional points in non-Hermitian quantum systems ( http://arxiv.org/abs/2407.12578v1 )

ライセンス: Link先を確認
Friederike U. J. Klauck, Matthias Heinrich, Alexander Szameit, Tom A. W. Wolterink, (参考訳) 例外点は非エルミート系における特異力学を促進する。 しかし、フォトニクスでは、主に古典的な領域で研究されている。 本研究では,非エルミート系における2光子量子状態の挙動を,例外点を越えて明らかにする。 本研究では, 2光子入力状態の損失方向結合器を探索し, パリティ時間対称性の自発的な破れを受けると, 出力における量子相関の異なる変化を観測する。 さらに、香港・ウー・マンデル・ディップが基底変化によってピークに変換される例外点において、光子の量子干渉を直接的に切り替えることを示した。 これらの結果は、量子干渉と例外点が、さらに探求できる奇妙な方法でリンクされていることを示している。

Exceptional points facilitate peculiar dynamics in non-Hermitian systems. Yet, in photonics, they have mainly been studied in the classical realm. In this work, we reveal the behavior of two-photon quantum states in non-Hermitian systems across the exceptional point. We probe the lossy directional coupler with an indistinguishable two-photon input state and observe distinct changes of the quantum correlations at the output as the system undergoes spontaneous breaking of parity-time symmetry. Moreover, we demonstrate a switching in the quantum interference of photons directly at the exceptional point, where Hong-Ou-Mandel dips are transformed into peaks by a change of basis. These results show that quantum interference and exceptional points are linked in curious ways that can now be further explored.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# 現実感と幻想:LLMによるプロンプト解釈によるシーン生成

The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation ( http://arxiv.org/abs/2407.12579v1 )

ライセンス: Link先を確認
Yi Yao, Chan-Feng Hsu, Jhe-Hao Lin, Hongxia Xie, Terence Lin, Yi-Ning Huang, Hong-Han Shuai, Wen-Huang Cheng, (参考訳) 近年のテキスト・画像生成の進歩にもかかわらず、訓練データの多様性と複雑さが制限されているため、複雑なプロンプトや想像上のプロンプトを扱う際の制限は持続している。 この研究は、拡散モデルが芸術的創造性や専門知識を必要とするプロンプトから画像を生成する方法を探る。 本稿では,現実的なシナリオと幻想的なシナリオを融合した新しい評価フレームワークであるRealistic-Fantasy Benchmark(RFBench)を紹介する。 これらの課題に対処するために,LLMと拡散モデルを統合するトレーニングフリーアプローチであるRealistic-Fantasy Network (RFNet)を提案する。 広汎な人的評価とGPTに基づく構成的評価は、我々のアプローチが最先端の手法よりも優れていることを示す。 私たちのコードとデータセットはhttps://leo81005.github.io/Reality-and-Fantasy/で公開されています。

In spite of recent advancements in text-to-image generation, limitations persist in handling complex and imaginative prompts due to the restricted diversity and complexity of training data. This work explores how diffusion models can generate images from prompts requiring artistic creativity or specialized knowledge. We introduce the Realistic-Fantasy Benchmark (RFBench), a novel evaluation framework blending realistic and fantastical scenarios. To address these challenges, we propose the Realistic-Fantasy Network (RFNet), a training-free approach integrating diffusion models with LLMs. Extensive human evaluations and GPT-based compositional assessments demonstrate our approach's superiority over state-of-the-art methods. Our code and dataset is available at https://leo81005.github.io/Reality-and-Fantasy/.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# E5-V:マルチモーダル大言語モデルを用いたユニバーサル埋め込み

E5-V: Universal Embeddings with Multimodal Large Language Models ( http://arxiv.org/abs/2407.12580v1 )

ライセンス: Link先を確認
Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang, (参考訳) MLLM(Multimodal large language model)は、一般的な視覚および言語理解の進歩を示す。 しかし,MLLMを用いたマルチモーダル情報の表現はいまだに未解明である。 本研究では,MLLMの汎用なマルチモーダル埋め込みを実現するための新しいフレームワークであるE5-Vを提案する。 本研究は,MLLMのマルチモーダル入力における有意な可能性を明らかにするものである。 MLLMをプロンプトで活用することにより、E5-Vは異なるタイプの入力間のモダリティギャップを効果的に橋渡しし、微調整なしでもマルチモーダル埋め込みにおいて強力な性能を示す。 本稿では,E5-Vのための単一モーダリティ学習手法を提案する。 本手法は,画像テキストペアにおける従来のマルチモーダルトレーニングに比べて,トレーニングコストを約95%削減すると共に,大幅な改善を図っている。 さらにこのアプローチでは,コストのかかるマルチモーダルトレーニングデータ収集の必要性も排除されている。 4種類のタスクにわたる大規模な実験は、E5-Vの有効性を示す。 普遍的マルチモーダルモデルとして、E5-Vは、単一のモダリティで訓練されているにもかかわらず、各タスクにおける最先端のパフォーマンスを達成できるだけでなく、しばしば超越する。

Multimodal large language models (MLLMs) have shown promising advancements in general visual and language understanding. However, the representation of multimodal information using MLLMs remains largely unexplored. In this work, we introduce a new framework, E5-V, designed to adapt MLLMs for achieving universal multimodal embeddings. Our findings highlight the significant potential of MLLMs in representing multimodal inputs compared to previous approaches. By leveraging MLLMs with prompts, E5-V effectively bridges the modality gap between different types of inputs, demonstrating strong performance in multimodal embeddings even without fine-tuning. We propose a single modality training approach for E5-V, where the model is trained exclusively on text pairs. This method demonstrates significant improvements over traditional multimodal training on image-text pairs, while reducing training costs by approximately 95%. Additionally, this approach eliminates the need for costly multimodal training data collection. Extensive experiments across four types of tasks demonstrate the effectiveness of E5-V. As a universal multimodal model, E5-V not only achieves but often surpasses state-of-the-art performance in each task, despite being trained on a single modality.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# 安全でないビデオ生成の理解に向けて

Towards Understanding Unsafe Video Generation ( http://arxiv.org/abs/2407.12581v1 )

ライセンス: Link先を確認
Yan Pang, Aiping Xiong, Yang Zhang, Tianhao Wang, (参考訳) ビデオ生成モデル(VGM)は高品質な出力を合成する能力を実証している。 暴力的なビデオや恐ろしいビデオなど、安全でないコンテンツを制作する可能性を理解することが重要である。 本研究では,安全でないビデオ生成の包括的理解を提供する。 まず、これらのモデルが本当に安全でないビデオを生成する可能性を確認するために、4chanとLexicaから収集された安全でないコンテンツ生成プロンプトと、3つのオープンソースSOTA VGMを選択し、安全でないビデオを生成する。 重複や生成不良を除去した後、元の5607ビデオのプールから2112の安全でないビデオのセットを作成しました。 生成されたビデオのクラスタリングとセマティックコーディング分析により、Distorted/Weird, Terrifying, Pornographic, Violent/Bloody, Politicalの5つの安全でないビデオカテゴリを特定した。 IRBの承認を得て、生成されたビデオのラベル付けを支援するために、オンライン参加者を募集します。 403人の参加者が提出したアノテーションに基づいて,初期ビデオから937本の安全でないビデオを特定した。 ラベル付き情報とそれに対応するプロンプトを用いて、VGMが生成した安全でないビデオの最初のデータセットを作成しました。 次に、安全でないビデオの発生を防ぐための防御機構について検討する。 画像生成における既存の防御手法は、入力プロンプトまたは出力結果のフィルタリングに重点を置いている。 モデルの内部サンプリングプロセス内で機能するLVD(Latent Variable Defense)と呼ばれる新しい手法を提案する。 LVDは、多数の安全でないプロンプトをサンプリングする際に、時間と計算資源を10倍に削減しながら、0.90の防御精度を達成することができる。

Video generation models (VGMs) have demonstrated the capability to synthesize high-quality output. It is important to understand their potential to produce unsafe content, such as violent or terrifying videos. In this work, we provide a comprehensive understanding of unsafe video generation. First, to confirm the possibility that these models could indeed generate unsafe videos, we choose unsafe content generation prompts collected from 4chan and Lexica, and three open-source SOTA VGMs to generate unsafe videos. After filtering out duplicates and poorly generated content, we created an initial set of 2112 unsafe videos from an original pool of 5607 videos. Through clustering and thematic coding analysis of these generated videos, we identify 5 unsafe video categories: Distorted/Weird, Terrifying, Pornographic, Violent/Bloody, and Political. With IRB approval, we then recruit online participants to help label the generated videos. Based on the annotations submitted by 403 participants, we identified 937 unsafe videos from the initial video set. With the labeled information and the corresponding prompts, we created the first dataset of unsafe videos generated by VGMs. We then study possible defense mechanisms to prevent the generation of unsafe videos. Existing defense methods in image generation focus on filtering either input prompt or output results. We propose a new approach called Latent Variable Defense (LVD), which works within the model's internal sampling process. LVD can achieve 0.90 defense accuracy while reducing time and computing resources by 10x when sampling a large number of unsafe prompts.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# 物体検出のための階層的特徴再構成ネットワークによるイベントとフレームの受け入れ

Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection ( http://arxiv.org/abs/2407.12582v1 )

ライセンス: Link先を確認
Hu Cao, Zehua Zhang, Yan Xia, Xinyi Li, Jiahao Xia, Guang Chen, Alois Knoll, (参考訳) フレームベースの視覚では、従来のカメラのセンサー能力に制限があるため、オブジェクト検出は困難な条件下ではかなりの性能低下に直面している。 イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。 しかし、2つの不均一なモダリティを効果的に融合することは、未解決の問題である。 本研究では,イベントフレーム融合のための階層型特徴改善ネットワークを提案する。 中心となる概念は、相互適応機能改善モジュール(CAFR)と呼ばれる粗大な核融合モジュールの設計である。 初期段階では、双方向の相互モダリティ相互作用(BCI)部は、2つの異なるソースからの情報のブリッジを容易にする。 その後、チャネルレベルの平均値と2倍適応的特徴改善部(TAFR)のばらつきを整列させることにより、さらに特徴を洗練する。 低分解能PKU-DDD17-Carデータセットと高分解能DSECデータセットの2つのベンチマークで広範な実験を行った。 実験の結果,本手法はDSECデータセット上では$\textbf{8.0}\%の差で最先端の手法を上回ることがわかった。 さらに, フレーム画像に15種類の汚損タイプを導入すると, 高いロバスト性(\textbf{69.5}\%対 \textbf{38.7}\%)を示す。 コードはリンク(https://github.com/HuCaoFighting/FRN)で見ることができる。

In frame-based vision, object detection faces substantial performance degradation under challenging conditions due to the limited sensing capability of conventional cameras. Event cameras output sparse and asynchronous events, providing a potential solution to solve these problems. However, effectively fusing two heterogeneous modalities remains an open issue. In this work, we propose a novel hierarchical feature refinement network for event-frame fusion. The core concept is the design of the coarse-to-fine fusion module, denoted as the cross-modality adaptive feature refinement (CAFR) module. In the initial phase, the bidirectional cross-modality interaction (BCI) part facilitates information bridging from two distinct sources. Subsequently, the features are further refined by aligning the channel-level mean and variance in the two-fold adaptive feature refinement (TAFR) part. We conducted extensive experiments on two benchmarks: the low-resolution PKU-DDD17-Car dataset and the high-resolution DSEC dataset. Experimental results show that our method surpasses the state-of-the-art by an impressive margin of $\textbf{8.0}\%$ on the DSEC dataset. Besides, our method exhibits significantly better robustness (\textbf{69.5}\% versus \textbf{38.7}\%) when introducing 15 different corruption types to the frame images. The code can be found at the link (https://github.com/HuCaoFighting/FRN).
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# 量子近似最適化アルゴリズムの動的リー代数について

On the dynamical Lie algebras of quantum approximate optimization algorithms ( http://arxiv.org/abs/2407.12587v1 )

ライセンス: Link先を確認
Jonathan Allcock, Miklos Santha, Pei Yuan, Shengyu Zhang, (参考訳) 動的リー代数(DLAs)は、パラメータ化量子回路の研究において重要なツールとして登場し、それらの表現性と訓練性の両方を特徴づけている。 特に、変分量子アルゴリズムの効率的な訓練を妨げるパラメータ空間の平坦領域であるバレンプラトー(BPs)の欠如や存在は、最近、関連するDLAから派生した量と密接に関連していることが示されている。 本研究では,量子近似最適化アルゴリズム(QAOA)のDLAについて検討する。 QAOA回路のDLAは以前にも研究されてきたが、既存の結果は数値的な証拠に基づいているか、あるいは状態のサブ空間における量子計算の普遍性に特化して選択されたDLA生成物に対応している。 我々は、バレンプラトーやQAOAアルゴリズムの統計統計分析を開始し、対応するDLAの次元とその一般グラフに対する中心について境界を与える。 次に、$n$-vertexサイクルと完全なグラフに焦点を当てます。 サイクルグラフに対して、明示的な基底を与え、その分解を 2$-次元中心の直和と半単純成分への分解を$su(2)$の$n-1$コピーに同型とする。 我々は、この同型性の明示的な基底と、コスト関数の分散に対する閉形式表現を与え、BPが存在しないことを証明した。 完備グラフに対して、DLAの次元が$O(n^3)$であることを示し、DLAの明示的な基底を与える。

Dynamical Lie algebras (DLAs) have emerged as a valuable tool in the study of parameterized quantum circuits, helping to characterize both their expressiveness and trainability. In particular, the absence or presence of barren plateaus (BPs) -- flat regions in parameter space that prevent the efficient training of variational quantum algorithms -- has recently been shown to be intimately related to quantities derived from the associated DLA. In this work, we investigate DLAs for the quantum approximate optimization algorithm (QAOA), one of the most studied variational quantum algorithms for solving graph MaxCut and other combinatorial optimization problems. While DLAs for QAOA circuits have been studied before, existing results have either been based on numerical evidence, or else correspond to DLA generators specifically chosen to be universal for quantum computation on a subspace of states. We initiate an analytical study of barren plateaus and other statistics of QAOA algorithms, and give bounds on the dimensions of the corresponding DLAs and their centers for general graphs. We then focus on the $n$-vertex cycle and complete graphs. For the cycle graph we give an explicit basis, identify its decomposition into the direct sum of a $2$-dimensional center and a semisimple component isomorphic to $n-1$ copies of $su(2)$. We give an explicit basis for this isomorphism, and a closed-form expression for the variance of the cost function, proving the absence of BPs. For the complete graph we prove that the dimension of the DLA is $O(n^3)$ and give an explicit basis for the DLA.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# ダウンストリームタスク間のロバストな自己教師付き学習のベンチマーク

Benchmarking Robust Self-Supervised Learning Across Diverse Downstream Tasks ( http://arxiv.org/abs/2407.12588v1 )

ライセンス: Link先を確認
Antoni Kowalczuk, Jan Dubiński, Atiyeh Ashari Ghomi, Yi Sui, George Stein, Jiapeng Wu, Jesse C. Cresswell, Franziska Boenisch, Adam Dziedzic, (参考訳) 大規模ビジョンモデルは、ダウンストリームタスクにおける前例のない性能と汎用性のために、多くのアプリケーションにおいて不可欠なものになっている。 しかし、これらの基礎モデルの堅牢性は、主に単一のタスク、すなわち画像分類のために研究されてきた。 セマンティックセグメンテーションや深さ推定といった他の一般的な視覚タスクの脆弱性はほとんど不明である。 複数の下流タスクにまたがる自己監督型視覚エンコーダの対向ロバスト性に関する包括的実証評価を行った。 我々の攻撃はエンコーダの埋め込みスペースと下流タスク出力レベルで動作する。 どちらの場合も、現在の最先端の対人微調整技術は、分類のためにのみテストされ、他のタスクにおけるクリーンでロバストなパフォーマンスは著しく低下する。 基礎モデルの目的は一度に複数のアプリケーションに対応することであるため,より広範にエンコーダの堅牢性を高める必要性が明らかとなった。 % 下流の様々なタスクにまたがる、より堅牢な基盤ビジョンモデルの可能性について論じる。 私たちのコードは$\href{https://github.com/layer6ai-labs/ssl-robustness}{github.com/layer6ai-labs/ssl-robustness}$で利用可能です。

Large-scale vision models have become integral in many applications due to their unprecedented performance and versatility across downstream tasks. However, the robustness of these foundation models has primarily been explored for a single task, namely image classification. The vulnerability of other common vision tasks, such as semantic segmentation and depth estimation, remains largely unknown. We present a comprehensive empirical evaluation of the adversarial robustness of self-supervised vision encoders across multiple downstream tasks. Our attacks operate in the encoder embedding space and at the downstream task output level. In both cases, current state-of-the-art adversarial fine-tuning techniques tested only for classification significantly degrade clean and robust performance on other tasks. Since the purpose of a foundation model is to cater to multiple applications at once, our findings reveal the need to enhance encoder robustness more broadly. %We discuss potential strategies for more robust foundation vision models across diverse downstream tasks. Our code is available at $\href{https://github.com/layer6ai-labs/ssl-robustness}{github.com/layer6ai-labs/ssl-robustness}$.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# 画像転送なしのプライバシ保護適応再同定

Privacy-Preserving Adaptive Re-Identification without Image Transfer ( http://arxiv.org/abs/2407.12589v1 )

ライセンス: Link先を確認
Hamza Rami, Jhony H. Giraldo, Nicolas Winckler, Stéphane Lathuilière, (参考訳) Re-ID(Re-Identification System)は、公共の安全のために重要であるが、トレーニングディストリビューションとは異なる環境に適応しなければならないという課題に直面している。 さらに、公共の場での厳格なプライバシープロトコルは、個人の自由の上昇に対する理解として実施され、新しい環境における正確なRe-IDシステムのデプロイに複雑さの層が加えられている。 例えば、欧州連合では、「『データ最小化』と『Purpose Limitation』の原則は、画像の保持と処理を厳格に必要とするものに制限している。 これらの規則は、サーバ上のデータの集中化に依存する従来のRe-IDトレーニングスキームに挑戦する。 本研究では、カメラデバイス外での画像転送を必要とせず、ドメインシフトの問題に対処するため、プライバシ保護のための分散非教師付きドメイン適応(DUDA-Rid)を提案する。 この設定に対処するために、エッジデバイス内で直接人物Re-IDモデルを適用する新しいソリューションであるFed-Protoidを紹介します。 提案手法では,ソースドメインから派生したプロトタイプを用いて,エッジデバイス内の特徴統計を整列する。 これらのソースプロトタイプは、DUDA-Rid設定に合わせて、分散最大平均離散性(MMD)損失を最小限に抑えるために、エッジデバイスに分散される。 我々の実験は、Fed-Protoidがデータのプライバシーを維持しながら、正確性と通信効率の両方の観点から評価されたすべてのメソッドを上回っているという説得力のある証拠を提供する。

Re-Identification systems (Re-ID) are crucial for public safety but face the challenge of having to adapt to environments that differ from their training distribution. Furthermore, rigorous privacy protocols in public places are being enforced as apprehensions regarding individual freedom rise, adding layers of complexity to the deployment of accurate Re-ID systems in new environments. For example, in the European Union, the principles of ``Data Minimization'' and ``Purpose Limitation'' restrict the retention and processing of images to what is strictly necessary. These regulations pose a challenge to the conventional Re-ID training schemes that rely on centralizing data on servers. In this work, we present a novel setting for privacy-preserving Distributed Unsupervised Domain Adaptation for person Re-ID (DUDA-Rid) to address the problem of domain shift without requiring any image transfer outside the camera devices. To address this setting, we introduce Fed-Protoid, a novel solution that adapts person Re-ID models directly within the edge devices. Our proposed solution employs prototypes derived from the source domain to align feature statistics within edge devices. Those source prototypes are distributed across the edge devices to minimize a distributed Maximum Mean Discrepancy (MMD) loss tailored for the DUDA-Rid setting. Our experiments provide compelling evidence that Fed-Protoid outperforms all evaluated methods in terms of both accuracy and communication efficiency, all while maintaining data privacy.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# VegeDiff:地理空間植生予測のための潜時拡散モデル

VegeDiff: Latent Diffusion Model for Geospatial Vegetation Forecasting ( http://arxiv.org/abs/2407.12592v1 )

ライセンス: Link先を確認
Sijie Zhao, Hao Chen, Xueliang Zhang, Pengfeng Xiao, Lei Bai, Wanli Ouyang, (参考訳) 地球規模の気候変動と頻繁な極端な気象イベントの状況において、これらの条件下での将来の地理空間的植生状態の予測は重要な意味を持つ。 植生変化過程は、動的気象変数と静的環境変数との複雑な相互作用に影響され、高い不確実性をもたらす。 既存の決定論的手法は、この不確実性に対処するには不十分であり、これらの変数が植生に与える影響を正確にモデル化することができないため、曖昧で正確な予測結果が得られない。 これらの課題に対処するため,地理空間植生予測タスクのためのVegeDiffを提案する。 私たちの知る限りでは、VegeDiffは最初に拡散モデルを用いて、植生の変化過程の不確実性を確率的に捉え、明確で正確な将来の植生状態の生成を可能にします。 VegeDiffはまた、動的気象変数のグローバルな影響と静的環境変数の局所的な影響を別々にモデル化し、これらの変数の影響を正確にモデル化する。 地理空間植生予測タスクに関する大規模な実験は、VegeDiffの有効性を実証している。 植生の変化の不確実性を把握し、関連する変数の複雑な影響をモデル化することにより、VegeDiffは既存の決定論的手法より優れ、将来の植生状態の明確かつ正確な予測結果を提供する。 興味深いことに、VegeDiffが将来の植生状態を複数の面から予測し、気象変数が植生動態に与える影響を探索する上での応用の可能性を示す。 この作業のコードはhttps://github.com/walking-shadow/ Official_VegeDiff.comで公開される。

In the context of global climate change and frequent extreme weather events, forecasting future geospatial vegetation states under these conditions is of significant importance. The vegetation change process is influenced by the complex interplay between dynamic meteorological variables and static environmental variables, leading to high levels of uncertainty. Existing deterministic methods are inadequate in addressing this uncertainty and fail to accurately model the impact of these variables on vegetation, resulting in blurry and inaccurate forecasting results. To address these issues, we propose VegeDiff for the geospatial vegetation forecasting task. To our best knowledge, VegeDiff is the first to employ a diffusion model to probabilistically capture the uncertainties in vegetation change processes, enabling the generation of clear and accurate future vegetation states. VegeDiff also separately models the global impact of dynamic meteorological variables and the local effects of static environmental variables, thus accurately modeling the impact of these variables. Extensive experiments on geospatial vegetation forecasting tasks demonstrate the effectiveness of VegeDiff. By capturing the uncertainties in vegetation changes and modeling the complex influence of relevant variables, VegeDiff outperforms existing deterministic methods, providing clear and accurate forecasting results of future vegetation states. Interestingly, we demonstrate the potential of VegeDiff in applications of forecasting future vegetation states from multiple aspects and exploring the impact of meteorological variables on vegetation dynamics. The code of this work will be available at https://github.com/walking-shadow/ Official_VegeDiff.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# EvSign: ストリームイベントによる手話認識と翻訳

EvSign: Sign Language Recognition and Translation with Streaming Events ( http://arxiv.org/abs/2407.12593v1 )

ライセンス: Link先を確認
Pengyu Zhang, Hao Yin, Zeren Wang, Wenyue Chen, Shengming Li, Dong Wang, Huchuan Lu, and Xu Jia, (参考訳) 手話は難聴者にとって最も効果的なコミュニケーションツールの1つである。 既存の作業の多くはRGBビデオにおける手話タスクのパフォーマンス向上に重点を置いており、動きのぼやけた手の動きやテクスチャ付き手話の出現など、劣化した記録条件に悩まされる可能性がある。 バイオインスパイアされたイベントカメラは、高速で明るさの変化を非同期に捉え、動的手の動きを自然に知覚し、手話のタスクに豊富な手作業の手がかりを与える。 本研究では,連続手話認識(CSLR)と手話翻訳(SLT)におけるイベントカメラの可能性を探究する。 この研究を促進するために、まず、グロスと音声言語アノテーションの両方を用いて、これらのタスクのためのイベントベースのベンチマークEvSignを収集する。 EvSignデータセットは、かなりの量の高品質なイベントストリームと、グロスと単語の広範な語彙を提供し、手話タスクの開発を容易にする。 さらに,イベントベースのSLRとSLTタスクのための効率的なトランスフォーマーベースのフレームワークを提案し,ストリーミングイベントの利点をフル活用する。 スパースバックボーンはスパースイベントから視覚的特徴を抽出するために使用される。 次に, 時間的コヒーレンスを局所トークン融合と光沢を考慮した時間的アグリゲーションモジュールを用いて効果的に活用する。 シミュレーション(PHOENIX14T)とEvSignデータセットの両方で大規模な実験結果が報告されている。 提案手法は,ビデオあたり0.34%の計算コスト (0.84G FLOPS) と44.2%のネットワークパラメータを持つ既存の最先端手法に対して良好に機能する。 このプロジェクトはhttps://zhang-pengyu.github.io/EVSign.comで入手できる。

Sign language is one of the most effective communication tools for people with hearing difficulties. Most existing works focus on improving the performance of sign language tasks on RGB videos, which may suffer from degraded recording conditions, such as fast movement of hands with motion blur and textured signer's appearance. The bio-inspired event camera, which asynchronously captures brightness change with high speed, could naturally perceive dynamic hand movements, providing rich manual clues for sign language tasks. In this work, we aim at exploring the potential of event camera in continuous sign language recognition (CSLR) and sign language translation (SLT). To promote the research, we first collect an event-based benchmark EvSign for those tasks with both gloss and spoken language annotations. EvSign dataset offers a substantial amount of high-quality event streams and an extensive vocabulary of glosses and words, thereby facilitating the development of sign language tasks. In addition, we propose an efficient transformer-based framework for event-based SLR and SLT tasks, which fully leverages the advantages of streaming events. The sparse backbone is employed to extract visual features from sparse events. Then, the temporal coherence is effectively utilized through the proposed local token fusion and gloss-aware temporal aggregation modules. Extensive experimental results are reported on both simulated (PHOENIX14T) and EvSign datasets. Our method performs favorably against existing state-of-the-art approaches with only 0.34% computational cost (0.84G FLOPS per video) and 44.2% network parameters. The project is available at https://zhang-pengyu.github.io/EVSign.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# VisFocus: OCRフリードキュメント理解のためのプロンプトガイド付きビジョンエンコーダ

VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding ( http://arxiv.org/abs/2407.12594v1 )

ライセンス: Link先を確認
Ofir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha, (参考訳) 近年、視覚的文書理解の分野において顕著な進歩が見られ、視覚と言語モデルのカスケードからなるアーキテクチャが主流となっている。 テキストコンポーネントは、OCRベースのアプローチで外部のOCRモデルを使用することで明示的に抽出するか、あるいは、OCRフリーアプローチで読み出し能力によって視覚モデルを付与することができる。 通常、モデルに対するクエリは言語コンポーネントにのみ入力され、ドキュメント全体を包含するために視覚的特徴を必要とする。 本稿では,視覚エンコーダのキャパシティを言語プロンプトと直接結合することにより,OCRフリーなVisFocusを提案する。 そのため、ダウンサンプリングレイヤを入力プロンプトを受け取り、ドキュメントの関連部分をハイライトできるレイヤに置き換えると同時に、他のレイヤを無視します。 アーキテクチャ拡張を新しい事前学習タスクと組み合わせ、プロンプトの代わりに視覚エンコーダに送付された文書テキストのスニペットに言語マスキングを用いて、フォーカス機能を備えたモデルを強化する。 その結果、VisFocusは提供されたプロンプトに関連するテキストパッチに注意を割ることを学ぶ。 実験により,このプロンプト誘導型ビジュアルエンコーディング手法により,様々なベンチマークで最先端の成果が得られ,性能が大幅に向上することが示された。

In recent years, notable advancements have been made in the domain of visual document understanding, with the prevailing architecture comprising a cascade of vision and language models. The text component can either be extracted explicitly with the use of external OCR models in OCR-based approaches, or alternatively, the vision model can be endowed with reading capabilities in OCR-free approaches. Typically, the queries to the model are input exclusively to the language component, necessitating the visual features to encompass the entire document. In this paper, we present VisFocus, an OCR-free method designed to better exploit the vision encoder's capacity by coupling it directly with the language prompt. To do so, we replace the down-sampling layers with layers that receive the input prompt and allow highlighting relevant parts of the document, while disregarding others. We pair the architecture enhancements with a novel pre-training task, using language masking on a snippet of the document text fed to the visual encoder in place of the prompt, to empower the model with focusing capabilities. Consequently, VisFocus learns to allocate its attention to text patches pertinent to the provided prompt. Our experiments demonstrate that this prompt-guided visual encoding approach significantly improves performance, achieving state-of-the-art results on various benchmarks.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# YOLOによるリスト異常検出の強化:最先端単段検出モデルの解析

Enhancing Wrist Abnormality Detection with YOLO: Analysis of State-of-the-art Single-stage Detection Models ( http://arxiv.org/abs/2407.12597v1 )

ライセンス: Link先を確認
Ammar Ahmed, Ali Shariq Imran, Abdul Manaf, Zenun Kastrati, Sher Muhammad Daudpota, (参考訳) 手首、特に遠位端骨折、尺骨骨折の診断と治療は、思春期において高い頻度で小児、青年、若年者の間で重要な関心事である。 しかし、放射線技師の不足と専門医の専門訓練の欠如は、患者のケアに重大なリスクをもたらす。 この問題は、画像研究の増加と、特定の地域での専門報告へのアクセス制限によってさらに悪化している。 このことは、手首異常の診断と治療を改善する革新的な解決策の必要性を強調している。 対象物検出を用いた手首骨折の自動検出は可能性を示しているが、最近の研究では主に2段階検出法を用いており、単一の段階の有効性を示す証拠が限られている。 この研究では、最先端の単一ステージのディープニューラルネットワークに基づく検出モデルYOLOv5、YOLOv6、YOLOv7、YOLOv8を用いて、手首の異常を検出する。 広範囲な実験により,これらのYOLOモデルは骨骨折検出においてよく用いられる2段階検出アルゴリズムであるFaster R-CNNよりも優れていることがわかった。 さらに、各YOLOモデルの複合スケールの変種を比較し、YOLOv8xは、GRAZPEDWRI-DX小児手首データセットにおいて、骨折検出平均平均平均精度(mAP)が0.95で、全体のmAPが0.77であることを示し、小児手首画像の拡張のためのシングルステージモデルの可能性を強調した。

Diagnosing and treating abnormalities in the wrist, specifically distal radius, and ulna fractures, is a crucial concern among children, adolescents, and young adults, with a higher incidence rate during puberty. However, the scarcity of radiologists and the lack of specialized training among medical professionals pose a significant risk to patient care. This problem is further exacerbated by the rising number of imaging studies and limited access to specialist reporting in certain regions. This highlights the need for innovative solutions to improve the diagnosis and treatment of wrist abnormalities. Automated wrist fracture detection using object detection has shown potential, but current studies mainly use two-stage detection methods with limited evidence for single-stage effectiveness. This study employs state-of-the-art single-stage deep neural network-based detection models YOLOv5, YOLOv6, YOLOv7, and YOLOv8 to detect wrist abnormalities. Through extensive experimentation, we found that these YOLO models outperform the commonly used two-stage detection algorithm, Faster R-CNN, in bone fracture detection. Additionally, compound-scaled variants of each YOLO model were compared, with YOLOv8x demonstrating a fracture detection mean average precision (mAP) of 0.95 and an overall mAP of 0.77 on the GRAZPEDWRI-DX pediatric wrist dataset, highlighting the potential of single-stage models for enhancing pediatric wrist imaging.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# 代数的観測可能なPINNを用いた部分観察による疫学パラメータの推定

Estimate Epidemiological Parameters given Partial Observations based on Algebraically Observable PINNs ( http://arxiv.org/abs/2407.12598v1 )

ライセンス: Link先を確認
Mizuka Komatsu, (参考訳) 本研究では,物理インフォームドニューラルネットワーク(PINN)に基づく疫学パラメータ推定の問題を検討した。 実際には、流行モデルによって推定される人口に対応する全ての軌跡データを得ることができず、観測された軌跡はうるさい。 このような部分的な観察から未知の疫学パラメータを推定するPINNの学習は困難である。 そこで本研究では,代数的可観測性の概念をPINNに導入する。 数値実験により,予測パラメータと未観測変数の予測の観点から代数的に観測可能なPINNと命名されたPINNの有効性が示された。

In this study, we considered the problem of estimating epidemiological parameters based on physics-informed neural networks (PINNs). In practice, not all trajectory data corresponding to the population estimated by epidemic models can be obtained, and some observed trajectories are noisy. Learning PINNs to estimate unknown epidemiological parameters using such partial observations is challenging. Accordingly, we introduce the concept of algebraic observability into PINNs. The validity of the proposed PINN, named as an algebraically observable PINNs, in terms of estimation parameters and prediction of unobserved variables, is demonstrated through numerical experiments.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# 識別ニューラルネットワークの多様性について

On Diversity in Discriminative Neural Networks ( http://arxiv.org/abs/2407.12599v1 )

ライセンス: Link先を確認
Brahim Oubaha, Claude Berrou, Xueyao Ji, Yehya Nasser, Raphaël Le Bidan, (参考訳) 多様性は情報処理に基づくほぼすべての分野において最も重要な概念である。 電気通信において、例えば、空間、時間、周波数の多様性は、冗長な符号化と同様に、非常に効率的なシステムの設計を可能にする基本的な概念である。 機械学習、特にニューラルネットワークでは、多様性は必ずしも強調され、少なくとも明確に識別される概念ではない。 本稿では,様々な多様性原則に基づくニューラルネットワークアーキテクチャを提案する。 我々のアーキテクチャは、記録的な自己教師型学習精度99。 MNISTは57%、CIFAR-10の半教師あり学習精度は94.21%と期待されている。

Diversity is a concept of prime importance in almost all disciplines based on information processing. In telecommunications, for example, spatial, temporal, and frequency diversity, as well as redundant coding, are fundamental concepts that have enabled the design of extremely efficient systems. In machine learning, in particular with neural networks, diversity is not always a concept that is emphasized or at least clearly identified. This paper proposes a neural network architecture that builds upon various diversity principles, some of them already known, others more original. Our architecture obtains remarkable results, with a record self-supervised learning accuracy of 99. 57% in MNIST, and a top tier promising semi-supervised learning accuracy of 94.21% in CIFAR-10 using only 25 labels per class.
翻訳日:2024-07-18 16:56:39 公開日:2024-07-17
# クラウドエッジ連続体における適応型コンテナイメージ分布の連続推論

Continuous reasoning for adaptive container image distribution in the cloud-edge continuum ( http://arxiv.org/abs/2407.12605v1 )

ライセンス: Link先を確認
Damiano Azzolini, Stefano Forti, Antonio Ielo, (参考訳) クラウドエッジコンピューティングは、しばしばサイバー物理イベントによって引き起こされる様々なインフラをまたがるアプリケーションを必要とする。 コンテナは軽量なデプロイメントオプションを提供するが、中央リポジトリからイメージを引き出すと遅延が発生する可能性がある。 本稿では,コンテナイメージをクラウドエッジ連続体に複製するための新しい宣言的アプローチとオープンソースプロトタイプを提案する。 リソース可用性、ネットワークQoS、ストレージコストを考慮すると、ロジックプログラミングを活用します。 i) Answer Set Programming (ASP) を用いて最適な初期配置を決定する (二)Prologに基づく連続推論を用いて配置を適応させる。 我々は,ASP と Prolog の連続推論を組み合わせることで,コスト最適化のバランスを保ち,インフラ規模の増加に伴う配置適応の意思決定を促進できることを示す。

Cloud-edge computing requires applications to operate across diverse infrastructures, often triggered by cyber-physical events. Containers offer a lightweight deployment option but pulling images from central repositories can cause delays. This article presents a novel declarative approach and open-source prototype for replicating container images across the cloud-edge continuum. Considering resource availability, network QoS, and storage costs, we leverage logic programming to (i) determine optimal initial placements via Answer Set Programming (ASP) and (ii) adapt placements using Prolog-based continuous reasoning. We evaluate our solution through simulations, showcasing how combining ASP and Prolog continuous reasoning can balance cost optimisation and prompt decision-making in placement adaptation at increasing infrastructure sizes.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# セマンティックセグメンテーションにおけるクラス不均衡のインスタンスワイズ不確実性

Instance-wise Uncertainty for Class Imbalance in Semantic Segmentation ( http://arxiv.org/abs/2407.12609v1 )

ライセンス: Link先を確認
Luís Almeida, Inês Dutra, Francesco Renna, (参考訳) セマンティックセグメンテーションは、膨大な数のアプリケーションを持つ基本的なコンピュータビジョンタスクである。 最先端の手法は、不確実性を誤って推定し、予測に過信していることで知られるディープラーニングモデルにますます依存している。 これは、固有のクラス不均衡に起因するセマンティックセグメンテーションにおいて特に問題となる。 一般的な不確実性定量化手法はタスク非依存であり、不確実性推定において空間的画素相関を利用することができない。 本研究では,セマンティックセグメンテーションに特化して設計された新しいトレーニング手法を提案する。 トレーニングサンプルは、アンサンブルによって計算されるインスタンスワイドの不確実性マスクによって重み付けされる。 これは、クラス比の逆数やクラス重みが全くない場合と比較して、マイノリティクラスの性能を高め、モデル一般化とドメインシフトに対する堅牢性を高めることが示されている。 本手法は,セマンティックセグメンテーションにおけるクラス不均衡と不確実性推定の課題に対処する。

Semantic segmentation is a fundamental computer vision task with a vast number of applications. State of the art methods increasingly rely on deep learning models, known to incorrectly estimate uncertainty and being overconfident in predictions, especially in data not seen during training. This is particularly problematic in semantic segmentation due to inherent class imbalance. Popular uncertainty quantification approaches are task-agnostic and fail to leverage spatial pixel correlations in uncertainty estimates, crucial in this task. In this work, a novel training methodology specifically designed for semantic segmentation is presented. Training samples are weighted by instance-wise uncertainty masks computed by an ensemble. This is shown to increase performance on minority classes, boost model generalization and robustness to domain-shift when compared to using the inverse of class proportions or no class weights at all. This method addresses the challenges of class imbalance and uncertainty estimation in semantic segmentation, potentially enhancing model performance and reliability across various applications.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# 多言語セグメンテーションのための部分ラベル付きデータセット間の深層相互学習

Deep Mutual Learning among Partially Labeled Datasets for Multi-Organ Segmentation ( http://arxiv.org/abs/2407.12611v1 )

ライセンス: Link先を確認
Xiaoyu Liu, Linhao Qu, Ziyue Xie, Yonghong Shi, Zhijian Song, (参考訳) セグメンテーションのために複数の臓器をラベル付けする作業は複雑で時間を要するプロセスであり、結果として、多数の部分的にラベル付けされたデータセットが出現している間に、包括的にラベル付けされた複数の臓器データセットが不足する。 現在の手法では,これらのデータセットから得られる教師付き情報を効果的に活用できないため,セグメント化精度の向上が困難である。 本稿では,相互学習に基づく2段階の多臓器セグメンテーション手法を提案し,部分ラベル付きデータセット間の情報補完による多臓器セグメンテーション性能の向上を目指す。 第1段階では、各部分臓器分割モデルは、異なるデータセットからの重複しない臓器ラベルと異なるモデルによって抽出された異なる臓器特徴を利用し、追加の相互差分学習を導入し、ラベルなし臓器の高品質な擬似ラベルを生成する。 第2段階では、各全組織セグメンテーションモデルは、擬似ラベル付き完全ラベルデータセットで管理され、他のデータセットからの真のラベルを活用すると同時に、異なるモデル間で正確な機能を動的に共有し、さらに相互類似性学習を導入し、マルチ組織セグメンテーションパフォーマンスを向上させる。 頭と首、胸、腹部、骨盤を含む9つのデータセットで大規模な実験を行った。 その結果,部分ラベルに依存したセグメンテーション作業においてSOTA性能を達成し,相互学習機構の有効性を徹底的に検証した。

The task of labeling multiple organs for segmentation is a complex and time-consuming process, resulting in a scarcity of comprehensively labeled multi-organ datasets while the emergence of numerous partially labeled datasets. Current methods are inadequate in effectively utilizing the supervised information available from these datasets, thereby impeding the progress in improving the segmentation accuracy. This paper proposes a two-stage multi-organ segmentation method based on mutual learning, aiming to improve multi-organ segmentation performance by complementing information among partially labeled datasets. In the first stage, each partial-organ segmentation model utilizes the non-overlapping organ labels from different datasets and the distinct organ features extracted by different models, introducing additional mutual difference learning to generate higher quality pseudo labels for unlabeled organs. In the second stage, each full-organ segmentation model is supervised by fully labeled datasets with pseudo labels and leverages true labels from other datasets, while dynamically sharing accurate features across different models, introducing additional mutual similarity learning to enhance multi-organ segmentation performance. Extensive experiments were conducted on nine datasets that included the head and neck, chest, abdomen, and pelvis. The results indicate that our method has achieved SOTA performance in segmentation tasks that rely on partial labels, and the ablation studies have thoroughly confirmed the efficacy of the mutual learning mechanism.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# オーディエンスビュー:ジャーナリズムにおけるオーディエンスフィードバックのAIによる解釈

AudienceView: AI-Assisted Interpretation of Audience Feedback in Journalism ( http://arxiv.org/abs/2407.12613v1 )

ライセンス: Link先を確認
William Brannon, Doug Beeferman, Hang Jiang, Andrew Heyward, Deb Roy, (参考訳) オーディエンスフィードバックの理解と利用は、ジャーナリストにとって重要であるが、今、オンラインで大量のオーディエンスコメントに直面している。 AudienceViewは、ジャーナリストが大きな言語モデル(LLM)を利用することで、このフィードバックを分類し、解釈するのを助けるオンラインツールである。 AudienceViewはテーマとトピックを特定し、特定のコメントに関連付け、コメントの感情と配布を視覚化する方法を提供する。 このようなツールがジャーナリストのワークフローにどのように役立つかを検討し,文脈認識と人的判断の重要性を強調した。

Understanding and making use of audience feedback is important but difficult for journalists, who now face an impractically large volume of audience comments online. We introduce AudienceView, an online tool to help journalists categorize and interpret this feedback by leveraging large language models (LLMs). AudienceView identifies themes and topics, connects them back to specific comments, provides ways to visualize the sentiment and distribution of the comments, and helps users develop ideas for subsequent reporting projects. We consider how such tools can be useful in a journalist's workflow, and emphasize the importance of contextual awareness and human judgment.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# YOLOv7プルーニングと情報に基づく追跡アルゴリズムに基づくイチゴの検出とカウント

Strawberry detection and counting based on YOLOv7 pruning and information based tracking algorithm ( http://arxiv.org/abs/2407.12614v1 )

ライセンス: Link先を確認
Shiyu Liu, Congliang Zhou, Won Suk Lee, (参考訳) イチゴ産業はフロリダにとって大きな経済的利益をもたらすが、イチゴの成長と収量を監視するプロセスは労働集約的でコストがかかる。 機械学習による検出・追跡手法の開発は, イチゴ収量の自動モニタリング・予測に利用されているが, これまでの研究では, 画像データセットの独特の特徴を考慮せず, 花や果実の検出に深層学習法を適用しただけであったため, 改良が限られている。 本研究は,イチゴの花,未熟果実,成熟果実の検出を迅速かつ正確に行うことができる深層学習モデル(YOLOv7とその変種)の検出ヘッドの最適刈り取り法を提案した。 その後、情報ベース追跡アルゴリズム(IBTA)と呼ばれる拡張オブジェクト追跡アルゴリズムが、最良の検出結果を利用し、カルマンフィルタを除去し、移動方向、速度、空間情報を統合してイチゴの花と果物の追跡精度を向上させる。 提案された検出ヘッドは、検出ヘッド3のPruning-YOLOv7-tinyとヘッド2と3のPruning-YOLOv7-tinyでそれぞれ最高の推論速度(毎秒163.9フレーム)と検出精度(89.1%)を達成した。 一方、ICBTAは、CTA(Centroid Tracking Algorithm)、MOTA(Multiple Object Tracking Accuracy)、MOTP(Multiple Object Tracking Precision)と比較すると、CTAの12.3%と6.0%であった。 さらに, IDF1, IDR, IDP, MT, IDなどのオブジェクト追跡評価指標は, イチゴの花や果実の追跡において, IBTAがCTAよりも優れた性能を示した。

The strawberry industry yields significant economic benefits for Florida, yet the process of monitoring strawberry growth and yield is labor-intensive and costly. The development of machine learning-based detection and tracking methodologies has been used for helping automated monitoring and prediction of strawberry yield, still, enhancement has been limited as previous studies only applied the deep learning method for flower and fruit detection, which did not consider the unique characteristics of image datasets collected by the machine vision system. This study proposed an optimal pruning of detection heads of the deep learning model (YOLOv7 and its variants) that could achieve fast and precise strawberry flower, immature fruit, and mature fruit detection. Thereafter, an enhanced object tracking algorithm, which is called the Information Based Tracking Algorithm (IBTA) utilized the best detection result, removed the Kalman Filter, and integrated moving direction, velocity, and spatial information to improve the precision in strawberry flower and fruit tracking. The proposed pruning of detection heads across YOLOv7 variants, notably Pruning-YOLOv7-tiny with detection head 3 and Pruning-YOLOv7-tiny with heads 2 and 3 achieved the best inference speed (163.9 frames per second) and detection accuracy (89.1%), respectively. On the other hand, the effect of IBTA was proved by comparing it with the centroid tracking algorithm (CTA), the Multiple Object Tracking Accuracy (MOTA) and Multiple Object Tracking Precision (MOTP) of IBTA were 12.3% and 6.0% higher than that of CTA, accordingly. In addition, other object-tracking evaluation metrics, including IDF1, IDR, IDP, MT, and IDs, show that IBTA performed better than CTA in strawberry flower and fruit tracking.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# 一様モデルの連接埋め込みによるマルチモーダル学習の欠落率予測

Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models ( http://arxiv.org/abs/2407.12616v1 )

ライセンス: Link先を確認
Donggeun Kim, Taesup Kim, (参考訳) マルチモーダル学習は、訓練と推論の段階で全てのモダリティが完全に利用できるという仮定に依存している。 しかし、現実のシナリオでは、完全なマルチモーダルデータを一貫して取得することは、様々な要因によって大きな課題となる。 これはしばしば、特定のモダリティのデータが欠落するモダリティの問題を引き起こし、マルチモーダル事前訓練モデルの可用性だけでなく、細調整や下流タスクの堅牢性の維持にもかなりの障害を生じさせる。 これらの課題に対処するために, 自己教師付き共同埋め込み学習手法を用いて, パラメータ効率の良い一助事前学習モデルの微調整を行う新しい枠組みを提案する。 このフレームワークにより、モデルは推論中に表現空間に欠落したモダリティの埋め込みを予測することができる。 提案手法は,利用可能なモダリティからの情報を活用し,即時チューニングによる埋め込みの欠如を効果的に予測する。 我々は,複数のマルチモーダルベンチマークデータセットに対するアプローチを評価し,その有効性とロバスト性を,欠落したモダリティの様々なシナリオにわたって示す。

Multimodal learning typically relies on the assumption that all modalities are fully available during both the training and inference phases. However, in real-world scenarios, consistently acquiring complete multimodal data presents significant challenges due to various factors. This often leads to the issue of missing modalities, where data for certain modalities are absent, posing considerable obstacles not only for the availability of multimodal pretrained models but also for their fine-tuning and the preservation of robustness in downstream tasks. To address these challenges, we propose a novel framework integrating parameter-efficient fine-tuning of unimodal pretrained models with a self-supervised joint-embedding learning method. This framework enables the model to predict the embedding of a missing modality in the representation space during inference. Our method effectively predicts the missing embedding through prompt tuning, leveraging information from available modalities. We evaluate our approach on several multimodal benchmark datasets and demonstrate its effectiveness and robustness across various scenarios of missing modalities.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# 改訂されたブーメラン接続テーブルとその差分分布テーブルへの接続

The revised boomerang connectivity tables and their connection to the Difference Distribution Table ( http://arxiv.org/abs/2407.12617v1 )

ライセンス: Link先を確認
K. Garg, S. U. Hasan, C. Riera, P. Stanica, (参考訳) 有限体上の函数が現代のブロック暗号における置換箱(S-box)の設計において重要な役割を果たすことはよく知られている。 Sボックスのセキュリティを分析するため、最近、拡張ボメラン接続テーブル(EBCT)、下ボメラン接続テーブル(LBCT)、上ボメラン接続テーブル(UBCT)の3つの新しいテーブルが導入された。 実際、これらのテーブルはブーメランスタイルの攻撃に対するSボックスのセキュリティを分析するため、通常のブーメラン接続テーブル(BCT)よりも改善された方法を提供する。 ここでは、これらの新しいEBCT、LBCT、UBCTの概念を、差分$\delta$-uniform関数のためにDDTに接続し、差分$4$-uniform Power Permutation(Gold, Kasami, Bracken-Leander)のEBCT、LBCT、UBCTのエントリを決定することによって、コンテキストで述べる。 また、金関数の二重ボメラン接続テーブル(DBCT)のエントリも決定する。 このアプローチの副産物として、以前に公表されたいくつかの結果を簡単に得ることができる。

It is well-known that functions over finite fields play a crucial role in designing substitution boxes (S-boxes) in modern block ciphers. In order to analyze the security of an S-box, recently, three new tables have been introduced: the Extended Boomerang Connectivity Table (EBCT), the Lower Boomerang Connectivity Table (LBCT), and the Upper Boomerang Connectivity Table (UBCT). In fact, these tables offer improved methods over the usual Boomerang Connectivity Table (BCT) for analyzing the security of S-boxes against boomerang-style attacks. Here, we put in context these new EBCT, LBCT, and UBCT concepts by connecting them to the DDT for a differentially $\delta$-uniform function and also determine the EBCT, LBCT, and UBCT entries of three classes of differentially $4$-uniform power permutations, namely, Gold, Kasami and Bracken-Leander. We also determine the Double Boomerang Connectivity Table (DBCT) entries of the Gold function. As byproducts of our approach, we obtain some previously published results quite easily.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# 金融サービスにおける量子機械学習の概観

A Brief Review of Quantum Machine Learning for Financial Services ( http://arxiv.org/abs/2407.12618v1 )

ライセンス: Link先を確認
Mina Doosti, Petros Wallden, Conor Brian Hamill, Robert Hankache, Oliver Thomson Brown, Chris Heunen, (参考訳) 本稿では,ファイナンスに応用可能な量子機械学習における最先端のアルゴリズムと技術について検討する。 本稿では、量子変分法、量子カーネル推定、量子ニューラルネットワーク(QNN)などの教師あり学習タスクにおけるQML技術と、量子変換器や量子グラフニューラルネットワーク(QGNN)のような量子生成AI技術について議論する。 検討される金融アプリケーションには、リスク管理、クレジットスコアリング、不正検出、株価予測が含まれる。 また,QMLの課題,可能性,限界についても概説する。 これは、データサイエンティスト、金融分野の専門家、そしてこの分野の熱心な人たちにとって、量子コンピューティングとQMLが専門分野の探求に興味深い理由を理解するための簡単なガイドになることを期待している。

This review paper examines state-of-the-art algorithms and techniques in quantum machine learning with potential applications in finance. We discuss QML techniques in supervised learning tasks, such as Quantum Variational Classifiers, Quantum Kernel Estimation, and Quantum Neural Networks (QNNs), along with quantum generative AI techniques like Quantum Transformers and Quantum Graph Neural Networks (QGNNs). The financial applications considered include risk management, credit scoring, fraud detection, and stock price prediction. We also provide an overview of the challenges, potential, and limitations of QML, both in these specific areas and more broadly across the field. We hope that this can serve as a quick guide for data scientists, professionals in the financial sector, and enthusiasts in this area to understand why quantum computing and QML in particular could be interesting to explore in their field of expertise.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# 絶滅危惧言語を活気づける人工知能の力:技術と経験

Harnessing the Power of Artificial Intelligence to Vitalize Endangered Indigenous Languages: Technologies and Experiences ( http://arxiv.org/abs/2407.12620v1 )

ライセンス: Link先を確認
Claudio Pinhanez, Paulo Cavalin, Luciana Storto, Thomas Fimbow, Alexander Cobbinah, Julio Nogima, Marisa Vasconcelos, Pedro Domingues, Priscila de Souza Mizukami, Nicole Grell, Majoí Gongora, Isabel Gonçalves, (参考訳) 2022年以降、我々はLarge Language Models (LLMs) のような人工知能(AI)と現代の自然言語処理(NLP)を応用し、その利用を奨励し、消滅の危機にある先住民言語の文書化を促進するための応用分野と技術を模索してきた。 私たちはまず、世界の言語の多様性の減少と、AIとNLPに固有の倫理的課題をいかにもたらすかについて議論する。 これらの課題に対処するため、コミュニティの関与と利用に基づいて、代替開発AIサイクルを提案する。 そこで,本研究では,少数のデータを用いた細調整型SOTA(State-of-the-art)トランスレータにより,インディジェネラル言語のための高品質な機械学習トランスレータの開発を奨励する結果を報告し,その過程で共通の落とし穴を避ける方法について論じる。 また、2023年と2024年にブラジルの先住民コミュニティが行ったプロジェクトで構築したプロトタイプについても紹介し、スペルチェッカー、次の単語予測器、その他のツールを作成するためのレプリカでスケーラブルな方法として、インディジェネラル言語モデル(ILM)の開発について論じています。 最後に,死語が対話型言語モデルとして保存される言語ドキュメントの将来について論じる。

Since 2022 we have been exploring application areas and technologies in which Artificial Intelligence (AI) and modern Natural Language Processing (NLP), such as Large Language Models (LLMs), can be employed to foster the usage and facilitate the documentation of Indigenous languages which are in danger of disappearing. We start by discussing the decreasing diversity of languages in the world and how working with Indigenous languages poses unique ethical challenges for AI and NLP. To address those challenges, we propose an alternative development AI cycle based on community engagement and usage. Then, we report encouraging results in the development of high-quality machine learning translators for Indigenous languages by fine-tuning state-of-the-art (SOTA) translators with tiny amounts of data and discuss how to avoid some common pitfalls in the process. We also present prototypes we have built in projects done in 2023 and 2024 with Indigenous communities in Brazil, aimed at facilitating writing, and discuss the development of Indigenous Language Models (ILMs) as a replicable and scalable way to create spell-checkers, next-word predictors, and similar tools. Finally, we discuss how we envision a future for language documentation where dying languages are preserved as interactive language models.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# 効率的なジェネリックイベント境界検出のためのアーキテクチャ設計の再考

Rethinking the Architecture Design for Efficient Generic Event Boundary Detection ( http://arxiv.org/abs/2407.12622v1 )

ライセンス: Link先を確認
Ziwei Zheng, Zechuan Zhang, Yulin Wang, Shiji Song, Gao Huang, Le Yang, (参考訳) ジェネリックイベント境界検出(GEBD)は、映像を意味のある時間的チャンクに連続的に分割する人間の視覚的認知行動にインスパイアされ、ビデオ編集などの様々なアプリケーションで有用性を見出す。 本稿では,SOTA GEBDモデルがモデル複雑性よりも最終的な性能を優先することがしばしばあり,推論速度が低く,現実のシナリオにおける効率的な展開を妨げていることを実証する。 GEBDモデルのアーキテクチャを実験的に再検討し、いくつかの驚くべき発見を明らかにすることで、この問題に対処することに貢献する。 まず、精密なGABDベースラインモデルが、洗練された設計を伴わずに、有望な性能をすでに達成していることを明らかにする。 第二に、GEBDモデルの広く適用されている画像ドメインのバックボーンには、多くのアーキテクチャの冗長性があり、効率を高めるために各コンポーネントを段階的に‘近代化’する動機がある。 第3に,空間的・時間的欲求的な方法で時空間学習を行うイメージドメインのバックボーンを用いたGABDモデルは,GABDの非効率な悪役であるような気晴らし問題に悩まされる可能性があることを示す。 ビデオドメインのバックボーンを使って時空間モデリングを共同で行うことが,この問題に対する効果的な解決策である。 EfficientGEBD という名前の GEBD モデルのファミリは,従来の SOTA 手法を最大 1.7 % の性能向上と 280 % の高速化で大幅に上回っている。 本研究は,特に資源を意識したアプリケーションにおいて,モデル複雑性を考慮した最新のGABD手法を設計することを促すものである。 コードは \url{https://github.com/Ziwei-Zheng/EfficientGEBD} で公開されている。

Generic event boundary detection (GEBD), inspired by human visual cognitive behaviors of consistently segmenting videos into meaningful temporal chunks, finds utility in various applications such as video editing and. In this paper, we demonstrate that SOTA GEBD models often prioritize final performance over model complexity, resulting in low inference speed and hindering efficient deployment in real-world scenarios. We contribute to addressing this challenge by experimentally reexamining the architecture of GEBD models and uncovering several surprising findings. Firstly, we reveal that a concise GEBD baseline model already achieves promising performance without any sophisticated design. Secondly, we find that the widely applied image-domain backbones in GEBD models can contain plenty of architecture redundancy, motivating us to gradually ``modernize'' each component to enhance efficiency. Thirdly, we show that the GEBD models using image-domain backbones conducting the spatiotemporal learning in a spatial-then-temporal greedy manner can suffer from a distraction issue, which might be the inefficient villain for GEBD. Using a video-domain backbone to jointly conduct spatiotemporal modeling is an effective solution for this issue. The outcome of our exploration is a family of GEBD models, named EfficientGEBD, significantly outperforms the previous SOTA methods by up to 1.7\% performance gain and 280\% speedup under the same backbone. Our research prompts the community to design modern GEBD methods with the consideration of model complexity, particularly in resource-aware applications. The code is available at \url{https://github.com/Ziwei-Zheng/EfficientGEBD}.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# ドメイン固有または不確実性認識モデル: バイオメディカルテキスト分類において本当に違いがあるか?

Domain-specific or Uncertainty-aware models: Does it really make a difference for biomedical text classification? ( http://arxiv.org/abs/2407.12626v1 )

ライセンス: Link先を確認
Aman Sinha, Timothee Mickus, Marianne Clausel, Mathieu Constant, Xavier Coubez, (参考訳) 先進的な言語モデル(PLM)の成功は、NLPコミュニティからドメイン固有の基礎モデル構築への多大な投資につながった。 一方、バイオメディカル・アプリケーションのようなミッションクリティカル・セッティングにおいて、他の側面は、モデルが自身の不確実性を合理的に見積もる能力である主要因でもある。 本研究では,これらの2つのデシラタについて,モデルの出力確率分布のエントロピーをどのように形成するかのレンズを通して論じる。 ドメインの特異性と不確実性に対する認識は、しばしばうまく組み合わせられるが、正確なタスクはより強く重み付けされている。

The success of pretrained language models (PLMs) across a spate of use-cases has led to significant investment from the NLP community towards building domain-specific foundational models. On the other hand, in mission critical settings such as biomedical applications, other aspects also factor in-chief of which is a model's ability to produce reasonable estimates of its own uncertainty. In the present study, we discuss these two desiderata through the lens of how they shape the entropy of a model's output probability distribution. We find that domain specificity and uncertainty awareness can often be successfully combined, but the exact task at hand weighs in much more strongly.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# PL不等式下での適応勾配法の線形収束性を確立する方法

A Methodology Establishing Linear Convergence of Adaptive Gradient Methods under PL Inequality ( http://arxiv.org/abs/2407.12629v1 )

ライセンス: Link先を確認
Kushal Chakrabarti, Mayank Baranwal, (参考訳) 適応勾配偏光オプティマイザは、ニューラルネットワークモデルをトレーニングするための標準選択である。 勾配勾配よりも早く収束し、実際に顕著な性能を保っているにもかかわらず、適応最適化器はバニラ勾配降下器ほどよく理解されていない。 理由は、これらの手法のより高速な収束に役立つ学習率の動的更新が、それらの分析を複雑にするからである。 特に、単純な勾配差分法は一連の最適化問題に対して線形速度で収束するが、実際より高速な適応勾配法はそのような理論的な保証を欠いている。 ポリアック-{\L}ojasiewicz(PL)の不等式は最も弱い既知のクラスであり、勾配線と運動量の変化の線形収束が証明されている。 そこで本稿では,コスト関数が滑らかでPLの不等式を満たす場合,AdaGradとAdamの2つのよく知られた適応勾配法が線形に収束することを証明する。 我々の理論的枠組みは、バッチおよび確率勾配の両方に適用可能な単純で統一的なアプローチに従う。

Adaptive gradient-descent optimizers are the standard choice for training neural network models. Despite their faster convergence than gradient-descent and remarkable performance in practice, the adaptive optimizers are not as well understood as vanilla gradient-descent. A reason is that the dynamic update of the learning rate that helps in faster convergence of these methods also makes their analysis intricate. Particularly, the simple gradient-descent method converges at a linear rate for a class of optimization problems, whereas the practically faster adaptive gradient methods lack such a theoretical guarantee. The Polyak-{\L}ojasiewicz (PL) inequality is the weakest known class, for which linear convergence of gradient-descent and its momentum variants has been proved. Therefore, in this paper, we prove that AdaGrad and Adam, two well-known adaptive gradient methods, converge linearly when the cost function is smooth and satisfies the PL inequality. Our theoretical framework follows a simple and unified approach, applicable to both batch and stochastic gradients, which can potentially be utilized in analyzing linear convergence of other variants of Adam.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# 高活性特徴指数類似度による擬似ラベルの重み付けと半教師付きセグメンテーションのための物体検出

Weighting Pseudo-Labels via High-Activation Feature Index Similarity and Object Detection for Semi-Supervised Segmentation ( http://arxiv.org/abs/2407.12630v1 )

ライセンス: Link先を確認
Prantik Howlader, Hieu Le, Dimitris Samaras, (参考訳) 半教師付きセマンティックセグメンテーション法は、擬似ラベル付けによってラベル付けされていないデータを活用する。 したがって、これらの手法の成功は擬似ラベルの信頼性に左右される。 既存の手法では、誤った擬似ラベルを避けるため、主に高信頼画素を選択する。 しかし、特に初期のトレーニングイテレーションにおいて、高い信頼性は正しい擬似ラベルを保証しません。 本稿では,疑似ラベルから確実に学習するための新しいアプローチを提案する。 まず、トレーニング対象検出器とセマンティックセグメンテーションモデルから予測を統一し、信頼性の高い擬似ラベル画素を識別する。 第二に、ノイズの多い学習信号を避けるために、擬似ラベル付き画素に異なる学習重みを割り当てる。 これらの重みを決定するために、まず第一段階から同定された信頼度の高い擬似ラベル画素を用いて、各クラスのプロトタイプを構築する。 そして、画素あたりの重量は、ランク統計の類似性によって測定された画素とプロトタイプの間の構造的類似性である。 このメトリクスはノイズに対して堅牢であり、特に間違った擬似ラベルが発生しやすい初期トレーニングフェーズにおいて、ラベルのない画像の特徴を比較するのに適している。 提案手法は,4つの半教師付きセマンティックセマンティックセマンティクスフレームワークに容易に統合でき,Cityscapes と Pascal VOC のデータセットでそれらを改善することができる。

Semi-supervised semantic segmentation methods leverage unlabeled data by pseudo-labeling them. Thus the success of these methods hinges on the reliablility of the pseudo-labels. Existing methods mostly choose high-confidence pixels in an effort to avoid erroneous pseudo-labels. However, high confidence does not guarantee correct pseudo-labels especially in the initial training iterations. In this paper, we propose a novel approach to reliably learn from pseudo-labels. First, we unify the predictions from a trained object detector and a semantic segmentation model to identify reliable pseudo-label pixels. Second, we assign different learning weights to pseudo-labeled pixels to avoid noisy training signals. To determine these weights, we first use the reliable pseudo-label pixels identified from the first step and labeled pixels to construct a prototype for each class. Then, the per-pixel weight is the structural similarity between the pixel and the prototype measured via rank-statistics similarity. This metric is robust to noise, making it better suited for comparing features from unlabeled images, particularly in the initial training phases where wrong pseudo labels are prone to occur. We show that our method can be easily integrated into four semi-supervised semantic segmentation frameworks, and improves them in both Cityscapes and Pascal VOC datasets.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# CerberusDet: 統一マルチタスクオブジェクト検出

CerberusDet: Unified Multi-Task Object Detection ( http://arxiv.org/abs/2407.12632v1 )

ライセンス: Link先を確認
Irina Tolstykh, Mikhail Chernyshov, Maksim Kuprashevich, (参考訳) 物体検出はコンピュータビジョンのコアタスクである。 長年にわたり、多くのモデルの開発は性能を著しく向上させてきた。 しかしながら、これらの従来のモデルは、訓練されたデータと彼らが定義したカテゴリ論理によって制限される。 近年のLanguage-Visual Modelsの台頭により、これらの固定されたカテゴリに制限されない新しい手法が出現した。 柔軟性にもかかわらず、そのようなOpen Vocabulary検出モデルは、固定クラスを持つ従来のモデルに比べて精度が低い。 同時に、クラスを拡張したり、トレーニングのために異なるデータセットをマージする必要がある場合、より正確なデータ固有モデルが課題に直面します。 後者は、異なるロジックや矛盾するクラス定義のために組み合わせられず、パフォーマンスを損なうことなくモデルを改善するのが難しくなる。 本稿では,複数のオブジェクト検出タスクを処理するために設計されたマルチヘッドモデルを備えたフレームワークであるCerberusDetを紹介する。 提案するモデルはYOLOアーキテクチャ上に構築されており、バックボーンとネックコンポーネントの両方から視覚的特徴を効率的に共有し、別々のタスクヘッドを維持している。 このアプローチにより、CerberusDetは最適な結果を提供しながら、非常に効率的に実行できる。 我々は、PASCAL VOCデータセットとObjects365データセットから追加カテゴリのモデルを評価し、その能力を実証した。 CerberusDetは、推論時間を36%削減した最先端のデータ固有モデルに匹敵する結果を得た。 タスクが一緒に訓練されるほど、提案されたモデルは、個別のモデルを逐次実行するよりも効率的になる。 トレーニングと推論のコードとモデルがオープンソースとして公開されている(https://github.com/ai-forever/CerberusDet)。

Object detection is a core task in computer vision. Over the years, the development of numerous models has significantly enhanced performance. However, these conventional models are usually limited by the data on which they were trained and by the category logic they define. With the recent rise of Language-Visual Models, new methods have emerged that are not restricted to these fixed categories. Despite their flexibility, such Open Vocabulary detection models still fall short in accuracy compared to traditional models with fixed classes. At the same time, more accurate data-specific models face challenges when there is a need to extend classes or merge different datasets for training. The latter often cannot be combined due to different logics or conflicting class definitions, making it difficult to improve a model without compromising its performance. In this paper, we introduce CerberusDet, a framework with a multi-headed model designed for handling multiple object detection tasks. Proposed model is built on the YOLO architecture and efficiently shares visual features from both backbone and neck components, while maintaining separate task heads. This approach allows CerberusDet to perform very efficiently while still delivering optimal results. We evaluated the model on the PASCAL VOC dataset and additional categories from the Objects365 dataset to demonstrate its abilities. CerberusDet achieved results comparable to state-of-the-art data-specific models with 36% less inference time. The more tasks are trained together, the more efficient the proposed model becomes compared to running individual models sequentially. The training and inference code, as well as the model, are available as open-source (https://github.com/ai-forever/CerberusDet).
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# 超伝導回路におけるパルスベースの変分量子最適化とメタラーニング

Pulse-based variational quantum optimization and metalearning in superconducting circuits ( http://arxiv.org/abs/2407.12636v1 )

ライセンス: Link先を確認
Yapeng Wang, Yongcheng Ding, Francisco Andrés Cárdenas-López, Xi Chen, (参考訳) 変分アルゴリズムを用いて最適化問題を解くことは、ノイズの多い中間スケールデバイスにとって重要な応用である。 ゲートベースの量子コンピュータを構築する代わりに、アナログパラダイム内の変分量子アルゴリズムの設計に重点を置いています。 これは、パルスを直接制御するパラメータを最適化し、量子回路をコンパイルすることなく、ターゲット状態に向けて量子状態を駆動する。 本稿では,ハードウェアレベルのフレームワークとしてパルスベースの変動量子最適化(PBVQO)を導入する。 超伝導量子干渉デバイス上の外部フラックスを最適化し、この特定の量子アーキテクチャの波動関数を、符号化問題ハミルトニアンの基底状態に効果的に駆動することにより、この枠組みを説明する。 変分アルゴリズムの性能は適切な初期パラメータに大きく依存しているため、簡単な問題に対処するためのメタラーニング手法としてグローバルオプティマイザを導入する。 PBVQOとメタラーニングの相乗効果は、従来のゲートベースの変分アルゴリズムよりも有利である。

Solving optimization problems using variational algorithms stands out as a crucial application for noisy intermediate-scale devices. Instead of constructing gate-based quantum computers, our focus centers on designing variational quantum algorithms within the analog paradigm. This involves optimizing parameters that directly control pulses, driving quantum states towards target states without the necessity of compiling a quantum circuit. In this work, we introduce pulse-based variational quantum optimization (PBVQO) as a hardware-level framework. We illustrate the framework by optimizing external fluxes on superconducting quantum interference devices, effectively driving the wave function of this specific quantum architecture to the ground state of an encoded problem Hamiltonian. Given that the performance of variational algorithms heavily relies on appropriate initial parameters, we introduce a global optimizer as a meta-learning technique to tackle a simple problem. The synergy between PBVQO and meta-learning provides an advantage over conventional gate-based variational algorithms.
翻訳日:2024-07-18 16:45:33 公開日:2024-07-17
# 勾配の量子化誤差探索によるINT4固定点学習に向けて

Toward INT4 Fixed-Point Training via Exploring Quantization Error for Gradients ( http://arxiv.org/abs/2407.12637v1 )

ライセンス: Link先を確認
Dohyung Kim, Junghyup Lee, Jeimin Jeon, Jaehyeon Moon, Bumsub Ham, (参考訳) ネットワーク量子化は一般的に、推論プロセスを加速するために、全精度の重みと/またはアクティベーションを低ビットの固定点値に変換する。 ネットワーク量子化への最近のアプローチは、勾配をさらに低ビットの固定点値に離散化し、効率的なトレーニングを可能にしている。 彼らは通常、勾配のmin-max範囲を使って量子化間隔を設定したり、勾配全体の量子化誤差を最小限に抑えるように間隔を調整する。 本稿では,低ビット定点訓練における勾配の量子化誤差を分析し,大振幅勾配の誤差の低減が量子化性能を著しく向上させることを示す。 これに基づいて、大勾配の量子化誤差の上限を量子化間隔で導出し、大勾配の量子化誤差を最小化する区間の最適条件を得る。 また、大きな勾配に対する小さな量子化誤差を維持するために、量子化間隔を適応的に調整する間隔更新アルゴリズムを導入する。 実験により,画像分類,物体検出,超解像といった様々なタスクにおけるネットワークアーキテクチャとビット幅の組み合わせに対する量子化手法の有効性が示された。

Network quantization generally converts full-precision weights and/or activations into low-bit fixed-point values in order to accelerate an inference process. Recent approaches to network quantization further discretize the gradients into low-bit fixed-point values, enabling an efficient training. They typically set a quantization interval using a min-max range of the gradients or adjust the interval such that the quantization error for entire gradients is minimized. In this paper, we analyze the quantization error of gradients for the low-bit fixed-point training, and show that lowering the error for large-magnitude gradients boosts the quantization performance significantly. Based on this, we derive an upper bound of quantization error for the large gradients in terms of the quantization interval, and obtain an optimal condition for the interval minimizing the quantization error for large gradients. We also introduce an interval update algorithm that adjusts the quantization interval adaptively to maintain a small quantization error for large gradients. Experimental results demonstrate the effectiveness of our quantization method for various combinations of network architectures and bit-widths on various tasks, including image classification, object detection, and super-resolution.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# ARTEMIS: 変圧器ニューラルネット用混合アナログ確率型In-DRAM加速器

ARTEMIS: A Mixed Analog-Stochastic In-DRAM Accelerator for Transformer Neural Networks ( http://arxiv.org/abs/2407.12638v1 )

ライセンス: Link先を確認
Salma Afifi, Ishan Thakkar, Sudeep Pasricha, (参考訳) トランスフォーマーは自然言語処理(NLP)とコンピュータビジョンのための強力なツールとして登場した。 注意機構を通じて、これらのモデルは、リカレントニューラルネットワーク(RNN)や畳み込みニューラルネットワーク(CNN)といった従来のアプローチと比較して、顕著なパフォーマンス向上を示した。 それにもかかわらず、トランスフォーマーは通常、広範囲の計算と大きなメモリフットプリントのために、かなりの実行時間を要求する。 メモリ内処理(PIM)とニアメモリコンピューティング(NMC)は、高い計算並列性とメモリ帯域幅を提供するトランスフォーマーを高速化するための、有望なソリューションである。 しかしながら、トランスフォーマーニューラルネットワークの層間で移動する必要がある複雑な操作と大量のデータをサポートするために、PIM/NMCアーキテクチャを設計することは、依然として課題である。 変換器モデルのための混合アナログ確率型インDRAM加速器ARTEMISを提案する。 従来のDRAMアレイの最小限の変更により、ARTEMISは、新しいDRAM金属オンメタルコンデンサを用いて、乗算および時間的アナログ蓄積のための確率計算をサポートすることにより、トランスフォーマモデル実行に伴うコストを効率的に軽減する。 解析の結果、ARTEMISはGPU、TPU、CPU、最先端のPIMトランスハードウェアアクセラレータと比較して、少なくとも3.0倍のスピードアップ、1.8倍のエネルギー、そして1.9倍のエネルギー効率を示した。

Transformers have emerged as a powerful tool for natural language processing (NLP) and computer vision. Through the attention mechanism, these models have exhibited remarkable performance gains when compared to conventional approaches like recurrent neural networks (RNNs) and convolutional neural networks (CNNs). Nevertheless, transformers typically demand substantial execution time due to their extensive computations and large memory footprint. Processing in-memory (PIM) and near-memory computing (NMC) are promising solutions to accelerating transformers as they offer high compute parallelism and memory bandwidth. However, designing PIM/NMC architectures to support the complex operations and massive amounts of data that need to be moved between layers in transformer neural networks remains a challenge. We propose ARTEMIS, a mixed analog-stochastic in-DRAM accelerator for transformer models. Through employing minimal changes to the conventional DRAM arrays, ARTEMIS efficiently alleviates the costs associated with transformer model execution by supporting stochastic computing for multiplications and temporal analog accumulations using a novel in-DRAM metal-on-metal capacitor. Our analysis indicates that ARTEMIS exhibits at least 3.0x speedup, 1.8x lower energy, and 1.9x better energy efficiency compared to GPU, TPU, CPU, and state-of-the-art PIM transformer hardware accelerators.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# シングルコアおよびマルチコアアーキテクチャ上での効率的な実行のための量子回路のプロファイリング

Profiling quantum circuits for their efficient execution on single- and multi-core architectures ( http://arxiv.org/abs/2407.12640v1 )

ライセンス: Link先を確認
Medina Bandic, Pablo le Henaff, Anabel Ovide, Pau Escofet, Sahar Ben Rached, Santiago Rodrigo, Hans van Someren, Sergi Abadal, Eduard Alarcon, Carmen G. Almudever, Sebastian Feld, (参考訳) アプリケーション固有の量子コンピュータは、古典的なコンピュータによって引き起こされる問題に対処する最も効率的な手段を提供する。 これらのアーキテクチャを実現するには、量子回路特性の深い理解と、量子デバイス上での実行結果との関係が必要である。 本研究は、量子回路自体を記述する従来のパラメータと並行して、量子ビット相互作用グラフとゲート依存性グラフから抽出したグラフ理論に基づくメトリクスを導入することで、量子回路の厳密な検証を初めて行うことを目的とする。 この手法は量子回路の包括的な解析とクラスタリングを促進する。 さらに、量子ビット相互作用とゲート依存性グラフの両方に根ざしたパラメータと、確立された量子デバイスとマッピング構成の範囲にわたる量子回路マッピングのパフォーマンス指標との接続を明らかにする。 様々なデバイス構成の中で、我々は特に、量子デバイススケーラビリティのための実行可能なソリューションとして高い可能性のために、モジュラー(つまりマルチコア)量子コンピューティングアーキテクチャを強調している。 この徹底的な分析は、次のような助けになるでしょう。 一 量子回路マッピング性能指標に影響を与える量子回路の重要な属性を識別すること。 二 類似回路構造のための特定チップの性能を予測すること。 三 特定回路のマッピング技術及びハードウェア装置の好適な組み合わせを決定すること。 iv) 同様に構造化された回路をクラスタリングすることで、代表ベンチマークセットを定義する。

Application-specific quantum computers offer the most efficient means to tackle problems intractable by classical computers. Realizing these architectures necessitates a deep understanding of quantum circuit properties and their relationship to execution outcomes on quantum devices. Our study aims to perform for the first time a rigorous examination of quantum circuits by introducing graph theory-based metrics extracted from their qubit interaction graph and gate dependency graph alongside conventional parameters describing the circuit itself. This methodology facilitates a comprehensive analysis and clustering of quantum circuits. Furthermore, it uncovers a connection between parameters rooted in both qubit interaction and gate dependency graphs, and the performance metrics for quantum circuit mapping, across a range of established quantum device and mapping configurations. Among the various device configurations, we particularly emphasize modular (i.e., multi-core) quantum computing architectures due to their high potential as a viable solution for quantum device scalability. This thorough analysis will help us to: i) identify key attributes of quantum circuits that affect the quantum circuit mapping performance metrics; ii) predict the performance on a specific chip for similar circuit structures; iii) determine preferable combinations of mapping techniques and hardware setups for specific circuits; and iv) define representative benchmark sets by clustering similarly structured circuits.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# LLM誘導によるゼロショットテキスト誘導無限画像合成

Zero-shot Text-guided Infinite Image Synthesis with LLM guidance ( http://arxiv.org/abs/2407.12642v1 )

ライセンス: Link先を確認
Soyeong Kwon, Taegyeong Lee, Taehwan Kim, (参考訳) テキスト誘導画像編集・生成手法は様々な実世界の応用がある。 しかし、テキスト誘導無限画像合成はいくつかの課題に直面している。 まず、高解像度でコンテキストの多様性を持つテキストイメージのペアデータセットがない。 第二に、テキストに基づく画像の拡張には、グローバルコヒーレンスとリッチなローカルコンテキスト理解が必要である。 これまでの研究は主に自然景観などの限られたカテゴリーに焦点を合わせてきたが、高解像度の画像とペアテキストの訓練も必要だった。 これらの課題に対処するために,大域的コヒーレンスと局所的文脈理解の両方にLLM(Large Language Models)を用いた新しいアプローチを提案する。 我々は拡散モデルを訓練し、LLMと視覚特徴から生成されたグローバルキャプションとローカルキャプションに条件付き画像を拡張する。 推論段階では、画像とグローバルキャプションが与えられた場合、LLMを使用して次のローカルキャプションを生成し、入力画像を拡張する。 次に,グローバルキャプション,生成されたローカルキャプション,視覚的特徴を用いて画像を拡張し,グローバル一貫性と空間的ローカルコンテキストを考慮した。 実験では, モデルが定量的, 定性的に, ベースラインより優れていた。 さらに,LLM誘導によるゼロショット方式でテキスト誘導型任意のサイズの画像生成機能を示す。

Text-guided image editing and generation methods have diverse real-world applications. However, text-guided infinite image synthesis faces several challenges. First, there is a lack of text-image paired datasets with high-resolution and contextual diversity. Second, expanding images based on text requires global coherence and rich local context understanding. Previous studies have mainly focused on limited categories, such as natural landscapes, and also required to train on high-resolution images with paired text. To address these challenges, we propose a novel approach utilizing Large Language Models (LLMs) for both global coherence and local context understanding, without any high-resolution text-image paired training dataset. We train the diffusion model to expand an image conditioned on global and local captions generated from the LLM and visual feature. At the inference stage, given an image and a global caption, we use the LLM to generate a next local caption to expand the input image. Then, we expand the image using the global caption, generated local caption and the visual feature to consider global consistency and spatial local context. In experiments, our model outperforms the baselines both quantitatively and qualitatively. Furthermore, our model demonstrates the capability of text-guided arbitrary-sized image generation in zero-shot manner with LLM guidance.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# 1次元ダンクル量子力学:経路積分的アプローチ

One-dimensional Dunkl Quantum Mechanics: A Path Integral Approach ( http://arxiv.org/abs/2407.12644v1 )

ライセンス: Link先を確認
A. Benchikha, B. Hamil, B. C. Lütfüoğlu, B. Khantoul, (参考訳) 本論文では,1次元ウィグナー・ダンクル量子力学におけるプロパゲータの導出にファインマンパス積分法を用いる。 そこで我々は,自由粒子と調和振動子に付随するプロパゲータをDunkl誘導体の存在下で計算した。 また、プロパゲータのスペクトル分解からエネルギースペクトルと対応する境界状態波関数を推定する。

In the present manuscript, we employ the Feynman path integral method to derive the propagator in one-dimensional Wigner-Dunkl quantum mechanics. To verify our findings we calculate the propagator associated with the free particle and the harmonic oscillator in the presence of the Dunkl derivative. We also deduce the energy spectra and the corresponding bound-state wave functions from the spectral decomposition of the propagator.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# 昼と夜のデュアルビジョンにおける無人航空車両の核融合流動強化グラフポーリング残差ネットワーク

Fusion Flow-enhanced Graph Pooling Residual Networks for Unmanned Aerial Vehicles Surveillance in Day and Night Dual Visions ( http://arxiv.org/abs/2407.12647v1 )

ライセンス: Link先を確認
Alam Noor, Kai Li, Eduardo Tovar, Pei Zhang, Bo Wei, (参考訳) 無人航空機(UAV)を昼夜の飛行禁止区域内で認識することが最重要であり、無人航空機は民間航空と軍事航空の両方に重大な脅威をもたらす。 しかし、赤緑色(RGB)画像は、曇りや嵐の日のような十分な光条件下での低い検出率に苦しむ一方、黒と白の赤外線(IR)画像は、夜の背景と重なるUAVを捉えるのに苦労するため、デュアルビジョンカメラでUAVを昼夜認識することは簡単ではない。 本稿では、昼夜両眼視におけるUAV検出率を大幅に向上させる新しい光フロー支援グラフプール残差ネットワーク(OF-GPRN)を提案する。 提案したOF-GPRNは、RGB/IR画像の鮮明さを改善するために、超流動背景を除去する新しい光融合を開発する。 さらに、OF-GPRNは、グラフ残差注意ネットワークと、UAVの知覚を洗練させ、UAV検出の成功率を高める特徴ピラミッドを組み込むことで、光融合を拡張している。 ベンチマークUAVキャッチデータセットを用いて総合的な性能評価を行う。 提案したOF-GPRNはUAV平均精度(mAP)の87.8%に上昇し、残留グラフニューラルネットワーク(ResGCN)ベースのアプローチと比較して17.9%の進歩を示した。

Recognizing unauthorized Unmanned Aerial Vehicles (UAVs) within designated no-fly zones throughout the day and night is of paramount importance, where the unauthorized UAVs pose a substantial threat to both civil and military aviation safety. However, recognizing UAVs day and night with dual-vision cameras is nontrivial, since red-green-blue (RGB) images suffer from a low detection rate under an insufficient light condition, such as on cloudy or stormy days, while black-and-white infrared (IR) images struggle to capture UAVs that overlap with the background at night. In this paper, we propose a new optical flow-assisted graph-pooling residual network (OF-GPRN), which significantly enhances the UAV detection rate in day and night dual visions. The proposed OF-GPRN develops a new optical fusion to remove superfluous backgrounds, which improves RGB/IR imaging clarity. Furthermore, OF-GPRN extends optical fusion by incorporating a graph residual split attention network and a feature pyramid, which refines the perception of UAVs, leading to a higher success rate in UAV detection. A comprehensive performance evaluation is conducted using a benchmark UAV catch dataset. The results indicate that the proposed OF-GPRN elevates the UAV mean average precision (mAP) detection rate to 87.8%, marking a 17.9% advancement compared to the residual graph neural network (ResGCN)-based approach.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# ガウス演算の学習とマッチゲート階層

Learning Gaussian Operations and the Matchgate Hierarchy ( http://arxiv.org/abs/2407.12649v1 )

ライセンス: Link先を確認
Joshua Cudby, Sergii Strelchuk, (参考訳) 未知の量子プロセスを学ぶことは、短期的なデバイスの機能を検証するための中心的なタスクである。 タスクは一般に困難であり、プロセスに事前の仮定が作成されない場合、指数関数的に多くの測定を必要とする。 しかし、古典的にシミュレート可能なクリフォード群の興味深い特徴は、未知のクリフォード演算がブラックボックスの実装から効率的に決定できることである。 この結果をフェルミオンガウス演算の重要なクラスに拡張する。 これらの操作は、フェルミニオン線形光学との近縁性から、多くの注目を集めている。 次に、クリフォード階層(Clifford Hierarchy)に類似した構造を持つ、マッチゲート階層(Matchgate Hierarchy)と呼ばれる無限のユニタリゲート群を導入する。 Clifford HierarchyはMatchgate Hierarchyに含まれており、階層のあらゆるレベルの操作を効率的に学習できることを示す。

Learning an unknown quantum process is a central task for validation of the functioning of near-term devices. The task is generally hard, requiring exponentially many measurements if no prior assumptions are made on the process. However, an interesting feature of the classically-simulable Clifford group is that unknown Clifford operations may be efficiently determined from a black-box implementation. We extend this result to the important class of fermionic Gaussian operations. These operations have received much attention due to their close links to fermionic linear optics. We then introduce an infinite family of unitary gates, called the Matchgate Hierarchy, with a similar structure to the Clifford Hierarchy. We show that the Clifford Hierarchy is contained within the Matchgate Hierarchy and how operations at any level of the hierarchy can be efficiently learned.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# 連続観測による精密量子パラメータ推定

Precision Quantum Parameter Inference with Continuous Observation ( http://arxiv.org/abs/2407.12650v1 )

ライセンス: Link先を確認
Bijita Sarma, Junxin Chen, Sangkha Borah, (参考訳) 量子パラメータ推定(QPE)は、基本的な量子研究と最適量子制御戦略の開発のような量子技術の様々な実践的応用の両方の観点から重要である。 QPEの標準および伝統的手法は、何千もの同一に準備された量子系の射影測定を含む。 しかし、これらの手法は、特に必要なサンプルの数と関連する実験資源の観点から制限に直面している。 本研究では,従来の手法から分岐し,連続的な測定を行い,単一の量子軌道で正確なQPEを実現するための新しいQPE法を提案する。 本研究では, 浮遊ナノ粒子のパラメータ推定と力覚のタスクに本手法を用いることを実演する。

Quantum Parameter Estimation (QPE) is important from the perspective of both fundamental quantum research and various practical applications of quantum technologies such as for developing optimal quantum control strategies. Standard and traditional methods for QPE involve projective measurements on thousands of identically prepared quantum systems. However, these methods face limitations, particularly in terms of the required number of samples and the associated experimental resources. In this work, we present a novel method for precise QPE that diverges from conventional techniques, employs continuous measurements, and enables accurate QPE with a single quantum trajectory. In an application, we demonstrate the use of the method for the task of parameter estimation and force sensing of a levitated nanoparticle.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# 量子セルオートマタの再正常化

Renormalisation of Quantum Cellular Automata ( http://arxiv.org/abs/2407.12652v1 )

ライセンス: Link先を確認
Lorenzo Siro Trezzini, Alessandro Bisio, Paolo Perinotti, (参考訳) 隣接する細胞をタイルにグループ化し,各タイル内の部分空間を選択する超立方体格子上の量子セルオートマトンに対する粗粒化法について検討した。 これは、この部分空間に適用される複数の進化段階が、細胞自体が部分空間である新しい量子セルオートマトンの一進化段階と見なされるように行われる。 我々は、再正常化のための必要十分条件を導出し、それを用いて、細胞がクビットであり、タイルが隣の2つの細胞からなるライン上のセルオートマトンの再正規化の流れを調べる。 問題を徹底的に解き、再正規化フローの固定点を強調する。

We study a coarse-graining procedure for quantum cellular automata on hypercubic lattices that consists in grouping neighboring cells into tiles and selecting a subspace within each tile. This is done in such a way that multiple evolution steps applied to this subspace can be viewed as a single evolution step of a new quantum cellular automaton, whose cells are the subspaces themselves. We derive a necessary and sufficient condition for renormalizability and use it to investigate the renormalization flow of cellular automata on a line, where the cells are qubits and the tiles are composed of two neighboring cells. The problem is exhaustively solved, and the fixed points of the renormalization flow are highlighted.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# InfoNorm: スパースビュー再構築のための正常者の相互情報形成

InfoNorm: Mutual Information Shaping of Normals for Sparse-View Reconstruction ( http://arxiv.org/abs/2407.12661v1 )

ライセンス: Link先を確認
Xulong Wang, Siyan Dong, Youyi Zheng, Yanchao Yang, (参考訳) 多視点画像からの3次元表面再構成はシーン理解とインタラクションに不可欠である。 しかし、複雑な屋内シーンは、観測が限られているためあいまいさなどの問題を引き起こす。 ニューラルレージアンス場(NeRF)や符号付き距離関数(SDF)といった近年の暗黙的な表面表現は、観測情報の欠如を解決するために様々な幾何学的先行法を用いている。 それにもかかわらず、それらの性能は事前訓練された幾何推定モデルの品質に大きく依存する。 このような依存を緩和するために,高度に相関したシーンポイントの表面の正常値間の相互情報を明示的に促すことにより,幾何学的モデリングの規則化を提案する。 このように、幾何学習過程は、ノイズ(一階)幾何先行からの2階相関によって変調されるので、一般化不良によるバイアスを排除できる。 さらに,意味的特徴と幾何学的特徴を利用して相関点を識別し,それらの相互情報を向上する簡易かつ効果的なスキームを提案する。 提案手法は、SDFベースのニューラルサーフェス表現のためのプラグインとして機能する。 本実験は, 主要芸術国家の表面改質性向上における提案手法の有効性を実証するものである。 我々のコードは以下の通りである。

3D surface reconstruction from multi-view images is essential for scene understanding and interaction. However, complex indoor scenes pose challenges such as ambiguity due to limited observations. Recent implicit surface representations, such as Neural Radiance Fields (NeRFs) and signed distance functions (SDFs), employ various geometric priors to resolve the lack of observed information. Nevertheless, their performance heavily depends on the quality of the pre-trained geometry estimation models. To ease such dependence, we propose regularizing the geometric modeling by explicitly encouraging the mutual information among surface normals of highly correlated scene points. In this way, the geometry learning process is modulated by the second-order correlations from noisy (first-order) geometric priors, thus eliminating the bias due to poor generalization. Additionally, we introduce a simple yet effective scheme that utilizes semantic and geometric features to identify correlated points, enhancing their mutual information accordingly. The proposed technique can serve as a plugin for SDF-based neural surface representations. Our experiments demonstrate the effectiveness of the proposed in improving the surface reconstruction quality of major states of the arts. Our code is available at: \url{https://github.com/Muliphein/InfoNorm}.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# 雨は降るか? 自律型UAVの視覚計測性能の理解とDNNによる効率的な降雨分類

Is That Rain? Understanding Effects on Visual Odometry Performance for Autonomous UAVs and Efficient DNN-based Rain Classification at the Edge ( http://arxiv.org/abs/2407.12663v1 )

ライセンス: Link先を確認
Andrea Albanese, Yanran Wang, Davide Brunelli, David Boyle, (参考訳) 安全で信頼性の高い無人航空機の開発は、センサー入力に基づいて局所環境の変化を認識し、適応するシステムの能力に依存している。 最先端の局所追跡と軌道計画は通常、飛行制御アルゴリズムにカメラセンサーを入力して行われるが、雨などの環境障害がこれらのシステムの性能にどのような影響を及ぼすかは明らかになっていない。 本稿では, 降水条件の異なる7種類のクラスに対して, 約335k画像からなるオープンデータセットの開発について述べるとともに, 最先端のビジュアルオドメトリーシステム(VINS-Fusion)において, 1.5mの最悪の平均追跡誤差が可能であることを示す。 次に、このデータセットを使用して、モバイルおよび制約されたデプロイメントシナリオに適したディープニューラルネットワークモデルのセットをトレーニングし、これらの‘レーニー’条件を効率的に正確に分類できる範囲を判断します。 これらのモデルの最も軽量なモデル(MobileNetV3 small)は、メモリフットプリントがわずか1.28MB、フレームレートが93FPSで90%の精度を達成することができる。 典型的なフライトコンピュータハードウェアを用いて,ミリ秒単位の分類遅延を示す。 したがって、このようなモデルは自律飛行制御装置の乱れ推定成分に給餌することができる。 また、無人航空機からリアルタイムで環境条件を正確に判断する能力を持つデータは、より粒度の細かい局部的な天気予報に寄与する可能性がある。

The development of safe and reliable autonomous unmanned aerial vehicles relies on the ability of the system to recognise and adapt to changes in the local environment based on sensor inputs. State-of-the-art local tracking and trajectory planning are typically performed using camera sensor input to the flight control algorithm, but the extent to which environmental disturbances like rain affect the performance of these systems is largely unknown. In this paper, we first describe the development of an open dataset comprising ~335k images to examine these effects for seven different classes of precipitation conditions and show that a worst-case average tracking error of 1.5 m is possible for a state-of-the-art visual odometry system (VINS-Fusion). We then use the dataset to train a set of deep neural network models suited to mobile and constrained deployment scenarios to determine the extent to which it may be possible to efficiently and accurately classify these `rainy' conditions. The most lightweight of these models (MobileNetV3 small) can achieve an accuracy of 90% with a memory footprint of just 1.28 MB and a frame rate of 93 FPS, which is suitable for deployment in resource-constrained and latency-sensitive systems. We demonstrate a classification latency in the order of milliseconds using typical flight computer hardware. Accordingly, such a model can feed into the disturbance estimation component of an autonomous flight controller. In addition, data from unmanned aerial vehicles with the ability to accurately determine environmental conditions in real time may contribute to developing more granular timely localised weather forecasting.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# 大規模言語モデルのパッチレベル学習

Patch-Level Training for Large Language Models ( http://arxiv.org/abs/2407.12665v1 )

ライセンス: Link先を確認
Chenze Shao, Fandong Meng, Jie Zhou, (参考訳) 大きな言語モデル(LLM)は言語理解と生成において顕著な進歩を遂げているため、その訓練効率は重要な問題となっている。 伝統的に、LLMはシーケンス内の次のトークンを予測するために訓練される。 トークンレベルのトレーニングの成功にもかかわらず、大量のトークンを処理する必要があるため、かなりの計算コストに悩まされる。 この問題を軽減するために,複数のトークンを単一パッチに圧縮することでシーケンス長を削減できるLLMのパッチレベルトレーニングを提案する。 パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。 これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。 様々なモデル(370M-2.7Bパラメータ)の実験では、パッチレベルのトレーニングは、トークンレベルのトレーニングに比べてモデルのパフォーマンスを損なうことなく、全体的な計算コストを0.5$\times$に削減できることを示した。 ソースコード: \url{https://github.com/shaochenze/PatchTrain}。

As Large Language Models (LLMs) achieve remarkable progress in language understanding and generation, their training efficiency has become a critical concern. Traditionally, LLMs are trained to predict the next token in a sequence. Despite the success of token-level training, it suffers from considerable computational costs due to the need to process an extensive number of tokens. To mitigate this issue, this paper introduces patch-level training for LLMs, which reduces the sequence length by compressing multiple tokens into a single patch. During patch-level training, we feed the language model shorter sequences of patches and train it to predict the next patch, thereby processing the majority of the training data at a significantly reduced computational cost. Following this, the model continues token-level training on the remaining training data to align with the inference mode. Experiments on a diverse range of models (370M-2.7B parameters) demonstrate that patch-level training can reduce overall computational costs to 0.5$\times$, without compromising the model performance compared to token-level training. Source code: \url{https://github.com/shaochenze/PatchTrain}.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# SG-NeRF:シーングラフ最適化によるニューラルサーフェス再構成

SG-NeRF: Neural Surface Reconstruction with Scene Graph Optimization ( http://arxiv.org/abs/2407.12667v1 )

ライセンス: Link先を確認
Yiyang Chen, Siyan Dong, Xulong Wang, Lulu Cai, Youyi Zheng, Yanchao Yang, (参考訳) 画像からの3次元表面再構成は多くの用途に欠かせない。 近年,3次元モデリングのフレームワークとしてNeural Radiance Fields(NeRF)が登場している。 しかし、NeRFは入力として正確なカメラポーズを必要とし、既存の手法は現実のシナリオでよく見られるノイズの多いポーズ推定(つまり、外れ値)を扱うのに苦労する。 この課題に対処するために,シーングラフを用いた放射場最適化手法を提案する。 本手法では,シーングラフに基づく適応的不整合信頼度推定手法を取り入れ,近傍との高整合とレンダリング品質の整合性を強調した。 また、カメラのポーズと表面形状を最適化するための効果的な交差対連合(IoU)損失と、トレーニングを容易にする粗大な戦略も導入する。 さらに,典型的な外乱ポーズを含む新しいデータセットを,詳細な評価のために提案する。 各種データセットに対する実験結果から,既存の手法よりも提案手法の有効性と優位性を一貫して示し,アウトレーヤの取扱いや高品質な3D再構成の堅牢性を示した。 コードとデータは以下の通りである。

3D surface reconstruction from images is essential for numerous applications. Recently, Neural Radiance Fields (NeRFs) have emerged as a promising framework for 3D modeling. However, NeRFs require accurate camera poses as input, and existing methods struggle to handle significantly noisy pose estimates (i.e., outliers), which are commonly encountered in real-world scenarios. To tackle this challenge, we present a novel approach that optimizes radiance fields with scene graphs to mitigate the influence of outlier poses. Our method incorporates an adaptive inlier-outlier confidence estimation scheme based on scene graphs, emphasizing images of high compatibility with the neighborhood and consistency in the rendering quality. We also introduce an effective intersection-over-union (IoU) loss to optimize the camera pose and surface geometry, together with a coarse-to-fine strategy to facilitate the training. Furthermore, we propose a new dataset containing typical outlier poses for a detailed evaluation. Experimental results on various datasets consistently demonstrate the effectiveness and superiority of our method over existing approaches, showcasing its robustness in handling outliers and producing high-quality 3D reconstructions. Our code and data are available at: \url{https://github.com/Iris-cyy/SG-NeRF}.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# 合成データを用いたプライバシ保存癌分類の有用性向上

Enhancing the Utility of Privacy-Preserving Cancer Classification using Synthetic Data ( http://arxiv.org/abs/2407.12669v1 )

ライセンス: Link先を確認
Richard Osuala, Daniel M. Lang, Anneliese Riess, Georgios Kaissis, Zuzanna Szafranowska, Grzegorz Skorupko, Oliver Diaz, Julia A. Schnabel, Karim Lekadir, (参考訳) 深層学習は、乳がん検出において放射線科医を補助する大きな可能性を秘めている。 しかし、最適なモデル性能を達成するには、患者プライバシの懸念に関連するデータの可用性と共有の制限が伴う。 このような懸念はさらに悪化しており、従来のディープラーニングモデルでは、センシティブなトレーニング情報を不注意にリークすることができる。 この研究は、プライバシー保護の深層学習技術の有用性を探究し、定量化するこれらの課題に対処する。 (i)個人確率勾配勾配勾配(DP-SGD)と (II) 提案した悪性度条件付き生成対向ネットワークによって生成された完全合成トレーニングデータ。 本手法は, トランスモデルを用いて, 乳房腫瘤の下流悪性度分類を用いて評価する。 実験結果から, 合成データ拡張は, 差分プライベートモデルトレーニングにおいて, プライバシとユーティリティのトレードオフを改善することができることが示された。 さらに、合成データに対するモデル事前トレーニングは、すべてのプライバシ保証に関するDP-SGDの微調整によってさらに向上する。 乳房画像におけるプライバシー保護の深層学習に関するこの調査で、我々は現在および新たな臨床プライバシー要件に対処し、プライベートな高ユーティリティな深層診断モデルの導入に向けた道を開く。 私たちの再現可能なコードベースはhttps://github.com/RichardObi/mammo_dp.comで公開されています。

Deep learning holds immense promise for aiding radiologists in breast cancer detection. However, achieving optimal model performance is hampered by limitations in availability and sharing of data commonly associated to patient privacy concerns. Such concerns are further exacerbated, as traditional deep learning models can inadvertently leak sensitive training information. This work addresses these challenges exploring and quantifying the utility of privacy-preserving deep learning techniques, concretely, (i) differentially private stochastic gradient descent (DP-SGD) and (ii) fully synthetic training data generated by our proposed malignancy-conditioned generative adversarial network. We assess these methods via downstream malignancy classification of mammography masses using a transformer model. Our experimental results depict that synthetic data augmentation can improve privacy-utility tradeoffs in differentially private model training. Further, model pretraining on synthetic data achieves remarkable performance, which can be further increased with DP-SGD fine-tuning across all privacy guarantees. With this first in-depth exploration of privacy-preserving deep learning in breast imaging, we address current and emerging clinical privacy requirements and pave the way towards the adoption of private high-utility deep diagnostic models. Our reproducible codebase is publicly available at https://github.com/RichardObi/mammo_dp.
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# GraphMuse: シンボリックな音楽グラフ処理のためのライブラリ

GraphMuse: A Library for Symbolic Music Graph Processing ( http://arxiv.org/abs/2407.12671v1 )

ライセンス: Link先を確認
Emmanouil Karystinaios, Gerhard Widmer, (参考訳) グラフニューラルネットワーク(GNN)は最近、シンボリックな音楽タスクで注目を集めているが、統一されたフレームワークの欠如は進歩を妨げる。 このギャップに対処するため,グラフ処理フレームワークとライブラリであるGraphMuseを提案する。 我々の貢献の中心は、音楽の楽譜における有意義な振舞いを特に狙う新しい隣人サンプリング技術である。 さらに、GraphMuseは、音楽タスクのためのグラフネットワークの表現性と能力を高める階層的なモデリング要素を統合する。 ピッチスペルとケイデンス検出という2つの特定の音楽予測タスクを用いた実験は,従来の手法よりも大幅な性能向上を示した。 GraphMuseは、グラフ表現に基づくシンボリックな音楽処理の強化と標準化に繋がることを期待しています。 このライブラリはhttps://github.com/manoskary/graphmuseで入手できる。

Graph Neural Networks (GNNs) have recently gained traction in symbolic music tasks, yet a lack of a unified framework impedes progress. Addressing this gap, we present GraphMuse, a graph processing framework and library that facilitates efficient music graph processing and GNN training for symbolic music tasks. Central to our contribution is a new neighbor sampling technique specifically targeted toward meaningful behavior in musical scores. Additionally, GraphMuse integrates hierarchical modeling elements that augment the expressivity and capabilities of graph networks for musical tasks. Experiments with two specific musical prediction tasks -- pitch spelling and cadence detection -- demonstrate significant performance improvement over previous methods. Our hope is that GraphMuse will lead to a boost in, and standardization of, symbolic music processing based on graph representations. The library is available at https://github.com/manoskary/graphmuse
翻訳日:2024-07-18 16:35:48 公開日:2024-07-17
# CoSIGN: 一般的な逆問題を解決するためのコンシステンシーモデルの多段階指導

CoSIGN: Few-Step Guidance of ConSIstency Model to Solve General INverse Problems ( http://arxiv.org/abs/2407.12676v1 )

ライセンス: Link先を確認
Jiankun Zhao, Bowen Song, Liyue Shen, (参考訳) 拡散モデルは、一般的な逆問題を解決するための強力な先駆体として実証されてきた。 既存の拡散モデルに基づく逆問題解法(DIS)は、投射または勾配でサンプリング軌道を導くためにプラグアンドプレイ方式を採用している。 有効ではあるが、これらの手法は一般的に数百のサンプリングステップを必要とし、推測時間と復元品質の間にジレンマを生じさせる。 本研究では, 高い復元品質を維持しつつ, 推論ステップの境界を1-2 NFEに推し進める。 そこで本研究では,事前学習した拡散モデル,すなわち整合性モデルの蒸留を先行データとして活用することを提案する。 数ステップのガイダンスを達成するための鍵は、一貫性モデルのサンプリングプロセス中に2つのタイプの制約を強制することである。 ワンステップ再構成とマルチステップ改善の両方をサポートするため、提案フレームワークはさらに、画像品質をさらなる計算コストで取引する手段を提供する。 本手法は, 拡散型逆問題解法において, 従来の逆問題解法を実世界の応用に適用する有意義な可能性を示すものである。 コードは、https://github.com/BioMed-AI-Lab-U-Michgan/cosign.comで入手できる。

Diffusion models have been demonstrated as strong priors for solving general inverse problems. Most existing Diffusion model-based Inverse Problem Solvers (DIS) employ a plug-and-play approach to guide the sampling trajectory with either projections or gradients. Though effective, these methods generally necessitate hundreds of sampling steps, posing a dilemma between inference time and reconstruction quality. In this work, we try to push the boundary of inference steps to 1-2 NFEs while still maintaining high reconstruction quality. To achieve this, we propose to leverage a pretrained distillation of diffusion model, namely consistency model, as the data prior. The key to achieving few-step guidance is to enforce two types of constraints during the sampling process of the consistency model: soft measurement constraint with ControlNet and hard measurement constraint via optimization. Supporting both single-step reconstruction and multistep refinement, the proposed framework further provides a way to trade image quality with additional computational cost. Within comparable NFEs, our method achieves new state-of-the-art in diffusion-based inverse problem solving, showcasing the significant potential of employing prior-based inverse problem solvers for real-world applications. Code is available at: https://github.com/BioMed-AI-Lab-U-Michgan/cosign.
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# Goldfish:視界を照らして見る動画

Goldfish: Vision-Language Understanding of Arbitrarily Long Videos ( http://arxiv.org/abs/2407.12679v1 )

ライセンス: Link先を確認
Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Mingchen Zhuge, Jian Ding, Deyao Zhu, Jürgen Schmidhuber, Mohamed Elhoseiny, (参考訳) 現在のLLMベースのビデオ理解モデルは、数分でビデオを処理することができる。 しかし、"ノイズと冗長性"や"メモリと計算"の制約といった問題のために、長いビデオで苦労している。 本稿では,任意の長さのビデオの解釈に適した手法であるGoldfishを紹介する。 また,TVQA-longベンチマークを導入し,視覚コンテンツとテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。 Goldfishはこれらの課題に,まずは指示に関連するトップkビデオクリップを収集して,必要な応答を提供するための効率的な検索メカニズムでアプローチする。 この検索機構の設計により、Goldfishは任意に長いビデオシーケンスを効率的に処理することができ、映画やテレビシリーズなどのコンテキストでの利用が容易になる。 検索を容易にするために,ビデオクリップの詳細な記述を生成するMiniGPT4-Videoを開発した。 長大なビデオ評価のためのベンチマークの不足に対処するため,TVQAショートビデオベンチマークを全エピソードからの質問を集約し,部分的なエピソード理解から全エピソード理解にシフトすることで,拡張コンテンツ分析に応用した。 我々はTVQA-longベンチマークで41.78%の精度を達成し、以前の手法を14.94%上回った。 我々のMiniGPT4-Videoは、MSVD、MSRVTT、TGIF、TVQAのショートビデオベンチマークにおいて、既存の最先端の手法を3.23%、2.03%、16.5%、および23.59%以上上回る、短いビデオ理解における例外的なパフォーマンスを示している。 これらの結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。 私たちのモデルとコードはhttps://vision-cair.github.io/Goldfish_website/で公開されています。

Most current LLM-based models for video understanding can process videos within minutes. However, they struggle with lengthy videos due to challenges such as "noise and redundancy", as well as "memory and computation" constraints. In this paper, we present Goldfish, a methodology tailored for comprehending videos of arbitrary lengths. We also introduce the TVQA-long benchmark, specifically designed to evaluate models' capabilities in understanding long videos with questions in both vision and text content. Goldfish approaches these challenges with an efficient retrieval mechanism that initially gathers the top-k video clips relevant to the instruction before proceeding to provide the desired response. This design of the retrieval mechanism enables the Goldfish to efficiently process arbitrarily long video sequences, facilitating its application in contexts such as movies or television series. To facilitate the retrieval process, we developed MiniGPT4-Video that generates detailed descriptions for the video clips. In addressing the scarcity of benchmarks for long video evaluation, we adapted the TVQA short video benchmark for extended content analysis by aggregating questions from entire episodes, thereby shifting the evaluation from partial to full episode comprehension. We attained a 41.78% accuracy rate on the TVQA-long benchmark, surpassing previous methods by 14.94%. Our MiniGPT4-Video also shows exceptional performance in short video comprehension, exceeding existing state-of-the-art methods by 3.23%, 2.03%, 16.5% and 23.59% on the MSVD, MSRVTT, TGIF, and TVQA short video benchmarks, respectively. These results indicate that our models have significant improvements in both long and short-video understanding. Our models and code have been made publicly available at https://vision-cair.github.io/Goldfish_website/
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# レーザー粉体融合における欠陥・異常検出のためのその場赤外線カメラモニタリング:校正・データマッピング・特徴抽出

In-Situ Infrared Camera Monitoring for Defect and Anomaly Detection in Laser Powder Bed Fusion: Calibration, Data Mapping, and Feature Extraction ( http://arxiv.org/abs/2407.12682v1 )

ライセンス: Link先を確認
Shawn Hinnebusch, David Anderson, Berkay Bostan, Albert C. To, (参考訳) レーザーパウダーベッド融合(LPBF)プロセスは, 溶融プール不安定性, スパッタリング, 温度上昇, 粉体拡散異常による欠陥を生じさせる可能性がある。 内部監視による欠陥の特定には、通常、生成された大量のデータを収集、保存、分析する必要がある。 本研究の第一の目的は,データの3次元形状を正確にマッピングする新しい手法を提案することである。 この研究の第2の目的は、欠陥検出やプロセスモデル校正のためのいくつかの新しいIR機能を導入することであり、レーザースキャン順序、局所予熱温度、最大レーザー前走査温度、局所的に発生するスパッタの数とその着陸地点を含む。 完全性については、インターパス温度、熱強度、冷却速度、溶融プール面積などの他の一般的なIR特性の処理も、基礎となるアルゴリズムとPythonの実装で示される。 多くの異なるパーツが印刷され、監視され、異なるIR特徴が検出できるプロセス欠陥と異常の証拠を提供するのが特徴である。

Laser powder bed fusion (LPBF) process can incur defects due to melt pool instabilities, spattering, temperature increase, and powder spread anomalies. Identifying defects through in-situ monitoring typically requires collecting, storing, and analyzing large amounts of data generated. The first goal of this work is to propose a new approach to accurately map in-situ data to a three-dimensional (3D) geometry, aiming to reduce the amount of storage. The second goal of this work is to introduce several new IR features for defect detection or process model calibration, which include laser scan order, local preheat temperature, maximum pre-laser scanning temperature, and number of spatters generated locally and their landing locations. For completeness, processing of other common IR features, such as interpass temperature, heat intensity, cooling rates, and melt pool area, are also presented with the underlying algorithm and Python implementation. A number of different parts are printed, monitored, and characterized to provide evidence of process defects and anomalies that different IR features are capable of detecting.
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# 4Dynamic: ハイブリッドプリミティブによるテキストから4D生成

4Dynamic: Text-to-4D Generation with Hybrid Priors ( http://arxiv.org/abs/2407.12684v1 )

ライセンス: Link先を確認
Yu-Jie Yuan, Leif Kobbelt, Jiwen Liu, Yuan Zhang, Pengfei Wan, Yu-Kun Lai, Lin Gao, (参考訳) テキスト・ツー・イメージ拡散モデルの魅力的な生成性能のため、テキスト・ツー・3D生成は、スコア蒸留サンプリング(SDS)損失を用いて2次元生成前駆体を3Dに蒸留し、データ不足を回避している。 既存のテキスト・トゥ・3D法は、リアリズムと3D一貫性において有望な結果を得たが、テキスト・トゥ・4D生成は、リアリズムの欠如や不十分なダイナミックモーションなど、依然として課題に直面している。 本稿では,ビデオによる直接監督による動的振幅と信頼性を保証するテキスト・ツー・4D生成手法を提案する。 具体的には,テキスト間拡散モデルを用いて参照ビデオを生成し,4次元生成を静的生成と動的生成の2段階に分割する。 静的な3D生成は、入力テキストと参照ビデオの第1フレームのガイダンスに基づいて達成されるが、動的生成段階では、マルチビューの一貫性を確保するためのカスタマイズされたSDS損失、時間的一貫性を改善するためのビデオベースのSDS損失、そして最も重要なことは、参照ビデオからの直接の優先順位を導入して、幾何学的およびテクスチャの質を保証する。 さらに、異なる事前間の衝突を回避し、それぞれの事前の利点を完全に活用するための事前調整型トレーニング戦略を設計する。 さらに, 変形ネットワークとトポロジネットワークからなる動的モデリング表現を導入し, トポロジ的変化をモデル化しながら動的連続性を確保する。 本手法は,テキスト・ツー・4D生成だけでなく,モノクロ映像からの4D生成も可能にしている。 比較実験により,既存手法と比較して,本手法の優位性を実証した。

Due to the fascinating generative performance of text-to-image diffusion models, growing text-to-3D generation works explore distilling the 2D generative priors into 3D, using the score distillation sampling (SDS) loss, to bypass the data scarcity problem. The existing text-to-3D methods have achieved promising results in realism and 3D consistency, but text-to-4D generation still faces challenges, including lack of realism and insufficient dynamic motions. In this paper, we propose a novel method for text-to-4D generation, which ensures the dynamic amplitude and authenticity through direct supervision provided by a video prior. Specifically, we adopt a text-to-video diffusion model to generate a reference video and divide 4D generation into two stages: static generation and dynamic generation. The static 3D generation is achieved under the guidance of the input text and the first frame of the reference video, while in the dynamic generation stage, we introduce a customized SDS loss to ensure multi-view consistency, a video-based SDS loss to improve temporal consistency, and most importantly, direct priors from the reference video to ensure the quality of geometry and texture. Moreover, we design a prior-switching training strategy to avoid conflicts between different priors and fully leverage the benefits of each prior. In addition, to enrich the generated motion, we further introduce a dynamic modeling representation composed of a deformation network and a topology network, which ensures dynamic continuity while modeling topological changes. Our method not only supports text-to-4D generation but also enables 4D generation from monocular videos. The comparison experiments demonstrate the superiority of our method compared to existing methods.
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# McEliece暗号システムのための高効率並列ラウンドマイサムMDPCデコーダ

Highly Efficient Parallel Row-Layered Min-Sum MDPC Decoder for McEliece Cryptosystem ( http://arxiv.org/abs/2407.12695v1 )

ライセンス: Link先を確認
Jiaxuan Cai, Xinmiao Zhang, (参考訳) 中密度パリティチェック(MDPC)コードベースのMcEliece暗号系は、ポスト量子暗号標準のファイナリストのままである。 Min-sum復号アルゴリズムはMDPC符号の他のアルゴリズムよりも性能・複雑さのトレードオフが優れている。 しかし、以前のMin-sum MDPCデコーダは、複雑さが全体的な複雑さを左右する大きなメモリを必要とする。 加えて、実際の達成可能な並列性は限られている。 本論文は4つのコントリビューションを初めて利用して,MDPCデコーダのメモリ要求を大幅に低減し,メッセージの有限精度表現と行層デコーダにおけるMDPC符号の高列重み化による性能損失を軽減するための低複雑さスキームを開発した。 メモリオーバーヘッドの少ないL並列デコーダを用いて、復号繰り返し毎のクロックサイクル数をLの係数で削減する。 2パラレルデコーダの例では、提案した設計により、以前のデコーダに比べてメモリ要求が26%減少し、遅延が70%減少する。

The medium-density parity-check (MDPC) code-based McEliece cryptosystem remains a finalist of the post-quantum cryptography standard. The Min-sum decoding algorithm achieves better performance-complexity tradeoff than other algorithms for MDPC codes. However, the prior Min-sum MDPC decoder requires large memories, whose complexity dominates the overall complexity. Besides, its actual achievable parallelism is limited. This paper has four contributions: For the first time, the row-layered scheduling scheme is exploited to substantially reduce the memory requirement of MDPC decoders; A low-complexity scheme is developed to mitigate the performance loss caused by finite precision representation of the messages and high column weights of MDPC codes in row-layered decoding; Constraints are added to the parity check matrix construction to enable effective parallel processing with negligible impacts on the decoder performance and resilience towards attacks; A novel parity check matrix division scheme for highly efficient parallel processing is proposed and the corresponding parallel row-layered decoder architecture is designed. The number of clock cycles for each decoding iteration is reduced by a factor of L using the proposed L-parallel decoder with very small memory overhead. For an example 2-parallel decoder, the proposed design leads to 26% less memory requirement and 70% latency reduction compared to the prior decoder.
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# 前立腺癌検出におけるロバストテスト時間適応のための校正拡散エントロピー最小化法

Calibrated Diverse Ensemble Entropy Minimization for Robust Test-Time Adaptation in Prostate Cancer Detection ( http://arxiv.org/abs/2407.12697v1 )

ライセンス: Link先を確認
Mahdi Gilany, Mohamed Harmanani, Paul Wilson, Minh Nguyen Nhat To, Amoon Jamzad, Fahimeh Fooladgar, Brian Wodlinger, Purang Abolmaesumi, Parvin Mousavi, (参考訳) 高分解能マイクロ超音波は、リアルタイム前立腺がん検出において有望であり、深層学習は超音波に反映される複雑な組織特性を学習するための重要なツールとなっている。 しかし、実際の展開への重要な障害が残っており、以前の作業はしばしば見落とされ、データ分布の変化によって異なる臨床センターのデータに適用された場合、モデルの性能が低下する。 この分布シフトはモデルの堅牢性に大きな影響を与え、臨床展開に大きな挑戦を巻き起こした。 ドメイン適応とそのテスト時間適応(TTA)変異は、この問題に対処するための有望なソリューションを提供する。 実環境を反映した設定では,従来の手法と,がん検出に採用されている最先端のTTAアプローチを比較し,前者の分布変化に対する堅牢性の欠如を実証する。 次に,従来のTTA法が超音波データに与える影響を問う,Diverse Ensemble Entropy Minimization (DEnEM)を提案する。 これらの手法は, ベースラインよりも優れているが, ニューラルネットワークの出力確率に依存するため, あるいは, 超音波データで簡単に定義できないデータ拡張に依存するため, 準最適であることを示す。 以上の結果から,既存手法に比べてAUROCが$5\%から$7\%に,TTA法が$3\%から$5\%に大きく改善し,分散シフトに対処する上でDEnEMの利点が示された。 キーワード{Ultrasound Imaging \and Prostate Cancer \and Computer-aided diagnosis \and Distribution Shift Robustness \and Test-time Adaptation。 ※

High resolution micro-ultrasound has demonstrated promise in real-time prostate cancer detection, with deep learning becoming a prominent tool for learning complex tissue properties reflected on ultrasound. However, a significant roadblock to real-world deployment remains, which prior works often overlook: model performance suffers when applied to data from different clinical centers due to variations in data distribution. This distribution shift significantly impacts the model's robustness, posing major challenge to clinical deployment. Domain adaptation and specifically its test-time adaption (TTA) variant offer a promising solution to address this challenge. In a setting designed to reflect real-world conditions, we compare existing methods to state-of-the-art TTA approaches adopted for cancer detection, demonstrating the lack of robustness to distribution shifts in the former. We then propose Diverse Ensemble Entropy Minimization (DEnEM), questioning the effectiveness of current TTA methods on ultrasound data. We show that these methods, although outperforming baselines, are suboptimal due to relying on neural networks output probabilities, which could be uncalibrated, or relying on data augmentation, which is not straightforward to define on ultrasound data. Our results show a significant improvement of $5\%$ to $7\%$ in AUROC over the existing methods and $3\%$ to $5\%$ over TTA methods, demonstrating the advantage of DEnEM in addressing distribution shift. \keywords{Ultrasound Imaging \and Prostate Cancer \and Computer-aided Diagnosis \and Distribution Shift Robustness \and Test-time Adaptation.}
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# ハードウェア実装のための高効率かつフレキシブルなディフェレット型モンゴメリーモジュラ乗算法

Efficient and Flexible Differet-Radix Montgomery Modular Multiplication for Hardware Implementation ( http://arxiv.org/abs/2407.12701v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Hua Guo, Chen Chen, Yewei Guan, Xiyong Zhang, Zhenyu Guan, (参考訳) モンゴメリーのモジュラー乗算は公開鍵暗号システム(PKC)で広く使われ、上位システムの効率に直接影響を及ぼす。 しかし、セキュリティの需要が増し、計算コストが重くなるため、モジュラリティは増大している。 モンゴメリーモジュラー乗算の高性能な実装は、PKCの高効率な演算を保証するために緊急に必要である。 しかし、既存の高速実装では中間結果を単純化するために大量の冗長計算が必要である。 冗長表現のサポートは、モンゴメリーモジュラー乗法において極めて限定的である。 本稿では,DRMMMと呼ばれる反復モンゴメリーモジュラー乗法を並列に並列に並列に実行し,複数の反復で商を計算できるようにする手法を提案する。 この変種では、中間結果の項と各反復における商を異なる基数で計算し、商の計算をパイプライン化することができる。 提案した変種に基づいて,高速な動作を実現するための高性能ハードウェア実装アーキテクチャを設計する。 アーキテクチャでは、各イテレーションにおける中間結果は、冗長な計算から解放される3つの部分として表される。 最後に,FPGAベースのシステムをサポートするために,FPGA基盤アーキテクチャに基づく演算子を設計し,面積時間性能を向上する。 実装と実験の結果,FPGAの高速設計よりも出力遅延を38.3倍に削減できることがわかった。

Montgomery modular multiplication is widely-used in public key cryptosystems (PKC) and affects the efficiency of upper systems directly. However, modulus is getting larger due to the increasing demand of security, which results in a heavy computing cost. High-performance implementation of Montgomery modular multiplication is urgently required to ensure the highly-efficient operations in PKC. However, existing high-speed implementations still need a large amount redundant computing to simplify the intermediate result. Supports to the redundant representation is extremely limited on Montgomery modular multiplication. In this paper, we propose an efficient parallel variant of iterative Montgomery modular multiplication, called DRMMM, that allows the quotient can be computed in multiple iterations. In this variant, terms in intermediate result and the quotient in each iteration are computed in different radix such that computation of the quotient can be pipelined. Based on proposed variant, we also design high-performance hardware implementation architecture for faster operation. In the architecture, intermediate result in every iteration is denoted as three parts to free from redundant computations. Finally, to support FPGA-based systems, we design operators based on FPGA underlying architecture for better area-time performance. The result of implementation and experiment shows that our method reduces the output latency by 38.3\% than the fastest design on FPGA.
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# TransCAD:ポイントクラウドからのCADシーケンス推論のための階層変換器

TransCAD: A Hierarchical Transformer for CAD Sequence Inference from Point Clouds ( http://arxiv.org/abs/2407.12702v1 )

ライセンス: Link先を確認
Elona Dupont, Kseniya Cherenkova, Dimitrios Mallis, Gleb Gusev, Anis Kacem, Djamila Aouada, (参考訳) 物理物体の3次元スキャンによりCADモデルを推定する3次元リバースエンジニアリングは、多くの有望な実用的な応用を提供する研究方向である。 本稿では,ポイントクラウドからCADシーケンスを予測するエンドツーエンドトランスフォーマーアーキテクチャであるTransCADを提案する。 TransCADは階層的な学習戦略を用いてCADシーケンスの構造を利用する。 スケッチプリミティブパラメータを回帰するためにループリファインダーも導入されている。 DeepCADとFusion360データセットの厳密な実験は、TransCADが最先端の結果を達成することを示している。 結果解析はCADシーケンスの平均精度であるCADシーケンスの平均値を用いて,既存のメトリクスの限界に対処する。

3D reverse engineering, in which a CAD model is inferred given a 3D scan of a physical object, is a research direction that offers many promising practical applications. This paper proposes TransCAD, an end-to-end transformer-based architecture that predicts the CAD sequence from a point cloud. TransCAD leverages the structure of CAD sequences by using a hierarchical learning strategy. A loop refiner is also introduced to regress sketch primitive parameters. Rigorous experimentation on the DeepCAD and Fusion360 datasets show that TransCAD achieves state-of-the-art results. The result analysis is supported with a proposed metric for CAD sequence, the mean Average Precision of CAD Sequence, that addresses the limitations of existing metrics.
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# 知識グラフ補完のためのテキストベース手法のテキスト認識学習

Subgraph-Aware Training of Text-based Methods for Knowledge Graph Completion ( http://arxiv.org/abs/2407.12703v1 )

ライセンス: Link先を確認
Youmin Ko, Hyemin Yang, Taeuk Kim, Hyunjoon Kim, (参考訳) 微調整事前学習言語モデル(PLM)は、最近知識グラフ補完(KGC)を改善する可能性を示している。 しかし、ほとんどの PLM ベースの手法は、知識グラフ(KG)の様々なトポロジ構造を無視して、テキスト情報のみを符号化する。 本稿では,KGsの構造特性とPLM法の性能との有意な関係を実証的に検証する。 構造的知識を活用するために,KGC(SATKGC)のためのサブグラフ・アウェア・トレーニング・フレームワークを提案する。 一 ハードネガティブサンプリングを奨励するサブグラフ対応ミニバッチ、及び (II) 構造的特性の観点から, より強固な実体と強硬な負の三重項に焦点をあてる新しいコントラスト学習法。 我々の知る限りでは、この研究は、サブグラフの構造的帰納バイアスを微調整 PLM に包括的に組み込む最初の研究である。 4つのKGCベンチマークの大規模な実験はSATKGCの優位性を示している。 私たちのコードは利用可能です。

Fine-tuning pre-trained language models (PLMs) has recently shown a potential to improve knowledge graph completion (KGC). However, most PLM-based methods encode only textual information, neglecting various topological structures of knowledge graphs (KGs). In this paper, we empirically validate the significant relations between the structural properties of KGs and the performance of the PLM-based methods. To leverage the structural knowledge, we propose a Subgraph-Aware Training framework for KGC (SATKGC) that combines (i) subgraph-aware mini-batching to encourage hard negative sampling, and (ii) a new contrastive learning method to focus more on harder entities and harder negative triples in terms of the structural properties. To the best of our knowledge, this is the first study to comprehensively incorporate the structural inductive bias of the subgraphs into fine-tuning PLMs. Extensive experiments on four KGC benchmarks demonstrate the superiority of SATKGC. Our code is available.
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# IMAGDressing-v1: カスタマイズ可能な仮想描画

IMAGDressing-v1: Customizable Virtual Dressing ( http://arxiv.org/abs/2407.12705v1 )

ライセンス: Link先を確認
Fei Shen, Xin Jiang, Xin He, Hu Ye, Cong Wang, Xiaoyu Du, Zechao Li, Jinghui Tang, (参考訳) 最近の進歩は、潜伏拡散モデルを用いた局所的な衣料塗布によるリアルな仮想試着(VTON)を実現し、消費者のオンラインショッピング体験を著しく向上させた。 しかしながら、既存のVTON技術は、衣料品、オプションの顔、ポーズ、シーンの柔軟な制御など、商人が衣料品を包括的に展示する必要性を無視している。 この問題に対処するために、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成することに焦点を当てた仮想ドレッシング(VD)タスクを定義する。 一方、生成した画像と参照衣料との整合性を評価するために、包括的親和性指標(CAMI)を設計する。 次に,CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んだIMAGDressing-v1を提案する。 本稿では,凍結した自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。 IMAGDressing-v1は、ControlNetやIP-Adapterといった他の拡張プラグインと組み合わせることで、生成された画像の多様性と制御性を高めることができる。 さらに、データ不足に対処するため、30万組以上の衣服と着替え画像を含む対話型衣服ペアリング(IGPair)データセットをリリースし、データアセンブリの標準パイプラインを確立する。 我々のIMAGDressing-v1は、様々な制御条件下で、最先端のヒト画像合成性能を達成することを実証した。 コードとモデルはhttps://github.com/muzishen/IMAGDressing.comから入手できる。

Latest advances have achieved realistic virtual try-on (VTON) through localized garment inpainting using latent diffusion models, significantly enhancing consumers' online shopping experience. However, existing VTON technologies neglect the need for merchants to showcase garments comprehensively, including flexible control over garments, optional faces, poses, and scenes. To address this issue, we define a virtual dressing (VD) task focused on generating freely editable human images with fixed garments and optional conditions. Meanwhile, we design a comprehensive affinity metric index (CAMI) to evaluate the consistency between generated images and reference garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet that captures semantic features from CLIP and texture features from VAE. We present a hybrid attention module, including a frozen self-attention and a trainable cross-attention, to integrate garment features from the garment UNet into a frozen denoising UNet, ensuring users can control different scenes through text. IMAGDressing-v1 can be combined with other extension plugins, such as ControlNet and IP-Adapter, to enhance the diversity and controllability of generated images. Furthermore, to address the lack of data, we release the interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of clothing and dressed images, and establish a standard pipeline for data assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves state-of-the-art human image synthesis performance under various controlled conditions. The code and model will be available at https://github.com/muzishen/IMAGDressing.
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# TTSDS -- Text-to-Speech Distribution Score

TTSDS -- Text-to-Speech Distribution Score ( http://arxiv.org/abs/2407.12707v1 )

ライセンス: Link先を確認
Christoph Minixhofer, Ondřej Klejch, Peter Bell, (参考訳) 最近発表されたText-to-Speech (TTS) システムは、実際の音声に近い音声を生成する。 しかし、新しいアーキテクチャ、アプローチ、データセットで得られた結果を理解するために、TS評価を再考する必要がある。 本稿では,韻律,話者識別,知性といった複数の要因を組み合わせた合成音声の質を評価することを提案する。 提案手法は,各因子の相関を求め,その距離を実音声データセットと雑音データセットの両方から測定することにより,実音声のミラーの精度を評価する。 2008年から2024年にかけて開発された35のTTSシステムのベンチマークを行い, 評価値の非重み付き平均値として算出したスコアが, 時間ごとの人的評価と強く相関していることを示した。

Many recently published Text-to-Speech (TTS) systems produce audio close to real speech. However, TTS evaluation needs to be revisited to make sense of the results obtained with the new architectures, approaches and datasets. We propose evaluating the quality of synthetic speech as a combination of multiple factors such as prosody, speaker identity, and intelligibility. Our approach assesses how well synthetic speech mirrors real speech by obtaining correlates of each factor and measuring their distance from both real speech datasets and noise datasets. We benchmark 35 TTS systems developed between 2008 and 2024 and show that our score computed as an unweighted average of factors strongly correlates with the human evaluations from each time period.
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# MoME:汎用マルチモーダル大言語モデルのためのマルチモーダルエキスパートの混在

MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models ( http://arxiv.org/abs/2407.12709v1 )

ライセンス: Link先を確認
Leyang Shen, Gongwei Chen, Rui Shao, Weili Guan, Liqiang Nie, (参考訳) MLLM(Multimodal large language model)は、様々な視覚言語タスクにまたがる印象的な機能を示す。 しかしながら、一般的なMLLMは、ほとんどのVLタスクにおいて専門家のMLLMと比較して性能が劣る。 本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。 私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。 MoVEは様々な視覚エンコーダから変換された機能を適応的に調整することができ、トランスフォーメーションアーキテクチャにおいて強い互換性を持つ。 MoLEは、わずかに制限された専門家をLSMに組み込んで、ほとんど変化のない推論コストで痛みのない改善を実現している。 タスクの干渉に対応するため、我々のMoMEは、タスクの相違に適応するために、視覚と言語モダリティの両方を専門としています。 大規模な実験により、MoMEは様々なVLタスクにおけるジェネラリストMLLMの性能を大幅に改善することが示された。 ソースコードはhttps://github.com/JiuTian-VL/MoMEで公開されている。

Multimodal large language models (MLLMs) have demonstrated impressive capabilities across various vision-language tasks. However, a generalist MLLM typically underperforms compared with a specialist MLLM on most VL tasks, which can be attributed to task interference. In this paper, we propose a mixture of multimodal experts (MoME) to mitigate task interference and obtain a generalist MLLM. Our MoME is composed of two key components, a mixture of vision experts (MoVE) and a mixture of language experts (MoLE). MoVE can adaptively modulate the features transformed from various vision encoders, and has a strong compatibility in transformation architecture. MoLE incorporates sparsely gated experts into LLMs to achieve painless improvements with roughly unchanged inference costs. In response to task interference, our MoME specializes in both vision and language modality to adapt to task discrepancies. Extensive experiments show that MoME significantly improves the performance of generalist MLLMs across various VL tasks. The source code is released at https://github.com/JiuTian-VL/MoME
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# 多目的ラーニング・ツー・Defer問題のためのポストプロシージャ統合フレームワーク

A Unifying Post-Processing Framework for Multi-Objective Learn-to-Defer Problems ( http://arxiv.org/abs/2407.12710v1 )

ライセンス: Link先を確認
Mohammad-Amin Charusaie, Samira Samadi, (参考訳) Learn-to-Deferは、学習アルゴリズムが独立した作業ではなく、人間専門家のチームとして機能することを可能にするパラダイムである。 このパラダイムでは、システムのタスクのサブセットを専門家に委譲する。 現在、このパラダイムに従うシステムがあり、最終的な人間-AIチームの精度を最適化するために設計されているが、そのようなシステムを開発するための一般的な方法論(例えば、アルゴリズムの公正性、専門家の介入予算、異常の延期など)は、ほとんど探索されていないままである。 本稿では,Neyman and Pearson (d-GNP) の基本補題に対する$d$次元の一般化を用いて,様々な制約下での学習・推論システムに対するベイズ最適解を求める。 さらに,その解を推定する一般化可能なアルゴリズムを設計し,このアルゴリズムをCompASおよびACSIncomeデータセットに適用する。 本アルゴリズムは,一組のベースラインに対する制約違反による改善を示す。

Learn-to-Defer is a paradigm that enables learning algorithms to work not in isolation but as a team with human experts. In this paradigm, we permit the system to defer a subset of its tasks to the expert. Although there are currently systems that follow this paradigm and are designed to optimize the accuracy of the final human-AI team, the general methodology for developing such systems under a set of constraints (e.g., algorithmic fairness, expert intervention budget, defer of anomaly, etc.) remains largely unexplored. In this paper, using a $d$-dimensional generalization to the fundamental lemma of Neyman and Pearson (d-GNP), we obtain the Bayes optimal solution for learn-to-defer systems under various constraints. Furthermore, we design a generalizable algorithm to estimate that solution and apply this algorithm to the COMPAS and ACSIncome datasets. Our algorithm shows improvements in terms of constraint violation over a set of baselines.
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# SlimFlow: より小さな1ステップ拡散モデル

SlimFlow: Training Smaller One-Step Diffusion Models with Rectified Flow ( http://arxiv.org/abs/2407.12718v1 )

ライセンス: Link先を確認
Yuanzhi Zhu, Xingchao Liu, Qiang Liu, (参考訳) 拡散モデルは高品質な生成では優れているが、反復サンプリングによる推論が遅い。 最近の手法は拡散モデルをワンステップジェネレータに変換することに成功したが、モデルサイズ削減を無視し、計算制約のあるシナリオで適用性を制限する。 本稿では,推論ステップとモデルサイズの共同圧縮を探索し,強力な整流フローの枠組みに基づく小型かつ効率的な1段階拡散モデルの構築を目的とする。 修正フローフレームワークは、リフローと蒸留という2つの操作を使用して、一段階の生成モデルを訓練する。 原型フレームワークと比較して,モデルサイズを絞った場合,(1)大学生と小学生のリフローにおける初期化ミスマッチ,(2)小学生モデルにおけるナイーブ蒸留の過小評価,という2つの新たな課題が生じる。 これらの問題を克服するために、私たちはSlimFlowフレームワークを構成するAnnealing ReflowとFlow-Guided Distillationを提案します。 CIFAR10の1段階拡散モデル(FID=6.47, 19.4Mパラメータ)よりも優れたFIDと15.7Mパラメータのワンステップ拡散モデルをトレーニングした。 ImageNet 64$\times$64 と FFHQ 64$\times$64 では,より大規模なモデルに匹敵する小さな1ステップ拡散モデルが得られる。

Diffusion models excel in high-quality generation but suffer from slow inference due to iterative sampling. While recent methods have successfully transformed diffusion models into one-step generators, they neglect model size reduction, limiting their applicability in compute-constrained scenarios. This paper aims to develop small, efficient one-step diffusion models based on the powerful rectified flow framework, by exploring joint compression of inference steps and model size. The rectified flow framework trains one-step generative models using two operations, reflow and distillation. Compared with the original framework, squeezing the model size brings two new challenges: (1) the initialization mismatch between large teachers and small students during reflow; (2) the underperformance of naive distillation on small student models. To overcome these issues, we propose Annealing Reflow and Flow-Guided Distillation, which together comprise our SlimFlow framework. With our novel framework, we train a one-step diffusion model with an FID of 5.02 and 15.7M parameters, outperforming the previous state-of-the-art one-step diffusion model (FID=6.47, 19.4M parameters) on CIFAR10. On ImageNet 64$\times$64 and FFHQ 64$\times$64, our method yields small one-step diffusion models that are comparable to larger models, showcasing the effectiveness of our method in creating compact, efficient one-step diffusion models.
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# 学習の未来:学生のレンズを通しての大規模言語モデル

The Future of Learning: Large Language Models through the Lens of Students ( http://arxiv.org/abs/2407.12723v1 )

ライセンス: Link先を確認
He Zhang, Jingyi Xie, Chuhao Wu, Jie Cai, ChanMin Kim, John M. Carroll, (参考訳) 大規模言語モデル(LLM)が進化を続けるにつれて、パフォーマンスの大幅な向上と機能拡張が示され、教育を含む様々な領域に影響を及ぼす。 そこで本研究では14名の学生を対象にChatGPTとの日々の交流について調査を行った。 予備的な知見は,ChatGPTの効率を学習や情報探索に活用するジレンマに対処すると同時に,ChatGPTの成果と幅広い影響に対する信頼と倫理的懸念の危機を経験することである。 学生たちはChatGPTを従来のAIよりも「人間らしい」と認識している。 このジレンマは、混ざった感情、一貫性のない行動、およびChatGPTに対する全体的な肯定的な態度によって特徴づけられ、教育と学習における有益な応用の可能性を強調している。 しかし、人間のような性質にもかかわらず、そのような知能の高度な能力は有害な結果をもたらすかもしれないと我々は論じる。 したがって、そのアプリケーションに慎重にアプローチし、将来の開発における潜在的な害を軽減するために努力することが不可欠である。

As Large-Scale Language Models (LLMs) continue to evolve, they demonstrate significant enhancements in performance and an expansion of functionalities, impacting various domains, including education. In this study, we conducted interviews with 14 students to explore their everyday interactions with ChatGPT. Our preliminary findings reveal that students grapple with the dilemma of utilizing ChatGPT's efficiency for learning and information seeking, while simultaneously experiencing a crisis of trust and ethical concerns regarding the outcomes and broader impacts of ChatGPT. The students perceive ChatGPT as being more "human-like" compared to traditional AI. This dilemma, characterized by mixed emotions, inconsistent behaviors, and an overall positive attitude towards ChatGPT, underscores its potential for beneficial applications in education and learning. However, we argue that despite its human-like qualities, the advanced capabilities of such intelligence might lead to adverse consequences. Therefore, it's imperative to approach its application cautiously and strive to mitigate potential harms in future developments.
翻訳日:2024-07-18 16:26:03 公開日:2024-07-17
# 先進ノード半導体欠陥検査における連続学習の評価

An Evaluation of Continual Learning for Advanced Node Semiconductor Defect Inspection ( http://arxiv.org/abs/2407.12724v1 )

ライセンス: Link先を確認
Amit Prasad, Bappaditya Dey, Victor Blanco, Sandip Halder, (参考訳) 近年、ディープラーニングベースの半導体欠陥検査が注目を集めており、ナノスケール欠陥の検出と分類における高精度、適応性、効率性を提供する、強力で汎用的なアプローチを提供している。 しかし、半導体製造プロセスは進化を続けており、時間とともに新しいタイプの欠陥が出現する。 これは、従来の教師付き欠陥検出装置にとって重要な課題であり、新しい欠陥データセットでトレーニングされた時に破滅的な忘れをし、以前に学習したタスクのパフォーマンスを損なう可能性があるためである。 もうひとつのアプローチは、トレーニング済みのモデルバージョンと並行して、トレーニング済みのデータセットを継続的に保存する、という方法だ。 しかし、特にHVM(High-Volume Manufacturing)を考えると、そのようなストレージテンプレートに付着することは、サイズという点では実用的ではない。 さらに、半導体欠陥データセット、特に確率的欠陥を含むデータセットは、しばしば制限され、入手するのにコストがかかるため、普遍的欠陥率全体の表現が不十分である。 この課題に対処するためのタスクに依存しないメタラーニングアプローチを導入し、新たな欠陥クラスとスケールの漸進的な追加を可能にし、半導体欠陥検査のためのより堅牢で一般化されたモデルを作成する。 我々は,ADI と AEI の2つのプロセスステップに対して,実際のレジストウェーハ SEM (Scanning Electron Microscopy) データセットを用いてアプローチをベンチマークし,従来の教師付きトレーニング手法と比較して優れた性能を示した。

Deep learning-based semiconductor defect inspection has gained traction in recent years, offering a powerful and versatile approach that provides high accuracy, adaptability, and efficiency in detecting and classifying nano-scale defects. However, semiconductor manufacturing processes are continually evolving, leading to the emergence of new types of defects over time. This presents a significant challenge for conventional supervised defect detectors, as they may suffer from catastrophic forgetting when trained on new defect datasets, potentially compromising performance on previously learned tasks. An alternative approach involves the constant storage of previously trained datasets alongside pre-trained model versions, which can be utilized for (re-)training from scratch or fine-tuning whenever encountering a new defect dataset. However, adhering to such a storage template is impractical in terms of size, particularly when considering High-Volume Manufacturing (HVM). Additionally, semiconductor defect datasets, especially those encompassing stochastic defects, are often limited and expensive to obtain, thus lacking sufficient representation of the entire universal set of defectivity. This work introduces a task-agnostic, meta-learning approach aimed at addressing this challenge, which enables the incremental addition of new defect classes and scales to create a more robust and generalized model for semiconductor defect inspection. We have benchmarked our approach using real resist-wafer SEM (Scanning Electron Microscopy) datasets for two process steps, ADI and AEI, demonstrating its superior performance compared to conventional supervised training methods.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# サルカスム検出は大規模言語モデルにおけるステップバイステップ推論プロセスか?

Is Sarcasm Detection A Step-by-Step Reasoning Process in Large Language Models? ( http://arxiv.org/abs/2407.12725v1 )

ライセンス: Link先を確認
Ben Yao, Yazhou Zhang, Qiuchi Li, Jing Qin, (参考訳) 一連の中間推論ステップを共同作業することで、LLMを逐次的に考えさせるような複雑な問題を解くための大きな言語モデル(LLM)の能力が大幅に向上する。 しかし、人間の皮肉理解は直感的で全体論的認知過程と見なされ、様々な言語的、文脈的、感情的な手がかりが統合され、話者の真の意図を包括的に理解する。 この議論を検証するために、SarcasmCueと呼ばれる新しいプロンプトフレームワークを導入し、これには4つのプロンプト戦略である$vizが含まれている。 $ chain of contradiction (CoC)、 graph of cues (GoC)、 bagging of cues (BoC)、 tensor of cues (ToC) は、逐次的および非逐次的プロンプト法を考慮し、LLMにヒトの皮肉を検知させる。 4つのベンチマークデータセットの包括的比較により,提案手法は標準IOプロンプト,CoT,ToTをかなりのマージンで上回り,非シーケンシャルプロンプトはシーケンシャルプロンプトを上回る結果が得られた。

Elaborating a series of intermediate reasoning steps significantly improves the ability of large language models (LLMs) to solve complex problems, as such steps would evoke LLMs to think sequentially. However, human sarcasm understanding is often considered an intuitive and holistic cognitive process, in which various linguistic, contextual, and emotional cues are integrated to form a comprehensive understanding of the speaker's true intention, which is argued not be limited to a step-by-step reasoning process. To verify this argument, we introduce a new prompting framework called SarcasmCue, which contains four prompting strategies, $viz.$ chain of contradiction (CoC), graph of cues (GoC), bagging of cues (BoC) and tensor of cues (ToC), which elicits LLMs to detect human sarcasm by considering sequential and non-sequential prompting methods. Through a comprehensive empirical comparison on four benchmarking datasets, we show that the proposed four prompting methods outperforms standard IO prompting, CoT and ToT with a considerable margin, and non-sequential prompting generally outperforms sequential prompting.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# タイプレベルプロパティベースのテスト

Type-level Property Based Testing ( http://arxiv.org/abs/2407.12726v1 )

ライセンス: Link先を確認
Thomas Ekström Hansen, Edwin Brady, (参考訳) 本稿では,ソフトウェア仕様と依存型付きモデル,コンパイル時の実装の結合を統一する自動フレームワークを提案する。 モデルチェックと型チェックは現在、プログラムの正確性を自動的に検証する別の技術である。 Property Based Testing (PBT)、Indexed State Monads (ISMs)、および依存型を使用して、いくつかの興味深いシステムやネットワークプロトコルをモデル化し、型チェッカーに、実装が指定通りに振る舞うことを確認し、モデルが仕様のセマンティクスにマッチすることをテストさせます。

We present an automated framework for solidifying the cohesion between software specifications, their dependently typed models, and implementation at compile time. Model Checking and type checking are currently separate techniques for automatically verifying the correctness of programs. Using Property Based Testing (PBT), Indexed State Monads (ISMs), and dependent types, we are able to model several interesting systems and network protocols, have the type checker verify that our implementation behaves as specified, and test that our model matches the specification's semantics; a step towards combining model and type checking.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# NL2Contact:拡散モデルを用いた自然言語ガイド3Dハンドオブジェクト接触モデリング

NL2Contact: Natural Language Guided 3D Hand-Object Contact Modeling with Diffusion Model ( http://arxiv.org/abs/2407.12727v1 )

ライセンス: Link先を確認
Zhongqun Zhang, Hengfei Wang, Ziwei Yu, Yihua Cheng, Angela Yao, Hyung Jin Chang, (参考訳) 手と物体の物理的接触をモデル化することは、不正確な手ポーズを精製し、3次元手オブジェクト再構成において新しい人間の握力を生み出すのに標準である。 しかし、既存の手法は、指定や制御ができない幾何学的制約に依存している。 本稿では,自然言語記述を用いた3次元ハンドオブジェクト接触モデリングの新たな課題について紹介する。 課題には 一 言語から接触への相互モーダルモデリングの複雑さ及び 二 接触パターンに関する説明書の欠如 これらの問題に対処するために,段階的拡散モデルを利用して制御可能な接触を生成するモデルであるNL2Contactを提案する。 手と接触の言語記述を与えられたNL2Contactは、現実的で忠実な3Dハンドオブジェクト接触を生成する。 モデルをトレーニングするために、手中心のコンタクト記述を備えた最初のデータセットである \textit{ContactDescribe} を構築します。 これは、慎重に設計されたプロンプト(例えば、グリップアクション、グリップタイプ、接触位置、フリーフィンガーステータス)に基づいて、大規模言語モデルによって生成される多レベルで多様な記述を含んでいる。 本稿では,テキスト接触記述に基づくポーズ最適化と新規なヒューマングリップ生成のためのモデルの適用例を示す。

Modeling the physical contacts between the hand and object is standard for refining inaccurate hand poses and generating novel human grasp in 3D hand-object reconstruction. However, existing methods rely on geometric constraints that cannot be specified or controlled. This paper introduces a novel task of controllable 3D hand-object contact modeling with natural language descriptions. Challenges include i) the complexity of cross-modal modeling from language to contact, and ii) a lack of descriptive text for contact patterns. To address these issues, we propose NL2Contact, a model that generates controllable contacts by leveraging staged diffusion models. Given a language description of the hand and contact, NL2Contact generates realistic and faithful 3D hand-object contacts. To train the model, we build \textit{ContactDescribe}, the first dataset with hand-centered contact descriptions. It contains multi-level and diverse descriptions generated by large language models based on carefully designed prompts (e.g., grasp action, grasp type, contact location, free finger status). We show applications of our model to grasp pose optimization and novel human grasp generation, both based on a textual contact description.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# RoDE:大規模食品多モードモデルのための横型エキスパートの線形整流混合

RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models ( http://arxiv.org/abs/2407.12730v1 )

ライセンス: Link先を確認
Pengkun Jiao, Xinlan Wu, Bin Zhu, Jingjing Chen, Chong-Wah Ngo, Yugang Jiang, (参考訳) 大規模マルチモーダルモデル(LMM)は様々な視覚言語タスクを大幅に進歩させた。 高品質なトレーニングデータのスケーラビリティと可用性は、LMMの成功に重要な役割を果たす。 食品の分野では、Recipe1Mのような包括的な食品データセットは、成分やレシピに関する情報を豊富に提供しているが、栄養分析のための十分なデータを提供していないことが多い。 Recipe1M+データセットは、栄養評価のサブセットを提供するにもかかわらず、栄養情報の規模と正確性に制限されている。 このギャップを埋めるために、Uni-Foodという統合食品データセットを導入し、カテゴリ、食材、レシピ、食材レベルの栄養情報など、さまざまな食品ラベルを持つ10万以上の画像を含む。 Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供することを目的としており、これにより、この領域におけるLMMの性能と能力が向上する。 LMMの微調整におけるマルチタスク監視による対立を緩和するために,我々は,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパートズ(RoDE)アプローチを導入する。 RoDEは多様な専門家の配列を利用して、様々な複雑さのタスクに対処し、訓練可能なパラメータの調整を容易にする。 RoDEは、ルータの機能を改善するために線形整合結合を実装し、スパースタスク割り当ての効率を向上する。 これらの設計選択は、GPUメモリ効率と最適化の容易さを保証する機能を備えたRoDEを実現する。 食品関連マルチタスキングの課題に対処するための提案手法の有効性を実験的に検証した。

Large Multi-modal Models (LMMs) have significantly advanced a variety of vision-language tasks. The scalability and availability of high-quality training data play a pivotal role in the success of LMMs. In the realm of food, while comprehensive food datasets such as Recipe1M offer an abundance of ingredient and recipe information, they often fall short of providing ample data for nutritional analysis. The Recipe1M+ dataset, despite offering a subset for nutritional evaluation, is limited in the scale and accuracy of nutrition information. To bridge this gap, we introduce Uni-Food, a unified food dataset that comprises over 100,000 images with various food labels, including categories, ingredients, recipes, and ingredient-level nutritional information. Uni-Food is designed to provide a more holistic approach to food data analysis, thereby enhancing the performance and capabilities of LMMs in this domain. To mitigate the conflicts arising from multi-task supervision during fine-tuning of LMMs, we introduce a novel Linear Rectification Mixture of Diverse Experts (RoDE) approach. RoDE utilizes a diverse array of experts to address tasks of varying complexity, thereby facilitating the coordination of trainable parameters, i.e., it allocates more parameters for more complex tasks and, conversely, fewer parameters for simpler tasks. RoDE implements linear rectification union to refine the router's functionality, thereby enhancing the efficiency of sparse task allocation. These design choices endow RoDE with features that ensure GPU memory efficiency and ease of optimization. Our experimental results validate the effectiveness of our proposed approach in addressing the inherent challenges of food-related multitasking.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# Minecraftビルダー対話エージェントタスクに基づくLLMベンチマーク

A LLM Benchmark based on the Minecraft Builder Dialog Agent Task ( http://arxiv.org/abs/2407.12734v1 )

ライセンス: Link先を確認
Chris Madge, Massimo Poesio, (参考訳) 本研究では,空間配向タスクにおけるLLM能力の評価に適したLLMベンチマークにMinecraftビルダタスクを適応させ,ビルダエージェント設計をインフォームする。 それまでの研究では、様々な複雑な構造を持つコーパスや、人間の文章による指示が提案されていた。 代わりに、一般的なビルディング操作からなる一連の異なるタスクに対して、ビルダーエージェントをテストするための総合的な総合的なベンチマークを提供しようとしています。 このアプローチにより、異なるエージェントの特定の長所や短所を探索し、空間的推論とベクトルベースの数学の挑戦的な領域におけるLLMの能力をテストすることができると信じている。

In this work we proposing adapting the Minecraft builder task into an LLM benchmark suitable for evaluating LLM ability in spatially orientated tasks, and informing builder agent design. Previous works have proposed corpora with varying complex structures, and human written instructions. We instead attempt to provide a comprehensive synthetic benchmark for testing builder agents over a series of distinct tasks that comprise of common building operations. We believe this approach allows us to probe specific strengths and weaknesses of different agents, and test the ability of LLMs in the challenging area of spatial reasoning and vector based math.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# EchoSight:Wikiの知識でビジュアル言語モデルを改善する

EchoSight: Advancing Visual-Language Models with Wiki Knowledge ( http://arxiv.org/abs/2407.12735v1 )

ライセンス: Link先を確認
Yibin Yan, Weidi Xie, (参考訳) 知識に基づく視覚質問回答(KVQA)タスクは、背景知識の豊富な画像に関する質問に答える必要がある。 大幅な進歩にもかかわらず、生成モデルは外部知識の限定的な統合のためにこれらの課題に苦しむことが多い。 本稿では,大規模言語モデル (LLM) による詳細な百科事典知識を必要とする視覚的疑問への答えを可能にする,新しいマルチモーダル検索・拡張生成(RAG)フレームワークであるEchoSightを紹介する。 ハイパフォーマンス検索のために、まず視覚のみの情報を用いてwiki記事の検索を行い、その後、これらの候補記事は、統合されたテキストイメージクエリとの関連性に応じて、さらにランク付けされる。 このアプローチはマルチモーダル知識の統合を大幅に改善し、検索結果の強化とより正確なVQA応答をもたらす。 The Encyclopedic VQA and InfoSeek datas on our experimental results on the Encyclopedic VQA and InfoSeek shows that EchoSight establishs new-of-the-art results in knowledge-based VQA, achieved a accuracy of 41.8% on Encyclopedic VQA and 31.3% on InfoSeek。

Knowledge-based Visual Question Answering (KVQA) tasks require answering questions about images using extensive background knowledge. Despite significant advancements, generative models often struggle with these tasks due to the limited integration of external knowledge. In this paper, we introduce EchoSight, a novel multimodal Retrieval-Augmented Generation (RAG) framework that enables large language models (LLMs) to answer visual questions requiring fine-grained encyclopedic knowledge. To strive for high-performing retrieval, EchoSight first searches wiki articles by using visual-only information, subsequently, these candidate articles are further reranked according to their relevance to the combined text-image query. This approach significantly improves the integration of multimodal knowledge, leading to enhanced retrieval outcomes and more accurate VQA responses. Our experimental results on the Encyclopedic VQA and InfoSeek datasets demonstrate that EchoSight establishes new state-of-the-art results in knowledge-based VQA, achieving an accuracy of 41.8% on Encyclopedic VQA and 31.3% on InfoSeek.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# CHOSEN: 効率的な視覚変換器推論のためのハードウェア最適化スタックへのコンパイル

CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference ( http://arxiv.org/abs/2407.12736v1 )

ライセンス: Link先を確認
Mohammad Erfan Sadeghi, Arash Fayyazi, Suhas Somashekar, Massoud Pedram, (参考訳) ビジョントランスフォーマー(ViT)は、コンピュータビジョンへの機械学習アプローチにおける画期的なシフトである。 従来のアプローチとは異なり、ViTは自然言語処理で広く使われている自己認識機構を使って画像パッチを分析する。 ビジュアルタスクのモデリングにおける利点にもかかわらず、ハードウェアプラットフォーム、特にFPGA(Field-Programmable Gate Arrays)にViTをデプロイすることは、大きな課題をもたらす。 これらの課題は、主に非線形計算と、ViTの高計算およびメモリ要求に起因する。 本稿では,これらの課題に対処するソフトウェア・ハードウェアの共同設計フレームワークであるCHOSENを紹介する。 我々のフレームワークは,帯域幅を最大化するためのマルチカーネル設計,最小精度の劣化を示す非線形関数,FPGA上で利用可能な論理ブロックの効率的な利用,および最適スループットとレイテンシを実現するための設計空間探索のための新しいアルゴリズムを提示することにより,コンピュータカーネルの性能とメモリ効率を最大化するための効率的なコンパイラの3つの基本的コントリビューションに基づいて構築されている。 最先端のViTアクセラレータと比較して、CHOSENはDeiT-SとDeiT-Bモデルのスループットを1.5倍と1.42倍改善した。

Vision Transformers (ViTs) represent a groundbreaking shift in machine learning approaches to computer vision. Unlike traditional approaches, ViTs employ the self-attention mechanism, which has been widely used in natural language processing, to analyze image patches. Despite their advantages in modeling visual tasks, deploying ViTs on hardware platforms, notably Field-Programmable Gate Arrays (FPGAs), introduces considerable challenges. These challenges stem primarily from the non-linear calculations and high computational and memory demands of ViTs. This paper introduces CHOSEN, a software-hardware co-design framework to address these challenges and offer an automated framework for ViT deployment on the FPGAs in order to maximize performance. Our framework is built upon three fundamental contributions: multi-kernel design to maximize the bandwidth, mainly targeting benefits of multi DDR memory banks, approximate non-linear functions that exhibit minimal accuracy degradation, and efficient use of available logic blocks on the FPGA, and efficient compiler to maximize the performance and memory-efficiency of the computing kernels by presenting a novel algorithm for design space exploration to find optimal hardware configuration that achieves optimal throughput and latency. Compared to the state-of-the-art ViT accelerators, CHOSEN achieves a 1.5x and 1.42x improvement in the throughput on the DeiT-S and DeiT-B models.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# 2024Quantum Information Knowledge (QuIK)ワークショップの量子エラー補正に関するチュートリアル

Tutorial on Quantum Error Correction for 2024 Quantum Information Knowledge (QuIK) Workshop ( http://arxiv.org/abs/2407.12737v1 )

ライセンス: Link先を確認
Priya J. Nadkarni, Narayanan Rengaswamy, Bane Vasić, (参考訳) 我々は、2024年IEEE国際情報理論シンポジウム(ISIT 2024)の第1回量子情報知識ワークショップ(QuIK)の参加者に対して、量子計算の基礎と量子エラー補正の簡単なレビューを行う。 これは包括的なレビューではないが、読者が概念や研究の方向性を深く掘り下げるために、多くの参考資料を提供している。

We provide a brief review of the fundamentals of quantum computation and quantum error correction for the participants of the first Quantum Information Knowledge (QuIK) workshop at the 2024 IEEE International Symposium on Information Theory (ISIT 2024). While this is not a comprehensive review, we provide many references for the reader to delve deeper into the concepts and research directions.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# GroundUp: 高速なスケッチベースの3Dシティマッサージ

GroundUp: Rapid Sketch-Based 3D City Massing ( http://arxiv.org/abs/2407.12739v1 )

ライセンス: Link先を確認
Gizem Esra Unlu, Mohamed Sayed, Yulia Gryaditskaya, Gabriel Brostow, (参考訳) 都市部の3次元都市マッサージのためのスケッチベースの最初のアイデアツールであるGroundUpを提案する。 我々は、スケッチが一般的なツールであり、建築量(質量)とオープンスペースのバランスから始まるアーリーステージの都市デザインに焦点を当てる。 Human-Centered AIを念頭に置いて、我々は2Dスケッチと3Dモデルを簡単に切り替えることで、アーキテクトがアイデアをスムーズにイテレーションし、共有できるようにすることを目標としています。 アーキテクトや既存のワークフローからのフィードバックにインスパイアされた私たちのシステムは、トップダウンビューで複数の建物のユーザスケッチを初めて入力します。 ユーザは、想定されたサイトの視点スケッチを描画する。 提案手法は,2つのスケッチにおける情報の相補性を生かし,推測された3次元形状を素早くプレビューし,調整できるように設計されている。 私たちのモデルは2つの主要コンポーネントを持っています。 まず、トップダウンスケッチ形状を利用した視点スケッチのための新しいスケッチ・ツー・ディープス予測ネットワークを提案する。 第2に、視点スケッチから導かれた奥行き手がかりを拡散モデルへの条件として使用し、最終的にトップダウンビューで幾何学を完遂する。 このように,最終3次元形状は高さ場として表現され,利用者は「地上から」都市を構築することができる。

We propose GroundUp, the first sketch-based ideation tool for 3D city massing of urban areas. We focus on early-stage urban design, where sketching is a common tool and the design starts from balancing building volumes (masses) and open spaces. With Human-Centered AI in mind, we aim to help architects quickly revise their ideas by easily switching between 2D sketches and 3D models, allowing for smoother iteration and sharing of ideas. Inspired by feedback from architects and existing workflows, our system takes as a first input a user sketch of multiple buildings in a top-down view. The user then draws a perspective sketch of the envisioned site. Our method is designed to exploit the complementarity of information in the two sketches and allows users to quickly preview and adjust the inferred 3D shapes. Our model has two main components. First, we propose a novel sketch-to-depth prediction network for perspective sketches that exploits top-down sketch shapes. Second, we use depth cues derived from the perspective sketch as a condition to our diffusion model, which ultimately completes the geometry in a top-down view. Thus, our final 3D geometry is represented as a heightfield, allowing users to construct the city `from the ground up'.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# 入院患者の入院期間予測における統合確率勾配とフェデレーション平均の比較

Comparing Federated Stochastic Gradient Descent and Federated Averaging for Predicting Hospital Length of Stay ( http://arxiv.org/abs/2407.12741v1 )

ライセンス: Link先を確認
Mehmet Yigit Balik, (参考訳) 入院期間(LOS)を確実に予測することは,病院における資源配分の効率化に不可欠である。 従来の予測モデリングツールは、医療機関がプライバシー規則を定めているため、十分なデータと多様なデータを取得するのが難しいことが多い。 本研究では, この問題を, ノードが病院である経験的グラフとしてモデル化した。 このモデリング手法は、病院外の機密データを抽出することなく、異なる病院からの分散データソースをモデル化することで協調的なモデルトレーニングを促進する。 局所モデルは、一般化総変分最小化(GTVMin)を目指して、ノード(ホスピタル)上で訓練される。 さらに,フェデレート確率勾配勾配(FedSGD)とフェデレーション平均化(FedAVG)という2つの異なるフェデレーション学習最適化アルゴリズムを実装し,比較した。 以上の結果から,医療機関外のデータを抽出することなく,プライバシの問題に対処しながら,病院のLOSを正確に予測できることが示唆された。

Predicting hospital length of stay (LOS) reliably is an essential need for efficient resource allocation at hospitals. Traditional predictive modeling tools frequently have difficulty acquiring sufficient and diverse data because healthcare institutions have privacy rules in place. In our study, we modeled this problem as an empirical graph where nodes are the hospitals. This modeling approach facilitates collaborative model training by modeling decentralized data sources from different hospitals without extracting sensitive data outside of hospitals. A local model is trained on a node (hospital) by aiming the generalized total variation minimization (GTVMin). Moreover, we implemented and compared two different federated learning optimization algorithms named federated stochastic gradient descent (FedSGD) and federated averaging (FedAVG). Our results show that federated learning enables accurate prediction of hospital LOS while addressing privacy concerns without extracting data outside healthcare institutions.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# HDLCopilot: 自然言語をクエリするハードウェア設計ライブラリ

HDLCopilot: Hardware Design Library Querying with Natural Language ( http://arxiv.org/abs/2407.12749v1 )

ライセンス: Link先を確認
Manar Abdelatty, Sherief Reda, (参考訳) ハードウェア設計エンジニアは、様々な製造ラボから複数のプロセスデザインキット(PDK)を常用し、それぞれがいくつかの標準セルライブラリを含み、スピード、パワー、密度などの特定の指標に最適化されている。 これらのライブラリには、タイミング情報のための自由ファイル、抽象的なレイアウトの詳細のためのEFファイル、プロセス設計ルールのための技術EFなど、複数のビューが含まれている。 ゲートや設計ルールに関する特定の情報を取得するために、この複雑な風景をナビゲートすることは、しばしば時間がかかり、エラーが発生します。 この問題を解決するために,LLMを利用したPDKクエリシステムであるHDLCopilotを提案する。 HDLCopilotは、多種多様な自然言語クエリからなる評価セットに対して94.23\%の精度を達成する。 HDLCopilotは、ハードウェア設計プロセスにおける強力なアシスタントとしての地位を確立し、生産性を高め、潜在的なヒューマンエラーを減らす。

Hardware design engineers routinely work with multiple Process Design Kits (PDKs) from various fabrication labs, each containing several standard cell libraries, optimized for specific metric such as speed, power, or density. These libraries include multiple views such as liberty files for timing information, LEF files for abstract layout details, and technology LEF for process design rules. Navigating this complex landscape to retrieve specific information about gates or design rules is often time-consuming and error-prone. To address this, we present HDLCopilot, an LLM-powered PDK query system that allows engineers to streamline interactions with PDKs in natural language format, making information retrieval accurate and more efficient. HDLCopilot achieves an accuracy of 94.23\% on an evaluation set comprised of diverse and complex natural language queries. HDLCopilot positions itself as a powerful assistant in the hardware design process, enhancing productivity and reducing potential human errors.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# 推進型XXZスピン鎖における隠れた時間反転--正確な解と新しい散逸相転移

Hidden time-reversal in driven XXZ spin chains: exact solutions and new dissipative phase transitions ( http://arxiv.org/abs/2407.12750v1 )

ライセンス: Link先を確認
Mingxing Yao, Andrew Lingenfelter, Ron Belyansky, David Roberts, Aashish A. Clerk, (参考訳) 境界駆動および散逸の対象となる XXZ スピン鎖の相互作用モデルが、微妙な時間反転対称性を持ち、定常状態が完全に解けることを示す。 我々はコヒーレントな境界駆動を持つモデルに焦点を合わせ、境界駆動振幅の関数として独自の連続散逸相遷移を示すことを示す。 この遷移はバルク閉系や非コヒーレントに駆動されたモデルに類似しない。 また, 定常状態の磁化は相互作用強度に驚くべきフラクタル依存性を示し, 従来は測定が困難であった無限温度輸送量(ドリュー重量)に関連付けられていた。 我々の厳密な解はまた、電流が流れる純粋で絡み合った定常状態を持つ駆動散逸二重鎖モデルを直接生成する。

We show that several models of interacting XXZ spin chains subject to boundary driving and dissipation possess a subtle kind of time-reversal symmetry, making their steady states exactly solvable. We focus on a model with a coherent boundary drive, showing that it exhibits a unique continuous dissipative phase transition as a function of the boundary drive amplitude. This transition has no analogue in the bulk closed system, or in incoherently driven models. We also show the steady state magnetization exhibits a surprising fractal dependence on interaction strength, something previously associated with less easily measured infinite-temperature transport quantities (the Drude weight). Our exact solution also directly yields driven-dissipative double-chain models that have pure, entangled steady states that are also current carrying.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# ベイズ学習のためのスケーラブルなモンテカルロ

Scalable Monte Carlo for Bayesian Learning ( http://arxiv.org/abs/2407.12751v1 )

ライセンス: Link先を確認
Paul Fearnhead, Christopher Nemeth, Chris J. Oates, Chris Sherlock, (参考訳) 本書は,マルコフ連鎖モンテカルロ (MCMC) アルゴリズムにおける高度なトピックを,ベイズ計算の文脈で広く適用することを目的としている。 これらのトピックのすべて(確率勾配MCMC、非可逆MCMC、連続時間MCMC、収束評価のための新しい技術)は、最近10年ほど前に出現し、この分野においてかなり最近の実践的、理論的進歩を導いてきた。 特に注目されているのは、データ量、あるいはデータ次元に関してスケーラブルな方法である。

This book aims to provide a graduate-level introduction to advanced topics in Markov chain Monte Carlo (MCMC) algorithms, as applied broadly in the Bayesian computational context. Most, if not all of these topics (stochastic gradient MCMC, non-reversible MCMC, continuous time MCMC, and new techniques for convergence assessment) have emerged as recently as the last decade, and have driven substantial recent practical and theoretical advances in the field. A particular focus is on methods that are scalable with respect to either the amount of data, or the data dimension, motivated by the emerging high-priority application areas in machine learning and AI.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# Rydberg tweezer配列の超硬度

Supersolidity in Rydberg tweezer arrays ( http://arxiv.org/abs/2407.12752v1 )

ライセンス: Link先を確認
Lukas Homeier, Simon Hollerith, Sebastian Geier, Neng-Chun Chiu, Antoine Browaeys, Lode Pollet, (参考訳) Rydberg tweezer アレイは、双極子 XY または van-der-Waals Ising ZZ 相互作用で量子磁石を探索するための汎用的なプラットフォームを提供する。 本稿では、リドベルク原子間の双極子相互作用とファンダーワール相互作用を組み合わせたスキームを提案し、後者の振幅は前者よりも大きく、光ツイーザアレイの長距離トンネルによる拡張ハバードモデルを実現する。 反発的相互作用では、大規模量子モンテカルロシミュレーションによって支えられた三角格子上でのRydberg tweezer実験において、${}^{87}$Rbの明示的に計算された対の相互作用と、粒子あたり$S/N \approx 0.19$の臨界エントロピーにより、安定な超固体相の存在を予測する。 このような格子超固体は長寿命であり、等方的かつ平坦な2次元幾何学において広いパラメータ範囲で発見され、100個の粒子に対して実現可能である。 その熱力学と力学特性は、ヒッヘルトよりもはるかに大きなスケールで研究することができる。

Rydberg tweezer arrays provide a versatile platform to explore quantum magnets with dipolar XY or van-der-Waals Ising ZZ interactions. Here, we propose a scheme combining dipolar and van-der-Waals interactions between Rydberg atoms, where the amplitude of the latter can be greater than that of the former, realizing an extended Hubbard model with long-range tunnelings in optical tweezer arrays. For repulsive interactions, we predict the existence of a robust supersolid phase accessible in current Rydberg tweezer experiments on the triangular lattice supported by large-scale quantum Monte Carlo simulations based on explicitly calculated pair interactions for ${}^{87}$Rb and with a critical entropy per particle $S/N \approx 0.19$. Such a lattice supersolid is long-lived, found over a wide parameter range in an isotropic and flat two-dimensional geometry, and can be realized for 100s of particles. Its thermodynamical and dynamical properties can hence be studied at a far larger scale than hitherto possible.
翻訳日:2024-07-18 16:16:05 公開日:2024-07-17
# LookupViT: 限られた数のトークンに視覚情報を圧縮する

LookupViT: Compressing visual information to a limited number of tokens ( http://arxiv.org/abs/2407.12753v1 )

ライセンス: Link先を確認
Rajat Koner, Gagan Jain, Prateek Jain, Volker Tresp, Sujoy Paul, (参考訳) ビジョントランスフォーマー (ViT) は、多くの業界グレードのビジョンソリューションのデファクト選択として登場した。 しかし、それらの推論コストは、トークン数において2次計算の複雑さに悩まされる各層における自己注意を計算するため、多くの設定で禁止される。 一方、画像中の空間情報やビデオ内の時空間情報は、通常疎外的で冗長である。 本研究では,この情報空間を利用してViT推論コストを削減するLookupViTを紹介する。 LookupViTは、高解像度トークンから一定数のトークンに情報を圧縮することで動作する、新しい汎用視覚トランスフォーマーブロックを提供する。 これらの数個の圧縮トークンは精巧に処理され、高解像度トークンは計算コストの低い層に渡される。 これら2つのトークンセット間の情報共有は、双方向のクロスアテンション機構によって実現される。 このアプローチには複数の利点があります。 (a)標準のMLアクセラレータ(GPU/TPU)に標準の高レベル演算子を介して簡単に実装できる。 b) 標準 ViT とその変種に適用し、様々なタスクに一般化する。 c) 異なるトークン化とアテンションアプローチを扱うことができる。 LookupViTはまた、圧縮トークンの柔軟性を提供し、単一のトレーニングモデルでパフォーマンス計算のトレードオフを可能にする。 複数ドメインにおける LookupViT の有効性を示す。 (a)画像分類用(ImageNet-1K、ImageNet-21K) (b)動画分類(Kinetics400及びSomething V2) (c) 冷凍エンコーダによる画像キャプション(COCO-Captions)。 LookupViTはFLOPを2ドル値下げし、これらのドメインをまたいで精度をアップまたは改善する。 さらに、LookupViTは画像分類(ImageNet-C,R,A,O)におけるアウト・オブ・ボックスの堅牢性や一般化も示しており、ViTよりも最大4\%向上している。

Vision Transformers (ViT) have emerged as the de-facto choice for numerous industry grade vision solutions. But their inference cost can be prohibitive for many settings, as they compute self-attention in each layer which suffers from quadratic computational complexity in the number of tokens. On the other hand, spatial information in images and spatio-temporal information in videos is usually sparse and redundant. In this work, we introduce LookupViT, that aims to exploit this information sparsity to reduce ViT inference cost. LookupViT provides a novel general purpose vision transformer block that operates by compressing information from higher resolution tokens to a fixed number of tokens. These few compressed tokens undergo meticulous processing, while the higher-resolution tokens are passed through computationally cheaper layers. Information sharing between these two token sets is enabled through a bidirectional cross-attention mechanism. The approach offers multiple advantages - (a) easy to implement on standard ML accelerators (GPUs/TPUs) via standard high-level operators, (b) applicable to standard ViT and its variants, thus generalizes to various tasks, (c) can handle different tokenization and attention approaches. LookupViT also offers flexibility for the compressed tokens, enabling performance-computation trade-offs in a single trained model. We show LookupViT's effectiveness on multiple domains - (a) for image-classification (ImageNet-1K and ImageNet-21K), (b) video classification (Kinetics400 and Something-Something V2), (c) image captioning (COCO-Captions) with a frozen encoder. LookupViT provides $2\times$ reduction in FLOPs while upholding or improving accuracy across these domains. In addition, LookupViT also demonstrates out-of-the-box robustness and generalization on image classification (ImageNet-C,R,A,O), improving by up to $4\%$ over ViT.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# 量子対シンプレクティックコンピュータ

Quantum vs. Symplectic Computers ( http://arxiv.org/abs/2407.12755v1 )

ライセンス: Link先を確認
Igor Volovich, (参考訳) 本稿では,量子コンピュータよりも強力な可能性を持つシンプレクティックコンピュータの概念を提案する。 単体変換(ゲート)とプロジェクター(測定)からなる量子コンピューティングとは異なり、シンプレクティック計算はシンプレクティック変換と測定のシーケンスを含む。 シンプレクティックコンピュータを探索する提案は、以下の量子-シンプレクティック双対性に基づいている。 標準的な複素形式におけるシュリンガー方程式は量子系のユニタリ進化を記述し、実際の形式は古典力学系のシンプレクティック進化を記述する。 この量子シンプレクティック双対性は、量子コンピュータとシンプレクティックコンピュータの能力を高めるために利用することができる。 このシンプレクティックアプローチでは、量子ビット(量子ビット)の役割はシンプレクティックビット(シンプレクティックビット)によって取られる。

In this paper, we propose the concept of symplectic computers, which have the potential to be more powerful than quantum computers. Unlike quantum computing, which consists of a sequence of unitary transformations (gates) and projectors (measurements), symplectic computation involves a sequence of symplectic transformations and measurements. The proposal to explore symplectic computers is based on the following quantum-symplectic duality. The Schr\"odinger equation in its standard complex form describes the unitary evolution of a quantum system, while its real form describes the symplectic evolution of a classical mechanical system. This quantum-symplectic duality can be leveraged to enhance the capabilities of quantum and symplectic computers. In this symplectic approach, the role of a quantum bit (qubit) is taken by a symplectic bit (symbit).
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# 教師なし可視赤外人物再識別のための相互情報ガイドによる最適輸送

Mutual Information Guided Optimal Transport for Unsupervised Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2407.12758v1 )

ライセンス: Link先を確認
Zhizhong Zhang, Jiangming Wang, Xin Tan, Yanyun Qu, Junping Wang, Yong Xie, Yuan Xie, (参考訳) 非監視型赤外線人物識別 (USVI-ReID) は, ラベル情報を使わずに, 異質な歩行者画像を検索することを目的とした, 難易度の高い検索課題である。 このタスクでは、大きなモダリティのばらつきにより、信頼できるモダリティラベルの生成が難しくなり、アノテーションの欠如は、モダリティ不変の特徴を学習する上でさらなる困難をもたらす。 本稿では,モデルの相互情報に基づいて,教師なしVI-ReIDの最適化目標を導出する。 等価導出により、3つの学習原理、すなわち「シャープネス」(エントロピー最小化)、「フェアネス」(一様ラベル分布)、「フィットネス」(信頼性のある相互モダリティマッチング)を得る。 彼らの指導のもと、モデルトレーニングと相互モダリティマッチングの交互にループ反復的なトレーニング戦略を設計する。 マッチング段階では、一致した可視・赤外プロトタイプを選択するために、均一に誘導された最適輸送割当("Fitness", "Fairness")が提案される。 トレーニング段階では、このマッチング情報を用いてプロトタイプベースのコントラスト学習を導入し、モダリティ内エントロピー(シャープネス)を最小化する(シャープネス)。 SYSU-MM01 と RegDB では,SYSU-MM01 と RegDB の精度が 60.6% および 90.3% の精度で評価された。

Unsupervised visible infrared person re-identification (USVI-ReID) is a challenging retrieval task that aims to retrieve cross-modality pedestrian images without using any label information. In this task, the large cross-modality variance makes it difficult to generate reliable cross-modality labels, and the lack of annotations also provides additional difficulties for learning modality-invariant features. In this paper, we first deduce an optimization objective for unsupervised VI-ReID based on the mutual information between the model's cross-modality input and output. With equivalent derivation, three learning principles, i.e., "Sharpness" (entropy minimization), "Fairness" (uniform label distribution), and "Fitness" (reliable cross-modality matching) are obtained. Under their guidance, we design a loop iterative training strategy alternating between model training and cross-modality matching. In the matching stage, a uniform prior guided optimal transport assignment ("Fitness", "Fairness") is proposed to select matched visible and infrared prototypes. In the training stage, we utilize this matching information to introduce prototype-based contrastive learning for minimizing the intra- and cross-modality entropy ("Sharpness"). Extensive experimental results on benchmarks demonstrate the effectiveness of our method, e.g., 60.6% and 90.3% of Rank-1 accuracy on SYSU-MM01 and RegDB without any annotations.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# ランダム森林モデルの解釈法に関する調査と分類

A survey and taxonomy of methods interpreting random forest models ( http://arxiv.org/abs/2407.12759v1 )

ライセンス: Link先を確認
Maissae Haddouchi, Abdelaziz Berrado, (参考訳) ランダムフォレスト(RF)モデルの解釈可能性は、機械学習(ML)コミュニティへの関心が高まりつつある研究トピックである。 現状では、RFは予測性能、柔軟性、使いやすさから、強力な学習アンサンブルと見なされている。 さらに、RF決定木アンサンブルを構築するために直感的で知的なアプローチを用いるため、RFモデルの内部プロセスは理解できる。 しかし、RF生成モデルは、多くの深い決定木のために「ブラックボックス」と見なされている。 各決定ツリーを探索することで最終決定を引き起こすプロセス全体に対する可視性を獲得することは、不可能ではないが、複雑である。 この複雑さは、いくつかの分野のアプリケーションにおけるRFモデルの受け入れと実装を制限する。 いくつかの論文がRFモデルの解釈に取り組んでいる。 本論文は、RF結果モデルの解釈に文献で使用される手法について、広範囲にレビューすることを目的とする。 我々はこれらの手法を解析し、異なる軸に基づいて分類した。 このレビューは、徹底的なものではないが、求めている解釈可能性の側面に応じて、RFモデルを解釈するための最も適切なツールを選択するようユーザに誘導する様々なテクニックの分類を提供する。 また、RFやMLのブラックボックスの解釈可能性に焦点をあてる研究者にとっても価値があるだろう。

The interpretability of random forest (RF) models is a research topic of growing interest in the machine learning (ML) community. In the state of the art, RF is considered a powerful learning ensemble given its predictive performance, flexibility, and ease of use. Furthermore, the inner process of the RF model is understandable because it uses an intuitive and intelligible approach for building the RF decision tree ensemble. However, the RF resulting model is regarded as a "black box" because of its numerous deep decision trees. Gaining visibility over the entire process that induces the final decisions by exploring each decision tree is complicated, if not impossible. This complexity limits the acceptance and implementation of RF models in several fields of application. Several papers have tackled the interpretation of RF models. This paper aims to provide an extensive review of methods used in the literature to interpret RF resulting models. We have analyzed these methods and classified them based on different axes. Although this review is not exhaustive, it provides a taxonomy of various techniques that should guide users in choosing the most appropriate tools for interpreting RF models, depending on the interpretability aspects sought. It should also be valuable for researchers who aim to focus their work on the interpretability of RF or ML black boxes in general.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# Jigsaw Game: フェデレーションクラスタリング

Jigsaw Game: Federated Clustering ( http://arxiv.org/abs/2407.12764v1 )

ライセンス: Link先を確認
Jinxuan Xu, Hong-You Chen, Wei-Lun Chao, Yuqian Zhang, (参考訳) フェデレートラーニングは、特に教師付きラーニングの領域において、近年大きな注目を集めている。 しかし、エンドユーザにラベル付けされていないデータが豊富にあるにも関わらず、フェデレートされた環境でのクラスタリングのような教師なしの学習問題は未解決のままである。 本稿では,フェデレートされたk-meansに着目し,フェデレートされたクラスタリング問題について検討する。 我々は、その非凸目的とフェデレーションフレームワークにおけるデータ不均一性によって引き起こされる課題について概説する。 これらの課題に対処するため、我々はk-meansにおける局所解の構造を研究し、FeCA(Federated Centroid Aggregation)と呼ばれるワンショットアルゴリズムを提案する。 FeCAは、クライアント上のローカルソリューションを適応的に洗練し、その後、これらの洗練されたソリューションを集約して、データセット全体のグローバルソリューションを1ラウンドで回収する。 合成データと実世界データの両方において,FeCAの強靭性について実験的に検証した。 さらに、FeCAを表現学習に拡張し、DeepClusterとFeCAを組み合わせてフェデレーション環境での教師なし機能学習を行うDeepFeCAを提示する。

Federated learning has recently garnered significant attention, especially within the domain of supervised learning. However, despite the abundance of unlabeled data on end-users, unsupervised learning problems such as clustering in the federated setting remain underexplored. In this paper, we investigate the federated clustering problem, with a focus on federated k-means. We outline the challenge posed by its non-convex objective and data heterogeneity in the federated framework. To tackle these challenges, we adopt a new perspective by studying the structures of local solutions in k-means and propose a one-shot algorithm called FeCA (Federated Centroid Aggregation). FeCA adaptively refines local solutions on clients, then aggregates these refined solutions to recover the global solution of the entire dataset in a single round. We empirically demonstrate the robustness of FeCA under various federated scenarios on both synthetic and real-world data. Additionally, we extend FeCA to representation learning and present DeepFeCA, which combines DeepCluster and FeCA for unsupervised feature learning in the federated setting.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# 雑音量子回路のための多項式時間古典アルゴリズム

A polynomial-time classical algorithm for noisy quantum circuits ( http://arxiv.org/abs/2407.12768v1 )

ライセンス: Link先を確認
Thomas Schuster, Chao Yin, Xun Gao, Norman Y. Yao, (参考訳) 雑音量子回路のための多項式時間古典アルゴリズムを提案する。 アルゴリズムは、アンサンブル(例えば計算ベース)から引き出された入力状態に対する平均誤差を小さくして、任意の回路で観測可能な任意の期待値を算出する。 我々のアプローチは、雑音が局所的相関に対して指数関数的に非局所的相関を減衰するという直感に基づいている。 これにより、局所的な量子情報のダイナミクスを追跡するだけで、ノイズの多い量子回路を古典的にシミュレートすることができる。 また,回路の出力分布を準多項式時間でサンプリングすることができる。 ノイズ緩和戦略の有効性に関する基本的な制限を含む、いくつかの実用的な意味を論じる: 誤差緩和が効率的である任意の量子回路は、古典的にシミュレート可能である必要がある。

We provide a polynomial-time classical algorithm for noisy quantum circuits. The algorithm computes the expectation value of any observable for any circuit, with a small average error over input states drawn from an ensemble (e.g. the computational basis). Our approach is based upon the intuition that noise exponentially damps non-local correlations relative to local correlations. This enables one to classically simulate a noisy quantum circuit by only keeping track of the dynamics of local quantum information. Our algorithm also enables sampling from the output distribution of a circuit in quasi-polynomial time, so long as the distribution anti-concentrates. A number of practical implications are discussed, including a fundamental limit on the efficacy of noise mitigation strategies: any quantum circuit for which error mitigation is efficient must be classically simulable.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# ハッシュタグ拡散におけるネットワークとアイデンティティの役割

The Role of Network and Identity in the Diffusion of Hashtags ( http://arxiv.org/abs/2407.12771v1 )

ライセンス: Link先を確認
Aparna Ananthasubramaniam, Yufei Zhu, David Jurgens, Daniel Romero, (参考訳) 行動の拡散は多くの社会的要因の影響を受けているが、既存の文献では、最後のカスケードにおける単一要因(多くの場合、ソーシャルネットワークの特性)の影響を研究する傾向にある。 カスケードのより総合的な視点に向けて、Twitter上での新規文化の創出を表す1,337個のハッシュタグの拡散における2つの社会的要因の役割を包括的に調査する。 1)TwitterのトポロジとTwitter 2) 利用者毎の人口統計的同一性の評価について検討した。 ここでは,カスケードはネットワークとアイデンティティの組み合わせでモデル化されるのが最適であることを示す。 この組み合わせモデルは、1,337個のハッシュタグで10個のカスケード特性の複合指数を最もよく再現する。 しかし、ハッシュタグカスケードの異なる性質を再現するために社会的要因が要求されるものには重要な異種性がある。 例えば、組み合わせたネットワーク+アイデンティティモデルはカスケードの人気を最もよく予測するが、ネットワークのみのモデルはカスケードの成長を予測するのに優れた性能と、採用者の構成におけるアイデンティティのみのモデルを持つ。 機能の組み合わせごとにどのハッシュタグが最適かを予測することができ、これを使ってパフォーマンスをさらに向上します。 さらに、ネットワーク+アイデンティティモデルの組み合わせに関する以前の文献は、人種的または地域的なアイデンティティ、スタンステイク、スポーツについて話すこと、あるいは、非常に遅いまたは急速に成長するコミュニケーティブなニーズを持つ既存の文化的トレンドの変種を表現するために使用されるハッシュタグの中で、最も優れている。 以上の結果から,ネットワーク,アイデンティティ,その他の社会的要因がTwitter上のハッシュタグの普及に果たす役割を考慮し,カスケード予測における多要素モデルの有用性が示唆された。

Although the spread of behaviors is influenced by many social factors, existing literature tends to study the effects of single factors -- most often, properties of the social network -- on the final cascade. In order to move towards a more integrated view of cascades, this paper offers the first comprehensive investigation into the role of two social factors in the diffusion of 1,337 popular hashtags representing the production of novel culture on Twitter: 1) the topology of the Twitter social network and 2) performance of each user's probable demographic identity. Here, we show that cascades are best modeled using a combination of network and identity, rather than either factor alone. This combined model best reproduces a composite index of ten cascade properties across all 1,337 hashtags. However, there is important heterogeneity in what social factors are required to reproduce different properties of hashtag cascades. For instance, while a combined network+identity model best predicts the popularity of cascades, a network-only model has better performance in predicting cascade growth and an identity-only model in adopter composition. We are able to predict what type of hashtag is best modeled by each combination of features and use this to further improve performance. Additionally, consistent with prior literature on the combined network+identity model most outperforms the single-factor counterfactuals among hashtags used for expressing racial or regional identity, stance-taking, talking about sports, or variants of existing cultural trends with very slow- or fast-growing communicative need. In sum, our results imply the utility of multi-factor models in predicting cascades, in order to account for the varied ways in which network, identity, and other social factors play a role in the diffusion of hashtags on Twitter.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# LMMs-Eval:大規模マルチモーダルモデルの現実的評価

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models ( http://arxiv.org/abs/2407.12772v1 )

ライセンス: Link先を確認
Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, Ziwei Liu, (参考訳) 大規模な基盤モデルの進歩は、広範囲のカバレッジ、低コスト、ゼロ汚染ベンチマークを必要とする。 言語モデル評価の継続的な調査にもかかわらず、LMM(Large Multi-modal Models)の評価に関する包括的な研究は限られている。 本稿では,50以上のタスクと10以上のモデルを備えた,統一的で標準化されたマルチモーダルベンチマークフレームワークであるLMMS-EVALを紹介し,透過的で再現可能な評価を促進する。 LMMS-EVALは包括的カバレッジを提供するが、低コストで汚染をゼロにするには依然として不足している。 この評価トリレンマにアプローチするために、我々は、カバー範囲と効率の両方を強調するプルーニング評価ツールキットLMMS-EVAL LITEを導入する。 さらに、ニュースやオンラインフォーラムを継続的に更新して、低コストでゼロな汚染評価アプローチを特徴とする、野生におけるモデルの一般化能力を評価するマルチモーダルLIVEBENCHを提案する。 まとめると、我々の研究は、評価のトリレンマを考えることの重要性を強調し、大規模なマルチモーダルモデルの評価においてトレードオフをナビゲートし、より効果的で信頼性の高いLMMベンチマークを行うための実践的なソリューションを提供する。 私たちはLIVEBENCHのコードベースをオープンソース化し、https://github.com/EvolvingLMMs-Lab/lmms-evalとhttps://huggingface.co/spaces/lmms-lab/LiveBenchでリーダーボードを維持しています。

The advances of large foundation models necessitate wide-coverage, low-cost, and zero-contamination benchmarks. Despite continuous exploration of language model evaluations, comprehensive studies on the evaluation of Large Multi-modal Models (LMMs) remain limited. In this work, we introduce LMMS-EVAL, a unified and standardized multimodal benchmark framework with over 50 tasks and more than 10 models to promote transparent and reproducible evaluations. Although LMMS-EVAL offers comprehensive coverage, we find it still falls short in achieving low cost and zero contamination. To approach this evaluation trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that emphasizes both coverage and efficiency. Additionally, we present Multimodal LIVEBENCH that utilizes continuously updating news and online forums to assess models' generalization abilities in the wild, featuring a low-cost and zero-contamination evaluation approach. In summary, our work highlights the importance of considering the evaluation trilemma and provides practical solutions to navigate the trade-offs in evaluating large multi-modal models, paving the way for more effective and reliable benchmarking of LMMs. We opensource our codebase and maintain leaderboard of LIVEBENCH at https://github.com/EvolvingLMMs-Lab/lmms-eval and https://huggingface.co/spaces/lmms-lab/LiveBench.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# OMG-Net: HaematoxylinとEosin-Stained SlidesからPan-Cancerのミソティックフィギュアを検出するためのSegment Anythingをデプロイするディープラーニングフレームワーク

OMG-Net: A Deep Learning Framework Deploying Segment Anything to Detect Pan-Cancer Mitotic Figures from Haematoxylin and Eosin-Stained Slides ( http://arxiv.org/abs/2407.12773v1 )

ライセンス: Link先を確認
Zhuoyan Shen, Mikael Simard, Douglas Brand, Vanghelita Andrei, Ali Al-Khader, Fatine Oumlil, Katherine Trevers, Thomas Butters, Simon Haefliger, Eleanna Kara, Fernanda Amary, Roberto Tirabosco, Paul Cool, Gary Royle, Maria A. Hawkins, Adrienne M. Flanagan, Charles-Antoine Collins Fekete, (参考訳) ミトコンドリア活性は、いくつかのがんの分類において重要な特徴である。 MF (counting mitotic figure) は、サーバ間の変動に時間がかかり、手間がかかるタスクである。 MFの不正確な認識は、不正なグレーディングを招き、その結果、潜在的に至適な治療につながる可能性がある。 本研究では,デジタルハエマトキシリンとエオシン含有全スライド画像(WSI)のMFを検出する人工知能(AI)支援手法を提案する。 この領域の進歩は、MFの限られた数のがんデータセットとタイプによって妨げられている。 そこで我々は,複数のヒト癌とイヌの標本(ICPR, TUPAC, CCMCT, CMC, MIDOG++)からなる5つのオープンソースの有糸分裂データセットと, 軟部組織腫瘍の社内データセット(STMF)を組み合わせることで, 有糸分裂像の最大の汎癌データセットを確立する。 この新しいデータセットは、74,620個のMFと105,538個のミトティックな図形を識別する。 次に、MFを分類するために2段階のフレームワーク(Optimized Mitoses Generator Network (OMG-Net))を用いた。 このフレームワークはまずSegment Anything Model(SAM)をデプロイし、MFと周辺オブジェクトのコントゥーリングを自動化する。 ResNet18はその後、MFを分類するために訓練される。 OMG-Netは、膵MF検出(乳がん、神経内分泌腫瘍、メラノーマ)で0.84のF1スコアに達し、従来のMIDOG++ベンチマークモデル(例えば、乳がん検出で+16%のF1スコア、p<0.001)よりも優れており、異なるスキャナーで得られた様々な種類の腫瘍でMFを検出するのに優れた精度を提供する。

Mitotic activity is an important feature for grading several cancer types. Counting mitotic figures (MFs) is a time-consuming, laborious task prone to inter-observer variation. Inaccurate recognition of MFs can lead to incorrect grading and hence potential suboptimal treatment. In this study, we propose an artificial intelligence (AI)-aided approach to detect MFs in digitised haematoxylin and eosin-stained whole slide images (WSIs). Advances in this area are hampered by the limited number and types of cancer datasets of MFs. Here we establish the largest pan-cancer dataset of mitotic figures by combining an in-house dataset of soft tissue tumours (STMF) with five open-source mitotic datasets comprising multiple human cancers and canine specimens (ICPR, TUPAC, CCMCT, CMC and MIDOG++). This new dataset identifies 74,620 MFs and 105,538 mitotic-like figures. We then employed a two-stage framework (the Optimised Mitoses Generator Network (OMG-Net) to classify MFs. The framework first deploys the Segment Anything Model (SAM) to automate the contouring of MFs and surrounding objects. An adapted ResNet18 is subsequently trained to classify MFs. OMG-Net reaches an F1-score of 0.84 on pan-cancer MF detection (breast carcinoma, neuroendocrine tumour and melanoma), largely outperforming the previous state-of-the-art MIDOG++ benchmark model on its hold-out testing set (e.g. +16% F1-score on breast cancer detection, p<0.001) thereby providing superior accuracy in detecting MFs on various types of tumours obtained with different scanners.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# 空間モードソータを用いた量子最適コロナグラフの実験的研究

Experimental Demonstration of a Quantum-Optimal Coronagraph Using Spatial Mode Sorters ( http://arxiv.org/abs/2407.12776v1 )

ライセンス: Link先を確認
Nico Deshler, Itay Ozer, Amit Ashok, Saikat Guha, (参考訳) 望遠鏡の基本モードを選択的に拒否する理想的な直接撮像コロナグラフは、外惑星の検出と局在のための量子情報限界を達成するために示されている。 本研究では,空間モード(de)多重化を用いた量子最適コロナグラフを実験的に実装した。 我々のベンチトップシステムは、ポイントスプレッド機能(PSF)適応ベースで光子を分離するように設計された、自由空間プログラム可能な空間モードソータを前方および逆パスで通過する。 前方通過の間、基本モードは拒否され、オン軸の点状星からの光を効果的に除去する。 逆パスでは、残りのモードはコヒーレントに再結合され、かすかな伴奏を直接撮像することができる。 我々は,基本ショットノイズとベンチトップ設定に特有の実験ノイズ,例えばモーダルクロストーク,ダークノイズ,環境背景照明の複合効果を考慮に入れた確率的測定モデルを開発した。 我々はこの測定モデルを用いて、コロナグラフで撮影した画像から、外惑星位置の最大形推定器を定式化する。 このアプローチを用いて、1000:1の恒星-惑星のコントラスト比の下で、主星からサブ回折距離$(<\sigma)$の人工外惑星をローカライズすることに成功した。 我々のシステムは、分離範囲$[0,\,0.6]\sigma$に対して絶対誤差$<0.03\sigma$まで正確に外惑星をローカライズする。 最後に, 実験コロナグラフの精度を, 比較ノイズモデルに基づく最先端コロナグラフに対して数値的に評価した。

An ideal direct imaging coronagraph, which selectively rejects the fundamental mode of a telescope, has been shown to achieve the quantum information limits for exoplanet detection and localization. In this study, we experimentally implement this quantum-optimal coronagraph using spatial mode (de)multiplexing. Our benchtop system includes a forward and inverse pass through a free-space programmable spatial mode sorter, designed to isolate photons in a point spread function (PSF)-adapted basis. During the forward pass, the fundamental mode is rejected, effectively eliminating light from an on-axis point-like star. On the inverse pass, the remaining modes are coherently recombined, enabling direct imaging of a faint companion. We develop a probabilistic measurement model that accounts for combined effects of fundamental shot noise and experimental noise specific to our benchtop setup, such as modal cross-talk, dark noise, and ambient background illumination. We leverage this measurement model to formulate a maximum-likelihood estimator of the exoplanet position given an image captured with the coronagraph. Using this approach, we successfully localize an artificial exoplanet at sub-diffraction distances $(<\sigma)$ from its host star under a 1000:1 star-planet contrast ratio. Our system accurately localizes the exoplanet up to an absolute error $<0.03\sigma$ over the separation range $[0,\,0.6]\sigma$. Finally, we numerically evaluate the precision of our experimental coronagraph against state-of-the-art coronagraphs subject to comparable noise models.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# スパースビュー合成のための一般化可能なヒトガウス

Generalizable Human Gaussians for Sparse View Synthesis ( http://arxiv.org/abs/2407.12777v1 )

ライセンス: Link先を確認
Youngjoong Kwon, Baole Fang, Yixing Lu, Haoye Dong, Cheng Zhang, Francisco Vicente Carrasco, Albert Mosella-Montoro, Jianjin Xu, Shingo Takagi, Daeil Kim, Aayush Prakash, Fernando De la Torre, (参考訳) ニューラルレンダリングの最近の進歩は、NeRFやGaussian Splattingといった先駆的な手法を生み出し、AR/VR、ゲーム、コンテンツ生成といったさまざまな領域におけるビューレンダリングに革命をもたらした。 これらの手法はトレーニングデータ内での補間において優れているが、非常にスパースなビューから新しいシーンやオブジェクトに一般化するという課題は持続する。 特に、スパースビューからの3D人間のモデリングは、人間の幾何学の本質的な複雑さのために、恐ろしいハードルを示し、その結果、幾何学とテクスチャの不正確な再構築をもたらす。 この課題に対処するために,近年のガウシアン・スプレイティングの進歩を活用し,フィードフォワード方式で限られたスパークビューから,新しい被験者のフォトリアリスティックかつ正確なビューレンダリングを可能にする,一般化可能なヒト・ガウシアンを学習するための新しい手法を提案する。 我々のアプローチの重要な革新は、3次元ガウスパラメータの学習を、人間のテンプレートの2次元UV空間上で定義された回帰プロセスに再構成することである。 さらに,オフセットの詳細を効果的に表現するために,マルチスキャフォールドを提案する。 提案手法は,データ内一般化とクロスデータセット一般化設定の両方において,最近の手法よりも優れている。

Recent progress in neural rendering has brought forth pioneering methods, such as NeRF and Gaussian Splatting, which revolutionize view rendering across various domains like AR/VR, gaming, and content creation. While these methods excel at interpolating {\em within the training data}, the challenge of generalizing to new scenes and objects from very sparse views persists. Specifically, modeling 3D humans from sparse views presents formidable hurdles due to the inherent complexity of human geometry, resulting in inaccurate reconstructions of geometry and textures. To tackle this challenge, this paper leverages recent advancements in Gaussian Splatting and introduces a new method to learn generalizable human Gaussians that allows photorealistic and accurate view-rendering of a new human subject from a limited set of sparse views in a feed-forward manner. A pivotal innovation of our approach involves reformulating the learning of 3D Gaussian parameters into a regression process defined on the 2D UV space of a human template, which allows leveraging the strong geometry prior and the advantages of 2D convolutions. In addition, a multi-scaffold is proposed to effectively represent the offset details. Our method outperforms recent methods on both within-dataset generalization as well as cross-dataset generalization settings.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# VD3D:3Dカメラ制御のための大容量ビデオ拡散変換器の開発

VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control ( http://arxiv.org/abs/2407.12781v1 )

ライセンス: Link先を確認
Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian, Michael Vasilkovsky, Hsin-Ying Lee, Chaoyang Wang, Jiaxu Zou, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov, (参考訳) 現代のテキスト・ビデオ合成モデルは、テキスト記述から複雑なビデオのコヒーレントでフォトリアリスティックな生成を示す。 しかし、既存のほとんどのモデルは、カメラの動きをきめ細かな制御に欠けており、コンテンツ作成、視覚効果、および3Dビジョンに関連する下流アプリケーションにとって重要である。 近年,映像を制御可能なカメラで生成する手法が,空間的・時間的生成を明示的に切り離す,事前学習したU-Net拡散モデルを活用することを実証している。 しかし、既存のアプローチでは、空間情報と時間情報を共同で処理する新しいトランスフォーマーベースのビデオ拡散モデルに対して、カメラ制御が可能であることはない。 本稿では,Plucker座標に基づく時空間カメラの埋め込みを組み込んだ制御ネット型コンディショニング機構を用いて,3次元カメラ制御のためのビデオトランスフォーマーを提案する。 このアプローチは、RealEstate10Kデータセットを微調整した後、制御可能なビデオ生成のための最先端性能を示す。 我々の知る限りでは、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初の試みである。

Modern text-to-video synthesis models demonstrate coherent, photorealistic generation of complex videos from a text description. However, most existing models lack fine-grained control over camera movement, which is critical for downstream applications related to content creation, visual effects, and 3D vision. Recently, new methods demonstrate the ability to generate videos with controllable camera poses these techniques leverage pre-trained U-Net-based diffusion models that explicitly disentangle spatial and temporal generation. Still, no existing approach enables camera control for new, transformer-based video diffusion models that process spatial and temporal information jointly. Here, we propose to tame video transformers for 3D camera control using a ControlNet-like conditioning mechanism that incorporates spatiotemporal camera embeddings based on Plucker coordinates. The approach demonstrates state-of-the-art performance for controllable video generation after fine-tuning on the RealEstate10K dataset. To the best of our knowledge, our work is the first to enable camera control for transformer-based video diffusion models.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# 教師なしドメイン適応のためのコントラスト対応トレーニング

Contrastive Adversarial Training for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2407.12782v1 )

ライセンス: Link先を確認
Jiahong Chen, Zhilin Zhang, Lucy Li, Behzad Shahrasbi, Arjun Mishra, (参考訳) ドメイン逆行訓練は、ドメイン不変の特徴表現を見つけるのに有効な能力を示し、様々なドメイン適応タスクにうまく採用されている。 しかし、近年の大規模モデル(例えば、ビジョントランスフォーマー)や複雑な適応シナリオ(例えば、ドメインネット)の出現は、敵のトレーニングをソースドメインに偏りやすく、ターゲットドメインに適応し難いものにしている。 理由は2つある: 大規模なモデルトレーニングのために、ソースドメインから大量のラベル付きデータを頼りにし、微調整のためにターゲットドメインからラベル付きデータを欠いている。 既存のアプローチでは、差別の強化やバックボーンネットワークのトレーニング安定性の向上に重点を置いている。 対立訓練中の特徴抽出器と判別器のバランスの取れない競合のため、既存のソリューションは複雑なデータセットでうまく機能しない。 この問題に対処するために、ラベル付きソースドメインサンプルを利用してターゲットドメインの機能生成を強化・規制する、新しいコントラッシブ・逆行訓練(CAT)手法を提案する。 通常、規制はターゲット特徴分布をソース特徴分布に類似させることを強制する。 CATは、敵対的学習における3つの大きな課題に対処した。 1) 識別器において、2つの領域からの特徴分布を可能な限り区別できないようにし、その結果、より堅牢なドメイン不変の特徴発生をもたらす。 2) 特徴空間のソースに近づくターゲットサンプルを奨励し、ラベル付きソースドメインで訓練された分類器をラベルなしターゲットドメインに一般化する要件を緩和する。 3) 未ペアソースとターゲットサンプルを直接ミニバッチ内でアライメントするのを避ける。 CATは既存のモデルに簡単にプラグインでき、大幅なパフォーマンス向上を示す。

Domain adversarial training has shown its effective capability for finding domain invariant feature representations and been successfully adopted for various domain adaptation tasks. However, recent advances of large models (e.g., vision transformers) and emerging of complex adaptation scenarios (e.g., DomainNet) make adversarial training being easily biased towards source domain and hardly adapted to target domain. The reason is twofold: relying on large amount of labelled data from source domain for large model training and lacking of labelled data from target domain for fine-tuning. Existing approaches widely focused on either enhancing discriminator or improving the training stability for the backbone networks. Due to unbalanced competition between the feature extractor and the discriminator during the adversarial training, existing solutions fail to function well on complex datasets. To address this issue, we proposed a novel contrastive adversarial training (CAT) approach that leverages the labeled source domain samples to reinforce and regulate the feature generation for target domain. Typically, the regulation forces the target feature distribution being similar to the source feature distribution. CAT addressed three major challenges in adversarial learning: 1) ensure the feature distributions from two domains as indistinguishable as possible for the discriminator, resulting in a more robust domain-invariant feature generation; 2) encourage target samples moving closer to the source in the feature space, reducing the requirement for generalizing classifier trained on the labeled source domain to unlabeled target domain; 3) avoid directly aligning unpaired source and target samples within mini-batch. CAT can be easily plugged into existing models and exhibits significant performance improvements.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# SMooDi:スティル化運動拡散モデル

SMooDi: Stylized Motion Diffusion Model ( http://arxiv.org/abs/2407.12783v1 )

ライセンス: Link先を確認
Lei Zhong, Yiming Xie, Varun Jampani, Deqing Sun, Huaizu Jiang, (参考訳) 本稿では,コンテンツテキストとスタイルの動作シーケンスによって駆動されるスタイル化された動きを生成するための,SMooDiと呼ばれる新しい動き拡散モデルを提案する。 様々なコンテンツの動きを生成する既存の方法と異なり、SMooDiは幅広いコンテンツや多様なスタイルで素早く動きを生成することができる。 この目的のために,タイマライゼーションのための事前学習されたテキスト・ツー・モーション・モデルを調整する。 具体的には、生成した動きが参照スタイルと密接に一致することを保証するためのスタイルガイダンスと、現実性を確保しつつ、所望のスタイルに向けて動きを指示する軽量なスタイル適応器を提案する。 様々なアプリケーションを対象とした実験により,提案手法が従来のスタイル化動作生成法よりも優れていることが示された。

We introduce a novel Stylized Motion Diffusion model, dubbed SMooDi, to generate stylized motion driven by content texts and style motion sequences. Unlike existing methods that either generate motion of various content or transfer style from one sequence to another, SMooDi can rapidly generate motion across a broad range of content and diverse styles. To this end, we tailor a pre-trained text-to-motion model for stylization. Specifically, we propose style guidance to ensure that the generated motion closely matches the reference style, alongside a lightweight style adaptor that directs the motion towards the desired style while ensuring realism. Experiments across various applications demonstrate that our proposed framework outperforms existing methods in stylized motion generation.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# AgentPoison: メモリや知識ベースをポジティングすることで、LLMエージェントをリピートする

AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases ( http://arxiv.org/abs/2407.12784v1 )

ライセンス: Link先を確認
Zhaorun Chen, Zhen Xiang, Chaowei Xiao, Dawn Song, Bo Li, (参考訳) LLMエージェントは、おもに推論、外部の知識とツールの利用、APIの呼び出し、環境と対話するためのアクションの実行における高度な能力のために、様々なアプリケーションで顕著なパフォーマンスを示してきた。 現在のエージェントは、通常、メモリモジュールまたは検索拡張生成(RAG)メカニズムを使用して、過去の知識とインスタンスを知識ベースから同様の埋め込みで検索し、タスクの計画と実行を通知する。 しかし、証明されていない知識基盤への依存は、その安全性と信頼性に重大な懸念を生じさせる。 このような脆弱性を明らかにするために,ジェネリックおよびRAGベースのLSMエージェントを標的とした最初のバックドア攻撃であるエージェントポゾン(AgentPoison)を提案する。 特に, ユーザ命令に最適化されたバックドアトリガが含まれている場合, 有害なデモが有毒なメモリや知識ベースから高い確率で検索されるように, トリガーインスタンスを独自の埋め込みスペースにマッピングすることで, バックドアトリガを最適化するための制約付き最適化としてトリガー生成プロセスを構築した。 その間、トリガーなしの良心的な命令は、通常のパフォーマンスを維持し続ける。 従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。 RAGベースの自律運転エージェント、知識集約型QAエージェント、医療用EHRAgentである。 各エージェントに対して、AgentPoisonは平均攻撃成功率は80%以上で、良性(1%未満)への影響は最小限であり、毒性率は0.1%未満である。

LLM agents have demonstrated remarkable performance across various applications, primarily due to their advanced capabilities in reasoning, utilizing external knowledge and tools, calling APIs, and executing actions to interact with environments. Current agents typically utilize a memory module or a retrieval-augmented generation (RAG) mechanism, retrieving past knowledge and instances with similar embeddings from knowledge bases to inform task planning and execution. However, the reliance on unverified knowledge bases raises significant concerns about their safety and trustworthiness. To uncover such vulnerabilities, we propose a novel red teaming approach AgentPoison, the first backdoor attack targeting generic and RAG-based LLM agents by poisoning their long-term memory or RAG knowledge base. In particular, we form the trigger generation process as a constrained optimization to optimize backdoor triggers by mapping the triggered instances to a unique embedding space, so as to ensure that whenever a user instruction contains the optimized backdoor trigger, the malicious demonstrations are retrieved from the poisoned memory or knowledge base with high probability. In the meantime, benign instructions without the trigger will still maintain normal performance. Unlike conventional backdoor attacks, AgentPoison requires no additional model training or fine-tuning, and the optimized backdoor trigger exhibits superior transferability, in-context coherence, and stealthiness. Extensive experiments demonstrate AgentPoison's effectiveness in attacking three types of real-world LLM agents: RAG-based autonomous driving agent, knowledge-intensive QA agent, and healthcare EHRAgent. On each agent, AgentPoison achieves an average attack success rate higher than 80% with minimal impact on benign performance (less than 1%) with a poison rate less than 0.1%.
翻訳日:2024-07-18 16:06:20 公開日:2024-07-17
# 曲面符号とツイストのグラフに基づく定式化

A graph-based formalism for surface codes and twists ( http://arxiv.org/abs/2101.09349v4 )

ライセンス: Link先を確認
Rahul Sarkar, Theodore J. Yoder, (参考訳) 表面符号の2つの欠陥は、より論理的な量子ビットのエンコード、コードレートの改善、論理ゲートの実装に利用できる。 この研究において、我々は、CSS曲面を記述するために、Kitaevによって導入されたよく定義されたホモロジー形式主義を一般化するツイストで曲面コードを構築するための厳密な形式主義を提供する。 特に、曲面コードを任意の2次元多様体に埋め込まれたグラフ$G$に関連付け、(1)量子ビットがグラフの頂点に関連付けられ、(2)安定化器が面に関連付けられ、(3)ねじれ欠陥が奇数の頂点に関連付けられるようにする。 このようにして、文学において、ツイストを伴わずとも様々な曲面符号を再現し、いくつかの新しい例を作成できる。 また,種数,シストル,面幅などのトポロジカルグラフ特性の観点から,速度や距離などの様々な符号特性を計算・バウンドする。

Twist defects in surface codes can be used to encode more logical qubits, improve the code rate, and implement logical gates. In this work we provide a rigorous formalism for constructing surface codes with twists generalizing the well-defined homological formalism introduced by Kitaev for describing CSS surface codes. In particular, we associate a surface code to any graph $G$ embedded on any 2D-manifold, in such a way that (1) qubits are associated to the vertices of the graph, (2) stabilizers are associated to faces, (3) twist defects are associated to odd-degree vertices. In this way, we are able to reproduce the variety of surface codes, with and without twists, in the literature and produce some new examples. We also calculate and bound various code properties such as the rate and distance in terms of topological graph properties such as genus, systole, and face-width.
翻訳日:2024-07-18 12:15:36 公開日:2024-07-17
# 逆知識蒸留による高速ビデオ異常検出

Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation ( http://arxiv.org/abs/2211.15597v4 )

ライセンス: Link先を確認
Florinel-Alin Croitoru, Nicolae-Catalin Ristea, Dana Dascalescu, Radu Tudor Ionescu, Fahad Shahbaz Khan, Mubarak Shah, (参考訳) 本稿では,複数の高精度な対象レベルの教師モデルから知識を抽出し,異常検出を学習する,ビデオ中の異常検出のための非常に高速なフレームレベルモデルを提案する。 学生の忠実度を向上させるために,教師の低分解能な異常マップを,標準と対角蒸留を併用して蒸留し,各教師に対して,目標と生成した異常マップを区別する対角ディミネータを導入する。 我々は3つのベンチマーク(Avenue, ShanghaiTech, UCSD Ped2)で実験を行い、我々の手法は最も高速な競合する手法の7倍以上高速で、オブジェクト中心のモデルよりも28~62倍高速であり、最近の手法に匹敵する結果が得られることを示した。 また,従来の1480FPSの低速化により,速度と精度のトレードオフが最良であることを示す。 さらに、アーキテクチャ設計の選択を正当化するための包括的なアブレーション研究を実施します。 私たちのコードは、https://github.com/ristea/fast-aed.comで無料で利用可能です。

We propose a very fast frame-level model for anomaly detection in video, which learns to detect anomalies by distilling knowledge from multiple highly accurate object-level teacher models. To improve the fidelity of our student, we distill the low-resolution anomaly maps of the teachers by jointly applying standard and adversarial distillation, introducing an adversarial discriminator for each teacher to distinguish between target and generated anomaly maps. We conduct experiments on three benchmarks (Avenue, ShanghaiTech, UCSD Ped2), showing that our method is over 7 times faster than the fastest competing method, and between 28 and 62 times faster than object-centric models, while obtaining comparable results to recent methods. Our evaluation also indicates that our model achieves the best trade-off between speed and accuracy, due to its previously unheard-of speed of 1480 FPS. In addition, we carry out a comprehensive ablation study to justify our architectural design choices. Our code is freely available at: https://github.com/ristea/fast-aed.
翻訳日:2024-07-18 12:15:36 公開日:2024-07-17
# 高速自動回帰デコードのためのLCM-to-SLM

Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding ( http://arxiv.org/abs/2402.16844v3 )

ライセンス: Link先を確認
Benjamin Bergner, Andrii Skliar, Amelie Royer, Tijmen Blankevoort, Yuki Asano, Babak Ehteshami Bejnordi, (参考訳) 大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。 しかし、その巨大なサイズと自動回帰デコードへの依存は、デプロイメントコストを増大させ、レイテンシクリティカルなアプリケーションでの使用を複雑にする。 本研究では,異なる大きさの言語モデルを組み合わせて,高い性能を維持しながら自己回帰復号の効率を向上させるハイブリッド手法を提案する。 提案手法では, 並列に全てのプロンプトトークンを符号化し, その表現を条件付けし, 小言語モデル(SLM)を導出し, その応答をより効率的に生成する。 本研究では,エンコーダ・デコーダとモデルファミリのデコーダ・デコーダ・専用SLMの組み合わせについて検討し,SLMの微調整のみを要した。 様々なベンチマークによる実験では、LLMと比較して、翻訳および要約タスクに対して1-2\%の小さなパフォーマンスペナルティで、最大4\times$の大幅なスピードアップが示されている。

Large language models (LLMs) have become ubiquitous in practice and are widely used for generation tasks such as translation, summarization and instruction following. However, their enormous size and reliance on autoregressive decoding increase deployment costs and complicate their use in latency-critical applications. In this work, we propose a hybrid approach that combines language models of different sizes to increase the efficiency of autoregressive decoding while maintaining high performance. Our method utilizes a pretrained frozen LLM that encodes all prompt tokens once in parallel, and uses the resulting representations to condition and guide a small language model (SLM), which then generates the response more efficiently. We investigate the combination of encoder-decoder LLMs with both encoder-decoder and decoder-only SLMs from different model families and only require fine-tuning of the SLM. Experiments with various benchmarks show substantial speedups of up to $4\times$, with minor performance penalties of $1-2\%$ for translation and summarization tasks compared to the LLM.
翻訳日:2024-07-18 12:15:36 公開日:2024-07-17
# MoAI: 大規模言語と視覚モデルのための全知の混合

MoAI: Mixture of All Intelligence for Large Language and Vision Models ( http://arxiv.org/abs/2403.07508v3 )

ライセンス: Link先を確認
Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro, (参考訳) 大規模言語モデル(LLM)と命令チューニングの台頭は、命令調整された大規模言語とビジョンモデル(LLVM)の現在のトレンドにつながっている。 この傾向は、特定の目的に合わせて調整された多数の命令チューニングデータセットを慎重にキュレートするか、膨大な視覚言語(VL)データを管理するためにLLVMを拡大することを含む。 しかし、現在のLLVMは、セグメンテーション、検出、シーングラフ生成(SGG)、光学文字認識(OCR)といった視覚的知覚タスクにおいて、特殊なコンピュータビジョン(CV)モデルから利用できる詳細で包括的な実世界のシーン理解を無視している。 代わりに、既存のLLVMは、主にLLMバックボーンのキャパシティと創発能力に依存している。 そこで我々は,外部セグメンテーション,検出,SGG,OCRモデルの出力から得られる補助視覚情報を活用する新しいLLVM,Mixture of All Intelligence (MoAI)を提案する。 MoAIは新たに導入されたMoAI-CompressorとMoAI-Mixerの2つのモジュールを運用している。 外部CVモデルの出力を言語化した後、MoAI圧縮機はそれらを整列して凝縮させ、VLタスクに関連した視覚情報を効率的に利用する。 次に、MoAI-Mixerは、(1)視覚的特徴、(2)外部CVモデルからの補助特徴、(3)言語特徴の3種類のインテリジェンスを、エキスパートの混合の概念を利用してブレンドする。 この統合により、MoAIは、多数のゼロショットVLタスク、特にオブジェクトの存在、位置、関係、OCRといった現実世界のシーン理解に関連するタスクにおいて、モデルサイズを拡大したり、余分なビジュアルインストラクションチューニングデータセットをキュレートしたりすることなく、オープンソースとクローズドソースのLLVMを著しく上回っている。

The rise of large language models (LLMs) and instruction tuning has led to the current trend of instruction-tuned large language and vision models (LLVMs). This trend involves either meticulously curating numerous instruction tuning datasets tailored to specific objectives or enlarging LLVMs to manage vast amounts of vision language (VL) data. However, current LLVMs have disregarded the detailed and comprehensive real-world scene understanding available from specialized computer vision (CV) models in visual perception tasks such as segmentation, detection, scene graph generation (SGG), and optical character recognition (OCR). Instead, the existing LLVMs rely mainly on the large capacity and emergent capabilities of their LLM backbones. Therefore, we present a new LLVM, Mixture of All Intelligence (MoAI), which leverages auxiliary visual information obtained from the outputs of external segmentation, detection, SGG, and OCR models. MoAI operates through two newly introduced modules: MoAI-Compressor and MoAI-Mixer. After verbalizing the outputs of the external CV models, the MoAI-Compressor aligns and condenses them to efficiently use relevant auxiliary visual information for VL tasks. MoAI-Mixer then blends three types of intelligence (1) visual features, (2) auxiliary features from the external CV models, and (3) language features by utilizing the concept of Mixture of Experts. Through this integration, MoAI significantly outperforms both open-source and closed-source LLVMs in numerous zero-shot VL tasks, particularly those related to real-world scene understanding such as object existence, positions, relations, and OCR without enlarging the model size or curating extra visual instruction tuning datasets.
翻訳日:2024-07-18 12:15:36 公開日:2024-07-17
# 逆気象下におけるロバストLiDARセマンティックセマンティックセグメンテーションのためのデータ拡張の再考

Rethinking Data Augmentation for Robust LiDAR Semantic Segmentation in Adverse Weather ( http://arxiv.org/abs/2407.02286v4 )

ライセンス: Link先を確認
Junsung Park, Kyungmin Kim, Hyunjung Shim, (参考訳) 既存のLiDARセマンティックセグメンテーション手法は、悪天候下での性能低下に苦慮することが多い。 これまでの研究は、悪天候をシミュレートしたり、トレーニング中に普遍的なデータ拡張を採用することでこの問題に対処してきた。 しかし、これらの手法は、悪天候がLiDARセマンティックセグメンテーション性能に悪影響を及ぼすか、詳細な分析と理解を欠いている。 本研究では, 大気中の霧や液滴による屈折による幾何学的摂動と, エネルギー吸収と閉塞による点降下の2つの要因を同定し, 性能劣化の主な原因を特定するための玩具実験を行った。 これらの知見に基づいて,新たな戦略的データ拡張手法を提案する。 まず、幾何学的摂動を模倣するために、ランダムな深さ(または角度)の点を揺らぐ選択ジッタリング(SJ)を紹介した。 さらに,悪天候下での点滴現象を近似するために,Deep Q-Learning Networkを用いて脆弱な消去パターンを学習するLearningable Point Drop (LPD)を開発した。 これらの手法は、正確な気象シミュレーションを伴わず、データ中心分析によって同定された脆弱な条件に晒すことにより、LiDARセマンティックセマンティックセマンティックセマンティクスモデルを強化する。 実験により, 悪天候に対するロバスト性を高めるため, 提案手法の適合性を確認した。 提案手法はセマンティックKITTI-to-SemanticSTFベンチマークで39.5 mIoUを達成し,ベースラインを8.1\%p改善し,新しい最先端技術を確立する。 私たちのコードは \url{https://github.com/engineerJPark/LiDARWeather} でリリースされます。

Existing LiDAR semantic segmentation methods often struggle with performance declines in adverse weather conditions. Previous work has addressed this issue by simulating adverse weather or employing universal data augmentation during training. However, these methods lack a detailed analysis and understanding of how adverse weather negatively affects LiDAR semantic segmentation performance. Motivated by this issue, we identified key factors of adverse weather and conducted a toy experiment to pinpoint the main causes of performance degradation: (1) Geometric perturbation due to refraction caused by fog or droplets in the air and (2) Point drop due to energy absorption and occlusions. Based on these findings, we propose new strategic data augmentation techniques. First, we introduced a Selective Jittering (SJ) that jitters points in the random range of depth (or angle) to mimic geometric perturbation. Additionally, we developed a Learnable Point Drop (LPD) to learn vulnerable erase patterns with a Deep Q-Learning Network to approximate the point drop phenomenon from adverse weather conditions. Without precise weather simulation, these techniques strengthen the LiDAR semantic segmentation model by exposing it to vulnerable conditions identified by our data-centric analysis. Experimental results confirmed the suitability of the proposed data augmentation methods for enhancing robustness against adverse weather conditions. Our method achieves a notable 39.5 mIoU on the SemanticKITTI-to-SemanticSTF benchmark, improving the baseline by 8.1\%p and establishing a new state-of-the-art. Our code will be released at \url{https://github.com/engineerJPark/LiDARWeather}.
翻訳日:2024-07-18 12:15:36 公開日:2024-07-17
# Skywork-Math: 大規模言語モデルにおける数学的推論のためのデータスケーリング法則

Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On ( http://arxiv.org/abs/2407.08348v2 )

ライセンス: Link先を確認
Liang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou, (参考訳) 本稿では,大規模言語モデル(LLM)の数学的推論能力を高める要因について検討する。 我々は、現代のLSMにおける数学推論能力のデータスケーリング法則は、データ量の増加とともにモデルの品質がどのように改善されるかを強調し、飽和状態には程遠いと論じる。 この主張を支持するために、2.5M-instance Skywork-MathQAデータセットを用いて、一般的な7B LLM上での微調整(SFT)を行うSkywork-Mathモデルシリーズを紹介した。 Skywork-Math 7Bは、競合レベルのMATHベンチマークで51.2%、SFTデータのみを使用してGSM8Kベンチマークで83.9%、MATH上でのGPT-4の初期バージョンよりも優れた精度を達成した。 Skywork-Mathモデルの優れた性能は、新しい2段階のデータ合成およびモデルSFTパイプラインに寄与する。これは、3つの異なる拡張方法と多様なシード問題セットを含み、Skywork-MathQAデータセットの量と品質を様々な難易度で保証する。 最も重要なことは、LLMの数学推論能力を高めるために、研究用および産業用の両方にいくつかの実践的な取組を提供していることである。

In this paper, we investigate the underlying factors that potentially enhance the mathematical reasoning capabilities of large language models (LLMs). We argue that the data scaling law for math reasoning capabilities in modern LLMs is far from being saturated, highlighting how the model's quality improves with increases in data quantity. To support this claim, we introduce the Skywork-Math model series, supervised fine-tuned (SFT) on common 7B LLMs using our proposed 2.5M-instance Skywork-MathQA dataset. Skywork-Math 7B has achieved impressive accuracies of 51.2% on the competition-level MATH benchmark and 83.9% on the GSM8K benchmark using only SFT data, outperforming an early version of GPT-4 on MATH. The superior performance of Skywork-Math models contributes to our novel two-stage data synthesis and model SFT pipelines, which include three different augmentation methods and a diverse seed problem set, ensuring both the quantity and quality of Skywork-MathQA dataset across varying difficulty levels. Most importantly, we provide several practical takeaways to enhance math reasoning abilities in LLMs for both research and industry applications.
翻訳日:2024-07-18 12:15:36 公開日:2024-07-17
# 長距離乱流緩和:大規模データセットと粗粒度フレームワーク

Long-range Turbulence Mitigation: A Large-scale Dataset and A Coarse-to-fine Framework ( http://arxiv.org/abs/2407.08377v2 )

ライセンス: Link先を確認
Shengqi Xu, Run Sun, Yi Chang, Shuning Cao, Xueyao Xiao, Luxin Yan, (参考訳) 長距離イメージングは必然的に、光のランダムな屈折による厳密な幾何学的歪みを伴う大気の乱れに悩まされる。 距離が遠くなるほど、混乱は深刻になる。 従来の研究は短距離乱流への対処に大きな進歩を遂げているが、大きな歪みを伴う長距離乱流への注意は少ない。 このジレンマに対処し、フィールドを前進させるため、1Kmから13Kmの範囲に1500の乱流列を含む、大規模でリアルタイムな長距離大気乱流データセット(RLR-AT)を構築した。 RLR-ATの利点は、より長距離で高密度な乱流、より多彩で大規模なシーンである。 さらに、既存のほとんどの研究は1段階の緩和によって歪みに対処する登録ベースまたは分解ベースの手法を採用している。 しかし、大きなピクセル変位のため、長距離の乱流を効果的に扱えない。 本研究では, 動的乱流と静的背景前兆(CDSP)とを協調し, 強歪みに対処する粗大なフレームワークを提案する。 一方, 乱流前における画素運動統計値を発見し, 大規模歪み登録のための周波数対応参照フレームを提案し, 改良の負担を大幅に軽減した。 一方,背景の静的な優先順位を生かしたサブスペースベースの低ランクテンソル精細化モデルを提案し,詳細な保存を図りつつ,登録によって必然的に残されるミスアライメントを除去する。 動的で静的な先行は互いに補完し、激しい歪みを伴う長距離の乱流を段階的に緩和するのに役立つ。 大規模な実験により,提案手法は異なるデータセット上でSOTA法より優れていることが示された。

Long-range imaging inevitably suffers from atmospheric turbulence with severe geometric distortions due to random refraction of light. The further the distance, the more severe the disturbance. Despite existing research has achieved great progress in tackling short-range turbulence, there is less attention paid to long-range turbulence with significant distortions. To address this dilemma and advance the field, we construct a large-scale real long-range atmospheric turbulence dataset (RLR-AT), including 1500 turbulence sequences spanning distances from 1 Km to 13 Km. The advantages of RLR-AT compared to existing ones: turbulence with longer-distances and higher-diversity, scenes with greater-variety and larger-scale. Moreover, most existing work adopts either registration-based or decomposition-based methods to address distortions through one-step mitigation. However, they fail to effectively handle long-range turbulence due to its significant pixel displacements. In this work, we propose a coarse-to-fine framework to handle severe distortions, which cooperates dynamic turbulence and static background priors (CDSP). On the one hand, we discover the pixel motion statistical prior of turbulence, and propose a frequency-aware reference frame for better large-scale distortion registration, greatly reducing the burden of refinement. On the other hand, we take advantage of the static prior of background, and propose a subspace-based low-rank tensor refinement model to eliminate the misalignments inevitably left by registration while well preserving details. The dynamic and static priors complement to each other, facilitating us to progressively mitigate long-range turbulence with severe distortions. Extensive experiments demonstrate that the proposed method outperforms SOTA methods on different datasets.
翻訳日:2024-07-18 12:15:36 公開日:2024-07-17
# Tsetlin マシンの除去による状態空間の探索と推論

Exploring State Space and Reasoning by Elimination in Tsetlin Machines ( http://arxiv.org/abs/2407.09162v2 )

ライセンス: Link先を確認
Ahmed K. Kadhim, Ole-Christoffer Granmo, Lei Jiao, Rishad Shafik, (参考訳) Tsetlin Machine(TM)は機械学習(ML)において大きな注目を集めている。 論理的基礎を用いることで、パターン学習と表現を容易にし、結語節という形でパターン分類に特化して理解可能な人工知能(AI)を開発するための代替のアプローチを提供する。 自然言語処理(NLP)の分野において、TMは単語の埋め込みを構築し、節を用いてターゲット語を記述するために用いられる。 これらの節の記述能力を高めるために、より包括的な表現を提供するために特徴否定を取り入れた節の定式化において、Reasoning by Elimination(RbE)の概念を研究する。 より詳しくは、Tsetlin Machine Auto-Encoder (TM-AE) アーキテクチャを用いて、与えられた語彙に対して特徴量ベクトルを抽出してコンテキスト情報を取得することを目的とした、高密度な単語ベクトルを生成する。 その後、RbEの原理は記述性を改善し、TMの性能を最適化するために研究される。 具体的には、特異性パラメータsと投票マージンパラメータTを利用して状態空間の特徴分布を規制し、各節の情報を密に表現する。 さらに, TM-AEの状態空間, 特に忘れられた, 除外された特徴について検討する。 人工的に生成されたデータ、IMDBデータセット、20ニューズグループデータセットに関する実証的研究は、IMDBの精度が90.62\%に達するTMの堅牢性を示している。

The Tsetlin Machine (TM) has gained significant attention in Machine Learning (ML). By employing logical fundamentals, it facilitates pattern learning and representation, offering an alternative approach for developing comprehensible Artificial Intelligence (AI) with a specific focus on pattern classification in the form of conjunctive clauses. In the domain of Natural Language Processing (NLP), TM is utilised to construct word embedding and describe target words using clauses. To enhance the descriptive capacity of these clauses, we study the concept of Reasoning by Elimination (RbE) in clauses' formulation, which involves incorporating feature negations to provide a more comprehensive representation. In more detail, this paper employs the Tsetlin Machine Auto-Encoder (TM-AE) architecture to generate dense word vectors, aiming at capturing contextual information by extracting feature-dense vectors for a given vocabulary. Thereafter, the principle of RbE is explored to improve descriptivity and optimise the performance of the TM. Specifically, the specificity parameter s and the voting margin parameter T are leveraged to regulate feature distribution in the state space, resulting in a dense representation of information for each clause. In addition, we investigate the state spaces of TM-AE, especially for the forgotten/excluded features. Empirical investigations on artificially generated data, the IMDB dataset, and the 20 Newsgroups dataset showcase the robustness of the TM, with accuracy reaching 90.62\% for the IMDB.
翻訳日:2024-07-18 12:15:36 公開日:2024-07-17
# 知識グラフクエリ埋め込み学習によるSROI^{-}オントロジーの生成

Generating SROI^{-} Ontologies via Knowledge Graph Query Embedding Learning ( http://arxiv.org/abs/2407.09212v2 )

ライセンス: Link先を確認
Yunjie He, Daniel Hernandez, Mojtaba Nayyeri, Bo Xiong, Yuqicheng Zhu, Evgeny Kharlamov, Steffen Staab, (参考訳) クエリ埋め込みアプローチは、エンティティ、リレーション、クエリの低次元ベクトル表現を計算し操作することで、不完全知識グラフ(KG)上の複雑な論理的クエリに答える。 しかし、現在のクエリ埋め込みモデルは過度にパラメータ化されたニューラルネットワークに依存しており、グラフから学んだ知識を説明できない。 本稿では,SROI^{-}記述論理公理の形でグラフから学習した知識を,既存手法よりもパラメータ効率がよい新しいクエリ埋め込み手法AConEを提案する。 AConEはクエリをSROI^{-}記述ロジックの概念に関連付ける。 すべての SROI^{-} の概念は複素ベクトル空間の錐として埋め込まれ、それぞれの SROI^{-} の関係は錐を回転させ拡大する変換として埋め込まれる。 AConE が SROI^{-} の公理を学習できることを理論的に示し、演算が 1 から SROI^{-} の記述論理概念に 1 に対応する代数を定義する。 複数のクエリデータセットに関する実証研究により、AConEはパラメータが少なく、以前のベースラインよりも優れた結果が得られることが示された。 特にWN18RRデータセットでは、AConEはベースラインモデルよりも大幅に改善されている。 我々は,公理を表現する能力が問合せ応答の結果に肯定的な影響を及ぼすことを示す包括的分析を行った。

Query embedding approaches answer complex logical queries over incomplete knowledge graphs (KGs) by computing and operating on low-dimensional vector representations of entities, relations, and queries. However, current query embedding models heavily rely on excessively parameterized neural networks and cannot explain the knowledge learned from the graph. We propose a novel query embedding method, AConE, which explains the knowledge learned from the graph in the form of SROI^{-} description logic axioms while being more parameter-efficient than most existing approaches. AConE associates queries to a SROI^{-} description logic concept. Every SROI^{-} concept is embedded as a cone in complex vector space, and each SROI^{-} relation is embedded as a transformation that rotates and scales cones. We show theoretically that AConE can learn SROI^{-} axioms, and defines an algebra whose operations correspond one to one to SROI^{-} description logic concept constructs. Our empirical study on multiple query datasets shows that AConE achieves superior results over previous baselines with fewer parameters. Notably on the WN18RR dataset, AConE achieves significant improvement over baseline models. We provide comprehensive analyses showing that the capability to represent axioms positively impacts the results of query answering.
翻訳日:2024-07-18 12:15:36 公開日:2024-07-17
# 大規模言語モデルにおける非現実的説明可能なインクリメンタル・プロンプト・アタック解析

Counterfactual Explainable Incremental Prompt Attack Analysis on Large Language Models ( http://arxiv.org/abs/2407.09292v2 )

ライセンス: Link先を確認
Dong Shu, Mingyu Jin, Tianle Chen, Chong Zhang, Yongfeng Zhang, (参考訳) 本研究は, GPT-4 や LLaMA-2 などの大規模言語モデル (LLMs) における安全性とプライバシ対策を, 即時攻撃を説明可能な解析によって識別・緩和することにより, 安全性とプライバシ対策の推進の必要性を浮き彫りにしている。 本稿では,攻撃効果を定量的に測定し,それらのモデルに埋め込まれた防御機構を探索するために,特定の方法でプロンプトを誘導する新しい手法であるCEIPAを提案する。 本手法は,LSMによる有害反応の発生の背景にある要因を,段階的な対策手法によって解明する能力に特有である。 素早い修正プロセスを4つの段階(単語、文、文字、文字と単語の組み合わせ)にまとめることで、LLM固有の感受性の徹底的な検証を容易にする。 本研究から得られた知見は,反実的説明の洞察を提供するだけでなく,我々の枠組みが攻撃プロンプトの有効性を著しく向上させることを示すものである。

This study sheds light on the imperative need to bolster safety and privacy measures in large language models (LLMs), such as GPT-4 and LLaMA-2, by identifying and mitigating their vulnerabilities through explainable analysis of prompt attacks. We propose Counterfactual Explainable Incremental Prompt Attack (CEIPA), a novel technique where we guide prompts in a specific manner to quantitatively measure attack effectiveness and explore the embedded defense mechanisms in these models. Our approach is distinctive for its capacity to elucidate the reasons behind the generation of harmful responses by LLMs through an incremental counterfactual methodology. By organizing the prompt modification process into four incremental levels: (word, sentence, character, and a combination of character and word) we facilitate a thorough examination of the susceptibilities inherent to LLMs. The findings from our study not only provide counterfactual explanation insight but also demonstrate that our framework significantly enhances the effectiveness of attack prompts.
翻訳日:2024-07-18 12:15:36 公開日:2024-07-17
# モバイルデバイス上でのマルチモーダルエージェントのセキュリティマトリックス:概念研究の体系と証明

Security Matrix for Multimodal Agents on Mobile Devices: A Systematic and Proof of Concept Study ( http://arxiv.org/abs/2407.09295v2 )

ライセンス: Link先を確認
Yulong Yang, Xinshan Yang, Shuaidong Li, Chenhao Lin, Zhengyu Zhao, Chao Shen, Tianwei Zhang, (参考訳) MLLM(Multi-modal Large Language Models)の推論能力の急速な進歩は、モバイルデバイス上での自律エージェントシステムの開発をきっかけにしている。 MLLMベースのモバイルエージェントシステムは、知覚、推論、メモリ、マルチエージェントの協調モジュールで構成され、ユーザ命令の自動解析と、自然言語とデバイスのスクリーンショットのみを入力として、タスクパイプラインの設計を可能にする。 ヒトと機械の相互作用効率が向上したにもかかわらず、MLLMベースの移動エージェントシステムのセキュリティリスクは体系的に研究されていない。 エージェントの既存のセキュリティベンチマークは、主にWebシナリオに焦点を当てており、モバイルエージェントシナリオではMLLMに対する攻撃テクニックも制限されている。 これらのギャップを埋めるために,エージェントシステムの3つの機能モジュールをカバーするモバイルエージェントセキュリティマトリックスを提案する。 本論文は,セキュリティマトリックスに基づいて,現実的な攻撃経路を4つ提案し,攻撃経路を8つの攻撃方法で検証する。 攻撃結果を解析した結果,MLLMをベースとした移動エージェントシステムは,従来型の攻撃に対して脆弱であるだけでなく,これまで考慮されていなかった新たなセキュリティ上の懸念も生じていることがわかった。 本稿では,MLLMシステムの設計におけるセキュリティ意識の必要性を強調し,今後の攻撃・防御手法の研究の道を開く。

The rapid progress in the reasoning capability of the Multi-modal Large Language Models (MLLMs) has triggered the development of autonomous agent systems on mobile devices. MLLM-based mobile agent systems consist of perception, reasoning, memory, and multi-agent collaboration modules, enabling automatic analysis of user instructions and the design of task pipelines with only natural language and device screenshots as inputs. Despite the increased human-machine interaction efficiency, the security risks of MLLM-based mobile agent systems have not been systematically studied. Existing security benchmarks for agents mainly focus on Web scenarios, and the attack techniques against MLLMs are also limited in the mobile agent scenario. To close these gaps, this paper proposes a mobile agent security matrix covering 3 functional modules of the agent systems. Based on the security matrix, this paper proposes 4 realistic attack paths and verifies these attack paths through 8 attack methods. By analyzing the attack results, this paper reveals that MLLM-based mobile agent systems are not only vulnerable to multiple traditional attacks, but also raise new security concerns previously unconsidered. This paper highlights the need for security awareness in the design of MLLM-based systems and paves the way for future research on attacks and defense methods.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# 正弦波位置符号化による高周波関数の学習

Learning High-Frequency Functions Made Easy with Sinusoidal Positional Encoding ( http://arxiv.org/abs/2407.09370v2 )

ライセンス: Link先を確認
Chuanhao Sun, Zhihang Yuan, Kai Xu, Luo Mai, N. Siddharth, Shuo Chen, Mahesh K. Marina, (参考訳) フーリエ特徴に基づく位置符号化(PE)は、3次元ビュー合成やニューラルネットワークカーネルによる時系列回帰といった低次元インプットから高周波特徴を学習する機械学習タスクで一般的に用いられる。 その効果にもかかわらず、既存のPEは、重要なハイパーパラメーター、特にそれぞれの固有のタスクに合わせて調整されたフーリエの特徴を手動で経験的に調整する必要がある。 さらにPEは、特に限られたデータを持つタスクにおいて、高周波関数を効率的に学習する上で、課題に直面している。 本稿では,正弦波PE(sinusoidal PE, SPE)について述べる。 実験の結果,SPEは高パラメータチューニングを伴わないため,3次元ビュー合成,テキスト音声生成,1次元レグレッションなど,多種多様なタスクに対して,改良された忠実度と高速なトレーニングを実現することができた。 SPEは既存のPEの直接代替として実装されている。 そのプラグ・アンド・プレイの性質により、多くのタスクが簡単にSPEを取り入れ、利益を得ることができる。

Fourier features based positional encoding (PE) is commonly used in machine learning tasks that involve learning high-frequency features from low-dimensional inputs, such as 3D view synthesis and time series regression with neural tangent kernels. Despite their effectiveness, existing PEs require manual, empirical adjustment of crucial hyperparameters, specifically the Fourier features, tailored to each unique task. Further, PEs face challenges in efficiently learning high-frequency functions, particularly in tasks with limited data. In this paper, we introduce sinusoidal PE (SPE), designed to efficiently learn adaptive frequency features closely aligned with the true underlying function. Our experiments demonstrate that SPE, without hyperparameter tuning, consistently achieves enhanced fidelity and faster training across various tasks, including 3D view synthesis, Text-to-Speech generation, and 1D regression. SPE is implemented as a direct replacement for existing PEs. Its plug-and-play nature lets numerous tasks easily adopt and benefit from SPE.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# 産業応用のための文字列生成に基づく化学反応モデルの推算の高速化

Accelerating the inference of string generation-based chemical reaction models for industrial applications ( http://arxiv.org/abs/2407.09685v2 )

ライセンス: Link先を確認
Mikhail Andronov, Natalia Andronova, Michael Wand, Jürgen Schmidhuber, Djork-Arné Clevert, (参考訳) テンプレートのないSMILES-to-SMILES変換モデルによる反応予測と1段階の逆合成は、コンピュータ支援合成計画システムにおける産業的応用において、最先端の精度のために重要である。 しかし、推論速度が遅い。 本稿では,クエリ文字列列を適切な場所でターゲット文字列にコピーすることで,投機的復号化による自動回帰SMILESジェネレータの推論を高速化する手法を提案する。 そこで,本手法をPytorch Lightningで実装した分子トランスに応用し,反応予測と1段階の逆合成において3倍以上の高速化を実現し,精度を損なうことなく実現した。

Template-free SMILES-to-SMILES translation models for reaction prediction and single-step retrosynthesis are of interest for industrial applications in computer-aided synthesis planning systems due to their state-of-the-art accuracy. However, they suffer from slow inference speed. We present a method to accelerate inference in autoregressive SMILES generators through speculative decoding by copying query string subsequences into target strings in the right places. We apply our method to the molecular transformer implemented in Pytorch Lightning and achieve over 3X faster inference in reaction prediction and single-step retrosynthesis, with no loss in accuracy.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# ニューラルコード生成における弱さの発見

Uncovering Weaknesses in Neural Code Generation ( http://arxiv.org/abs/2407.09793v2 )

ライセンス: Link先を確認
Xiaoli Lian, Shuaisong Wang, Jieping Ma, Fang Liu, Xin Tan, Li Zhang, Lin Shi, Cuiyun Gao, (参考訳) プロンプトからソースコードを生成するタスクであるコード生成は、事前訓練された大規模言語モデル(PLM)の出現によって大幅に進歩した。 これらの成果にもかかわらず、ベンチマークと生成されたコードに関する弱点の包括的分類が欠けているため、未調査領域のコストで既知の問題にコミュニティが集中するリスクがある。 我々の体系的な研究は、5つの最先端PLMを評価することでこのギャップを埋めることを目指している。3つの大きなモデル、70億のパラメータを持つCodeGen2.5、60億のパラメータを持つCodeGeeX2、GPT-4 Turbo、そして2つの小さなモデル、110万のパラメータを持つUnixCoder、22000万のパラメータを持つCodeT5ベースであるCoNaLa、HumanEval Plus、DS-1000である。 マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。 我々は、大小両方のモデルの弱み分布を分離し、モデル固有のだけでなく、モデル間の集団分析(ユニオンと交差)を含む広範な方法論を適用した。 私たちの研究は3つの有能な発見を発見しました。 1. CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースでフェールし、より小さなモデルでは40%高いフェール率で失敗する。 2 CoNaLaタスクの65.78%でキーセマンティクスを省略し、同様にHumanEval Plus (66.09%) とDS-1000 (80.51%) で発生する。 3. すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。 私たちの研究は、コード生成における特定の弱点と課題に対処するために研究者を指導することを目的としています。 さらに、アノテーションは詳細な分析のためにターゲットとなるベンチマークサブセットを提供することができます。

Code generation, the task of producing source code from prompts, has seen significant advancements with the advent of pre-trained large language models (PLMs). Despite these achievements, there lacks a comprehensive taxonomy of weaknesses about the benchmark and the generated code, which risks the community's focus on known issues at the cost of under-explored areas. Our systematic study aims to fill this gap by evaluating five state-of-the-art PLMs: three larger models, CodeGen2.5 with 7 billion parameters, CodeGeeX2 with 6 billion parameters, GPT-4 Turbo, and two smaller ones, UnixCoder with 110 million parameters and CodeT5 base with 220 million parameters, across three popular datasets, CoNaLa, HumanEval Plus, and DS-1000. We assess the quality of generated code using match-based and execution-based metrics, then conduct thematic analysis to develop a taxonomy of nine types of weaknesses. We dissected weakness distributions in both larger and smaller models, applying an extensive methodology that encompasses model-specific as well as collective analysis (union and intersection) across models. Our research uncovers three salient findings: 1. In the CoNaLa dataset, inaccurate prompts are a notable problem, causing all large models to fail in 26.84% of cases, with even higher failure rates of 40% for smaller models; 2. Missing pivotal semantics is a pervasive issue across benchmarks, with one or more large models omitting key semantics in 65.78% of CoNaLa tasks, and similarly high occurrences in HumanEval Plus (66.09%) and DS-1000 (80.51%); 3. All models struggle with proper API usage, a challenge amplified by vague or complex prompts. Our findings aim to steer researchers towards addressing specific weaknesses and challenges in code generation. Furthermore, our annotations can offer a targeted benchmark subset for detailed analysis.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# DistillSeq: 知識蒸留を用いた大規模言語モデルの安全アライメントテストフレームワーク

DistillSeq: A Framework for Safety Alignment Testing in Large Language Models using Knowledge Distillation ( http://arxiv.org/abs/2407.10106v2 )

ライセンス: Link先を確認
Mingke Yang, Yuqi Chen, Yi Liu, Ling Shi, (参考訳) 大きな言語モデル(LLM)は、自然言語の理解、翻訳、さらにはコード生成を含む様々な領域において、その顕著な能力を誇示している。 LLMが有害なコンテンツを生成できる可能性は大きな懸念事項である。 このリスクは、安全で責任ある使用を確保するために、厳密なテストとLLMの包括的な評価を必要とする。 しかし、LLMの広範なテストには相当な計算資源が必要であり、コストがかかる。 したがって、テストフェーズにおけるコスト削減戦略の探求は、リソース可用性の制約と徹底的な評価の必要性のバランスをとるために不可欠である。 そこで本手法は,LLMから小さなモデルにモデレーション知識を移すことから始める。 その後、私たちは、構文木アプローチに基づく悪質なクエリを生成するための2つの戦略をデプロイし、もう1つはLLMベースのメソッドを活用する。 最後に, 本手法では, 有害反応を誘発しやすい検査事例を特定するために, シーケンシャルなフィルタテストプロセスを導入している。 本研究は, GPT-3.5, GPT-4.0, Vicuna-13B, Llama-13Bの4種類のLDMに対するDistillSeqの有効性を検討した。 DistillSeqがなければ、これらのLSMの攻撃成功率は、GPT-3.5が31.5%、GPT-4.0が21.4%、Vicuna-13Bが28.3%、Llama-13Bが30.9%であった。 しかし、DistillSeqの適用により、これらの成功率は58.5%、50.7%、52.5%、54.4%に顕著に増加した。 これは、DistillSeqを使用せずにシナリオと比較した場合、攻撃成功率の平均エスカレーションを93.0%削減した。 このような知見は、LLMを効果的にテストするために必要な時間とリソース投資を減らすという点で、DistillSeqが提供する重要な強化を浮き彫りにしている。

Large Language Models (LLMs) have showcased their remarkable capabilities in diverse domains, encompassing natural language understanding, translation, and even code generation. The potential for LLMs to generate harmful content is a significant concern. This risk necessitates rigorous testing and comprehensive evaluation of LLMs to ensure safe and responsible use. However, extensive testing of LLMs requires substantial computational resources, making it an expensive endeavor. Therefore, exploring cost-saving strategies during the testing phase is crucial to balance the need for thorough evaluation with the constraints of resource availability. To address this, our approach begins by transferring the moderation knowledge from an LLM to a small model. Subsequently, we deploy two distinct strategies for generating malicious queries: one based on a syntax tree approach, and the other leveraging an LLM-based method. Finally, our approach incorporates a sequential filter-test process designed to identify test cases that are prone to eliciting toxic responses. Our research evaluated the efficacy of DistillSeq across four LLMs: GPT-3.5, GPT-4.0, Vicuna-13B, and Llama-13B. In the absence of DistillSeq, the observed attack success rates on these LLMs stood at 31.5% for GPT-3.5, 21.4% for GPT-4.0, 28.3% for Vicuna-13B, and 30.9% for Llama-13B. However, upon the application of DistillSeq, these success rates notably increased to 58.5%, 50.7%, 52.5%, and 54.4%, respectively. This translated to an average escalation in attack success rate by a factor of 93.0% when compared to scenarios without the use of DistillSeq. Such findings highlight the significant enhancement DistillSeq offers in terms of reducing the time and resource investment required for effectively testing LLMs.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# LAB-Bench:生物学研究のための言語モデルの能力測定

LAB-Bench: Measuring Capabilities of Language Models for Biology Research ( http://arxiv.org/abs/2407.10362v3 )

ライセンス: Link先を確認
Jon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques, (参考訳) フロンティア大言語モデル(LLM)とLLM拡張システムは、分野によって科学的な発見を迅速に加速する可能性があるという、幅広い楽観主義がある。 現在、LLMの知識と推論を教科書スタイルの科学問題で測定するためのベンチマークが多数存在するが、文献検索、プロトコル計画、データ分析などの科学研究に必要な実践的なタスクにおいて言語モデルのパフォーマンスを評価するために設計されたベンチマークはほとんどない。 このようなベンチマークを構築するためのステップとして、Language Agent Biology Benchmark (LAB-Bench) を導入し、文献のリコールと推論、数字の解釈、データベースのアクセスとナビゲーション、DNAとタンパク質配列の理解と操作など、AIシステムを評価するための2,400以上の選択肢の広いデータセットを紹介した。 重要なことは、従来の科学的ベンチマークとは対照的に、より難しいLAB-Benchタスクで一貫した高いスコアを達成できるAIシステムは、文学検索や分子クローニングといった分野の研究者にとって有用なアシスタントとなるだろう。 本研究は,フロンティア言語モデルの創発的科学的タスク能力の初回評価として,我々のベンチマークに対していくつかの性能を測定し,人間の専門生物学研究者と比較して結果を報告する。 LAB-Benchは今後もアップデートと拡張を続けますし、今後は自動研究システムの開発に有用なツールになるだろうと考えています。 LAB-Benchのパブリックサブセットは、以下のURLで利用可能である。

There is widespread optimism that frontier Large Language Models (LLMs) and LLM-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to measure LLM knowledge and reasoning on textbook-style science questions, but few if any benchmarks are designed to evaluate language model performance on practical tasks required for scientific research, such as literature search, protocol planning, and data analysis. As a step toward building such benchmarks, we introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of over 2,400 multiple choice questions for evaluating AI systems on a range of practical biology research capabilities, including recall and reasoning over literature, interpretation of figures, access and navigation of databases, and comprehension and manipulation of DNA and protein sequences. Importantly, in contrast to previous scientific benchmarks, we expect that an AI system that can achieve consistently high scores on the more difficult LAB-Bench tasks would serve as a useful assistant for researchers in areas such as literature search and molecular cloning. As an initial assessment of the emergent scientific task capabilities of frontier language models, we measure performance of several against our benchmark and report results compared to human expert biology researchers. We will continue to update and expand LAB-Bench over time, and expect it to serve as a useful tool in the development of automated research systems going forward. A public subset of LAB-Bench is available for use at the following URL: https://huggingface.co/datasets/futurehouse/lab-bench
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# エッジデバイスのための低メモリフットプリントによる効率的な連続学習

Efficient Continual Learning with Low Memory Footprint For Edge Device ( http://arxiv.org/abs/2407.10545v2 )

ライセンス: Link先を確認
Zeqing Wang, Fei Cheng, Kangye Ji, Bohu Huang, (参考訳) 連続学習(CL)は動的知識の獲得に有用である。 強力なクラウドプラットフォームは、CL(例えばカスタマイズされたレコメンデーションシステム)の能力を完全に発揮できるが、エッジデバイスに対する同様のパーソナライズされた要件はほとんど無視されている。 この現象は、ニューラルネットワークのトレーニングと、CLの忘れられる問題を克服することに関わる膨大なリソースオーバーヘッドに起因している。 本稿では,これらのシナリオに着目し,LightCLと呼ばれるコンパクトなアルゴリズムを提案する。 他のCLメソッドとは異なり、忘れるのを遅らせるためのすべてのタスクの中でリソースの消費が一般化できるため、LightCLはニューラルネットワークで既に一般化されたコンポーネントのリソース消費を圧縮し、いくつかの余分なリソースを使用して他の部分のメモリを改善する。 まず,CLにおける可塑性学習とメモリ安定性の2つの新しい指標を提案する。 下層と中層がより一般化可能であり、より深い層が反対であるという発見に基づいて、下層と中層を凍結することで、$\textit{Maintain Generalizability}$を$\textit{Maintain Generalizability} とします。 次に、以前のタスクの特徴抽出パターンを安定化させ、より深いレイヤでの一般化性を改善するために、$\textit{Memorize Feature Patterns}$を値します。 実験的な比較では、LightCLは他のSOTAメソッドよりも遅延し、最大$\textbf{6.16$\times$}のメモリフットプリントを削減し、LightCLの効率性に優れた性能を示す。 また,エッジデバイスであるJetson Nanoにおいて,本手法の有効性を検証した。

Continual learning(CL) is a useful technique to acquire dynamic knowledge continually. Although powerful cloud platforms can fully exert the ability of CL,e.g., customized recommendation systems, similar personalized requirements for edge devices are almost disregarded. This phenomenon stems from the huge resource overhead involved in training neural networks and overcoming the forgetting problem of CL. This paper focuses on these scenarios and proposes a compact algorithm called LightCL. Different from other CL methods bringing huge resource consumption to acquire generalizability among all tasks for delaying forgetting, LightCL compress the resource consumption of already generalized components in neural networks and uses a few extra resources to improve memory in other parts. We first propose two new metrics of learning plasticity and memory stability to seek generalizability during CL. Based on the discovery that lower and middle layers have more generalizability and deeper layers are opposite, we $\textit{Maintain Generalizability}$ by freezing the lower and middle layers. Then, we $\textit{Memorize Feature Patterns}$ to stabilize the feature extracting patterns of previous tasks to improve generalizability in deeper layers. In the experimental comparison, LightCL outperforms other SOTA methods in delaying forgetting and reduces at most $\textbf{6.16$\times$}$ memory footprint, proving the excellent performance of LightCL in efficiency. We also evaluate the efficiency of our method on an edge device, the Jetson Nano, which further proves our method's practical effectiveness.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# 量子コンピュータのベンチマーク:標準性能評価アプローチに向けて

Benchmarking Quantum Computers: Towards a Standard Performance Evaluation Approach ( http://arxiv.org/abs/2407.10941v2 )

ライセンス: Link先を確認
Arturo Acuaviva, David Aguirre, Rubén Peña, Mikel Sanz, (参考訳) 異なる量子プラットフォーム上でますます大きな量子プロセッサの技術的発展は、量子プロセッサの量子ベンチマークとして知られる、そのパフォーマンスを正確に比較する方法の問題を提起する。 これは、コンピュータ科学者が古典的なプロセッサを比較する際に既に直面している課題であり、これに対処する様々な数学的ツールの開発に繋がるだけでなく、この問題の限界の特定にも繋がる。 本稿では、従来のプロセッサベンチマークとそれらを構成するメトリクスの両方において最も重要な側面を概観し、正確な定義を提供し、それらが提示すべき品質特性を分析する。 その後、量子コンピューティングのパラダイムを特徴付ける固有の特性を分析し、古典的なベンチマークから戦略の素早い移行を妨げる。 しかし、私たちはまだ、 \textit{good}ベンチマークの品質特性など、いくつかの教訓を活用できます。 さらに、文献で提案されている量子プロセッサの最も重要なメトリクスとベンチマークをレビューし、それらが満たす品質特性を評価する。 最後に,量子ベンチマークの一般的なガイドラインを提案する。 これらのガイドラインは、量子デバイスの性能評価の標準化に向けたロードマップを確立するための道を開くことを目的としており、最終的に標準性能評価法人(SPEC)のような組織を創出することにつながる。

The technological development of increasingly larger quantum processors on different quantum platforms raises the problem of how to fairly compare their performance, known as quantum benchmarking of quantum processors. This is a challenge that computer scientists have already faced when comparing classical processors, leading to the development of various mathematical tools to address it, but also to the identification of the limits of this problem. In this work, we briefly review the most important aspects of both classical processor benchmarks and the metrics comprising them, providing precise definitions and analyzing the quality attributes that they should exhibit. Subsequently, we analyze the intrinsic properties that characterize the paradigm of quantum computing and hinder the naive transfer of strategies from classical benchmarking. However, we can still leverage some of the lessons learned such as the quality attributes of a \textit{good} benchmark. Additionally, we review some of the most important metrics and benchmarks for quantum processors proposed in the literature, assessing what quality attributes they fulfill. Finally, we propose general guidelines for quantum benchmarking. These guidelines aim to pave the way for establishing a roadmap towards standardizing the performance evaluation of quantum devices, ultimately leading to the creation of an organization akin to the Standard Performance Evaluation Corporation (SPEC).
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# Show, Don't Tell: ChildPlayによるテキスト理解以上の大規模言語モデルの評価

Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay ( http://arxiv.org/abs/2407.11068v2 )

ライセンス: Link先を確認
Gonçalo Hora de Carvalho, Robert Pollice, Oscar Knap, (参考訳) GPT-3.5 や GPT-4 のような LLM は、特に非言語領域において、より広い認知機能を持つという仮説を探求する。 我々のアプローチは、戦略的思考と意思決定を評価するために、ASCIIでエンコードされたTic-Tac-Toe、Connect Four、Battleshipといったゲームを統合することで、標準的な言語ベンチマークを超えて拡張されます。 モデルがトレーニングデータを超えて一般化できる能力を評価するために,さらに2つのゲームを導入する。 最初のゲームであるLEGO Connect Language (LCL)は、空間論理を理解してアセンブリ命令に従うためにモデルの能力をテストする。 第2のゲーム、形状のゲームは、ゼロの行列内で1sで表される形状を識別するためにモデルに挑戦し、さらに空間推論のスキルをテストする。 この"Show, don't tell"戦略は、単にモデルに問い合わせるのではなく、ゲームを使用する。 その結果,GPT-3.5 と GPT-4 のプレイ能力は標準ベンチマークに習熟しているにもかかわらず,事前学習をせずに完全に観察可能なゲームについて推論できることが示唆された。 どちらのモデルも、Tic-Tac-ToeとConnect Fourでの敗戦を予測できず、バトルシップを正しくプレイすることができない。 GPT-4は形状のゲームである程度成功したが、両方のモデルはLCLゲームで提示された組立タスクで失敗する。 これらの結果は,GPTモデルが会話の熟練度や基本ルールの理解をエミュレートできる一方で,戦略ゲームプレイや空間推論タスクにおける性能は極めて限定的であることを示唆している。 重要なことに、これは現在のLLMベンチマークの盲点であり、ゲームプレイベンチマークスイートであるChildPlay(https://github.com/child-play-neurips/child-play)で強調します。 本研究は, GPT-3.5 と GPT-4 とほぼ同じ大きさの LLM の創発的知能の主張と推論能力に関する注意深い物語を提供する。

We explore the hypothesis that LLMs, such as GPT-3.5 and GPT-4, possess broader cognitive functions, particularly in non-linguistic domains. Our approach extends beyond standard linguistic benchmarks by incorporating games like Tic-Tac-Toe, Connect Four, and Battleship, encoded via ASCII, to assess strategic thinking and decision-making. To evaluate the models' ability to generalize beyond their training data, we introduce two additional games. The first game, LEGO Connect Language (LCL), tests the models' capacity to understand spatial logic and follow assembly instructions. The second game, the game of shapes, challenges the models to identify shapes represented by 1s within a matrix of zeros, further testing their spatial reasoning skills. This "show, don't tell" strategy uses games instead of simply querying the models. Our results show that despite their proficiency on standard benchmarks, GPT-3.5 and GPT-4's abilities to play and reason about fully observable games without pre-training is mediocre. Both models fail to anticipate losing moves in Tic-Tac-Toe and Connect Four, and they are unable to play Battleship correctly. While GPT-4 shows some success in the game of shapes, both models fail at the assembly tasks presented in the LCL game. These results suggest that while GPT models can emulate conversational proficiency and basic rule comprehension, their performance in strategic gameplay and spatial reasoning tasks is very limited. Importantly, this reveals a blind spot in current LLM benchmarks that we highlight with our gameplay benchmark suite ChildPlay (https://github.com/child-play-neurips/child-play). Our findings provide a cautionary tale about claims of emergent intelligence and reasoning capabilities of LLMs that are roughly the size of GPT-3.5 and GPT-4.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# フェデレーションラーニングとコントロールを組み合わせた調査

Combining Federated Learning and Control: A Survey ( http://arxiv.org/abs/2407.11069v2 )

ライセンス: Link先を確認
Jakob Weber, Markus Gurtner, Amadeus Lobe, Adrian Trachte, Andreas Kugi, (参考訳) この調査は、(非線形)制御アプリケーションにおける適応性、スケーラビリティ、一般化、プライバシを高めるために、フェデレートラーニング(FL)とコントロールを組み合わせる概要を提供する。 従来の制御方法はコントローラ設計モデルに依存しているが、現実のシナリオではオンラインモデルの変更や学習を必要とすることが多い。 FLは、データプライバシを保持しながら、分散デバイス間の協調学習を可能にする、モデルトレーニングに対する分散アプローチを提供する。 データをローカライズすることで、FLは通信のネットワーク帯域幅の要件を減らしながら、プライバシとセキュリティに関する懸念を軽減する。 この調査は、FLと制御を組み合わせた最先端の概念と考え方をまとめたものである。 方法論的メリットはさらに議論され,コントローラ設計による動的システムモデリングから適応制御への焦点,マルチエージェント意思決定システムにおける知識伝達に至るまで,期待されるアプリケーションの詳細な概要が示されている。

This survey provides an overview of combining Federated Learning (FL) and control to enhance adaptability, scalability, generalization, and privacy in (nonlinear) control applications. Traditional control methods rely on controller design models, but real-world scenarios often require online model retuning or learning. FL offers a distributed approach to model training, enabling collaborative learning across distributed devices while preserving data privacy. By keeping data localized, FL mitigates concerns regarding privacy and security while reducing network bandwidth requirements for communication. This survey summarizes the state-of-the-art concepts and ideas of combining FL and control. The methodical benefits are further discussed, culminating in a detailed overview of expected applications, from dynamical system modeling over controller design, focusing on adaptive control, to knowledge transfer in multi-agent decision-making systems.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# CIC-BART-SSA:構造化セマンティック拡張による制御可能な画像キャプション

CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation ( http://arxiv.org/abs/2407.11393v2 )

ライセンス: Link先を確認
Kalliopi Basioti, Mohamed A. Abdelsalam, Federico Fancellu, Vladimir Pavlovic, Afsaneh Fazly, (参考訳) Controllable Image Captioning (CIC)は、エンドユーザ、例えばリージョン、エンティティ、興味のあるイベントなどの情報に基づいて、画像の自然言語記述を生成することを目的としている。 しかし、利用可能な画像言語データセットは主に画像の全体を記述するキャプションを含んでいるため、任意の領域や関係のサブセットに参加可能なCICモデルのトレーニングには効果がない。 この課題に対処するために、画像に関連付けられた既存の字幕セットの上に構築された統一的な構造的意味表現を用いて、集中型および視覚的接地された字幕をサンプリングする、新しい完全自動手法を提案する。 我々は、抽象的意味表現(AMR)を利用して、現在の手法の典型的な空間関係のみの焦点を超えて、エンティティ間の空間-意味関係を符号化する。 本研究では,SSA(Structured Semantic Augmentation)フレームワークを用いて,既存の画像キャプチャデータセットを制御キャプションで拡張し,空間的・意味的多様性と焦点範囲を増大させる。 次に、CICタスクに適した新しいモデルであるCIC-BART-SSAを開発し、その制御信号をSSAに分散したデータセットから出力する。 我々は、SOTA CICモデルと比較して、CIC-BART-SSAは、多様性とテキスト品質に優れたキャプションを生成し、制御性に競争力があり、また、難易度の高いシナリオに効率よく一般化することで、広範と高度に焦点を絞ったキャプション性能のギャップを最小化できることを実証的に示す。 コードはhttps://github.com/SamsungLabs/CIC-BART-SSAで公開されている。

Controllable Image Captioning (CIC) aims at generating natural language descriptions for an image, conditioned on information provided by end users, e.g., regions, entities or events of interest. However, available image-language datasets mainly contain captions that describe the entirety of an image, making them ineffective for training CIC models that can potentially attend to any subset of regions or relationships. To tackle this challenge, we propose a novel, fully automatic method to sample additional focused and visually grounded captions using a unified structured semantic representation built on top of the existing set of captions associated with an image. We leverage Abstract Meaning Representation (AMR), a cross-lingual graph-based semantic formalism, to encode all possible spatio-semantic relations between entities, beyond the typical spatial-relations-only focus of current methods. We use this Structured Semantic Augmentation (SSA) framework to augment existing image-caption datasets with the grounded controlled captions, increasing their spatial and semantic diversity and focal coverage. We then develop a new model, CIC-BART-SSA, specifically tailored for the CIC task, that sources its control signals from SSA-diversified datasets. We empirically show that, compared to SOTA CIC models, CIC-BART-SSA generates captions that are superior in diversity and text quality, are competitive in controllability, and, importantly, minimize the gap between broad and highly focused controlled captioning performance by efficiently generalizing to the challenging highly focused scenarios. Code is available at https://github.com/SamsungLabs/CIC-BART-SSA.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# AIシアターのオスカー: 言語モデルによるロールプレイングに関する調査

The Oscars of AI Theater: A Survey on Role-Playing with Language Models ( http://arxiv.org/abs/2407.11484v2 )

ライセンス: Link先を確認
Nuo Chen, Yang Deng, Jia Li, (参考訳) 本研究では,言語モデルを用いたロールプレイングの急成長分野を探求し,初期のペルソナモデルから,大規模言語モデル(LLM)によって促進される高度なキャラクタ駆動シミュレーションへの展開に焦点を当てた。 当初はモデル能力の制限により単純なペルソナ一貫性に制限されていたため、ロールプレイングタスクは、キャラクターの一貫性、行動アライメント、全体的な魅力を含む複雑なキャラクター描写を受け入れるように拡張された。 データやモデル,アライメント,エージェントアーキテクチャ,評価など,これらのシステムを設計する上で重要なコンポーネントを包括的に分類する。 この調査は、動的な個人プロファイルの管理やハイレベルなペルソナの整合性の実現など、現在の方法論や課題を概説するだけでなく、ロールプレイングアプリケーションの深さと現実性を改善するための今後の研究の道筋も示唆している。 目標は、現在の方法論の構造化された概要を提供し、改善のための潜在的な領域を特定することで、将来の研究を導くことである。 関連リソースとドキュメントはhttps://github.com/nuochenpku/Awesome-Role-Play-Papers.comで公開されている。

This survey explores the burgeoning field of role-playing with language models, focusing on their development from early persona-based models to advanced character-driven simulations facilitated by Large Language Models (LLMs). Initially confined to simple persona consistency due to limited model capabilities, role-playing tasks have now expanded to embrace complex character portrayals involving character consistency, behavioral alignment, and overall attractiveness. We provide a comprehensive taxonomy of the critical components in designing these systems, including data, models and alignment, agent architecture and evaluation. This survey not only outlines the current methodologies and challenges, such as managing dynamic personal profiles and achieving high-level persona consistency but also suggests avenues for future research in improving the depth and realism of role-playing applications. The goal is to guide future research by offering a structured overview of current methodologies and identifying potential areas for improvement. Related resources and papers are available at https://github.com/nuochenpku/Awesome-Role-Play-Papers.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# ソフトウェアシステムのエネルギーフットプリントの推定:プライマー

Estimating the Energy Footprint of Software Systems: a Primer ( http://arxiv.org/abs/2407.11611v2 )

ライセンス: Link先を確認
Fernando Castor, (参考訳) グリーンソフトウェア開発では、ソフトウェアシステムのエネルギーフットプリントを定量化することが最も基本的な活動の1つである。 この文書は、グリーンソフトウェア開発をサポートするために、ソフトウェアシステムのエネルギーフットプリントをどのように見積もるかについて、高いレベルの概要を提供する。 本稿では,この領域の基本概念を紹介するとともに,実験を行う際に考慮すべき方法論的課題を強調し,異なる推定手法に関連するトレードオフについて議論し,実践的な考察を行う。 この文書は、この分野で研究を始めたい研究者の出発点となることを目的としている。

In Green Software Development, quantifying the energy footprint of a software system is one of the most basic activities. This documents provides a high-level overview of how the energy footprint of a software system can be estimated to support Green Software Development. We introduce basic concepts in the area, highlight methodological issues that must be accounted for when conducting experiments, discuss trade-offs associated with different estimation approaches, and make some practical considerations. This document aims to be a starting point for researchers who want to begin conducting work in this area.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# 統計対応型オーディオビジュアルディープフェイク検出器

Statistics-aware Audio-visual Deepfake Detector ( http://arxiv.org/abs/2407.11650v2 )

ライセンス: Link先を確認
Marcella Astrid, Enjie Ghorbel, Djamila Aouada, (参考訳) 本稿では,音声・視覚深度検出手法の強化について述べる。 近年のオーディオ・ビジュアル・ディープフェイク検出法は、主に音声と視覚の特徴の同期性を評価する。 彼らは有望な結果を示したが、特徴統計を考慮せずに孤立した特徴距離の最大化/最小化に基づいている。 さらに、それらは面倒なディープラーニングアーキテクチャに依存しており、経験的に固定されたハイパーパラメータに大きく依存しています。 本稿では,(1)特徴距離のみに依存するのではなく,モデルの識別能力を高める統計的特徴損失,(2)周波数に基づく表現の代用として音声を記述する波形を用いたこと,(3)偽度スコアの処理後の正規化,(4)複雑性の低減を目的とした浅層ネットワークの利用を提案する。 DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。

In this paper, we propose an enhanced audio-visual deep detection method. Recent methods in audio-visual deepfake detection mostly assess the synchronization between audio and visual features. Although they have shown promising results, they are based on the maximization/minimization of isolated feature distances without considering feature statistics. Moreover, they rely on cumbersome deep learning architectures and are heavily dependent on empirically fixed hyperparameters. Herein, to overcome these limitations, we propose: (1) a statistical feature loss to enhance the discrimination capability of the model, instead of relying solely on feature distances; (2) using the waveform for describing the audio as a replacement of frequency-based representations; (3) a post-processing normalization of the fakeness score; (4) the use of shallower network for reducing the computational complexity. Experiments on the DFDC and FakeAVCeleb datasets demonstrate the relevance of the proposed method.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# 大気圧のニューラル圧縮

Neural Compression of Atmospheric States ( http://arxiv.org/abs/2407.11666v2 )

ライセンス: Link先を確認
Piotr Mirowski, David Warde-Farley, Mihaela Rosca, Matthew Koichi Grimes, Yana Hasson, Hyunjik Kim, Mélanie Rey, Simon Osindero, Suman Ravuri, Shakir Mohamed, (参考訳) 再分析から得られた大気状態は、気象と気候シミュレーションのアウトプットのかなりの部分を占める。 多くの利害関係者、例えば研究者、政策立案者、保険会社は、このデータを使って地球システムを理解し、政策決定を導く。 気象予報に対する機械学習のアプローチが有望な結果を示しているため、大気状態も注目されている。 すべての聴衆にとって重要な問題は、これらの高次元状態の高密度な時系列が膨大な量のデータで構成されており、歴史的データへのアクセスと将来の予測から最も豊富なグループを除いて全てを除外していることである。 この問題に対処するために,領域保存型HEALPixプロジェクションを用いて,従来のニューラルネットワークアーキテクチャによる処理に球面データを適用するニューラルネットワーク文献からの手法を用いて,大気状態を圧縮する手法を提案する。 本稿では,ニューラル画像圧縮文献からのハイパープライアモデルと最近のベクトル量子化モデルという,ニューラル圧縮機を構築するための2つのモデルクラスについて検討する。 両モデルとも, 最小平均誤差, 少数の高誤差再構成画素, ハリケーンや熱波などの極端事象の忠実な再現, 空間規模でのスペクトルパワー分布の保存を満足することを示す。 大気中における1000倍を超える圧縮比を示すとともに, 大気中における圧縮と減圧を約1秒の速さで示す。

Atmospheric states derived from reanalysis comprise a substantial portion of weather and climate simulation outputs. Many stakeholders -- such as researchers, policy makers, and insurers -- use this data to better understand the earth system and guide policy decisions. Atmospheric states have also received increased interest as machine learning approaches to weather prediction have shown promising results. A key issue for all audiences is that dense time series of these high-dimensional states comprise an enormous amount of data, precluding all but the most well resourced groups from accessing and using historical data and future projections. To address this problem, we propose a method for compressing atmospheric states using methods from the neural network literature, adapting spherical data to processing by conventional neural architectures through the use of the area-preserving HEALPix projection. We investigate two model classes for building neural compressors: the hyperprior model from the neural image compression literature and recent vector-quantised models. We show that both families of models satisfy the desiderata of small average error, a small number of high-error reconstructed pixels, faithful reproduction of extreme events such as hurricanes and heatwaves, preservation of the spectral power distribution across spatial scales. We demonstrate compression ratios in excess of 1000x, with compression and decompression at a rate of approximately one second per global atmospheric state.
翻訳日:2024-07-18 12:07:55 公開日:2024-07-17
# 言葉を超えて: ミッションクリティカルリスク分析における大規模言語モデルでの行動可能性

Beyond Words: On Large Language Models Actionability in Mission-Critical Risk Analysis ( http://arxiv.org/abs/2406.10273v3 )

ライセンス: Link先を確認
Matteo Esposito, Francesco Palagiano, Valentina Lenarduzzi, Davide Taibi, (参考訳) コンテキスト。 リスク分析は特定のシナリオにおける潜在的なリスクを評価する。 リスク分析の原則は、コンテキストレスであり、同じ方法論を、健康や情報技術のセキュリティに関連するリスクに適用することができる。 リスク分析には、国内外の規制や基準に関する膨大な知識が必要であり、時間と努力が集中している。 大きな言語モデルは、人間よりも少ない時間で情報を素早く要約することができ、特定のタスクに微調整することができる。 エイム。 本研究は,リスク分析における検索・拡張型LLMと微調整型LLMの有効性を検討することを目的とした実証研究である。 我々の知る限り、リスク分析の能力について事前の研究は行われていない。 方法。 我々は過去5年間に産業状況チームによってアーカイブされた50以上のミッションクリティカルな分析結果から,‘totalscenarios’というユニークなシナリオを手作業でキュレートした。 基本モデルであるGPT-3.5とGPT-4とRetrieval-Augmented Generationおよび微調整モデルを比較した。 我々は、モデルの競合相手として2人の人間専門家と、3人の人間専門家を雇い、モデルと以前の人間専門家の分析をレビューします。 審査員は5000のシナリオ分析を行った。 結果と結論。 HEsは高い精度を示したが、LSMsはより速く、より実用的な。 さらに,RAG支援LSMが最も低い幻覚率を示し,隠れたリスクを効果的に発見し,人間の専門知識を補完することを示した。 したがって、モデルの選択は、正確性のためのFTM、隠れたリスク発見のためのRAG、包括性と行動可能性のためのベースモデルなど、特定のニーズに依存する。 したがって、専門家はLLMを、凝縮した時間枠内でのリスク分析を効果的に補完するコンパニオンとして活用することができる。 また、不当な対策の実施に伴う不要な費用を回避することでコストを削減できる。

Context. Risk analysis assesses potential risks in specific scenarios. Risk analysis principles are context-less; the same methodology can be applied to a risk connected to health and information technology security. Risk analysis requires a vast knowledge of national and international regulations and standards and is time and effort-intensive. A large language model can quickly summarize information in less time than a human and can be fine-tuned to specific tasks. Aim. Our empirical study aims to investigate the effectiveness of Retrieval-Augmented Generation and fine-tuned LLM in Risk analysis. To our knowledge, no prior study has explored its capabilities in risk analysis. Method. We manually curated \totalscenarios unique scenarios leading to \totalsamples representative samples from over 50 mission-critical analyses archived by the industrial context team in the last five years. We compared the base GPT-3.5 and GPT-4 models versus their Retrieval-Augmented Generation and fine-tuned counterparts. We employ two human experts as competitors of the models and three other three human experts to review the models and the former human expert's analysis. The reviewers analyzed 5,000 scenario analyses. Results and Conclusions. HEs demonstrated higher accuracy, but LLMs are quicker and more actionable. Moreover, our findings show that RAG-assisted LLMs have the lowest hallucination rates, effectively uncovering hidden risks and complementing human expertise. Thus, the choice of model depends on specific needs, with FTMs for accuracy, RAG for hidden risks discovery, and base models for comprehensiveness and actionability. Therefore, experts can leverage LLMs for an effective complementing companion in risk analysis within a condensed timeframe. They can also save costs by averting unnecessary expenses associated with implementing unwarranted countermeasures.
翻訳日:2024-07-18 11:56:44 公開日:2024-07-17
# 自動運転における安全性の向上--エンド・ツー・エンドナビゲーションにおける潜在状態拡散モデルの統合

Enhanced Safety in Autonomous Driving: Integrating Latent State Diffusion Model for End-to-End Navigation ( http://arxiv.org/abs/2407.06317v4 )

ライセンス: Link先を確認
Detian Chu, Linyuan Bai, Jianuo Huang, Zhenlong Fang, Peng Zhang, Wei Kang, Haifeng Lin, (参考訳) 自動運転の進歩により、移動計画やナビゲーションにおける安全性の確保がますます重要になっている。 しかし、ほとんどのエンドツーエンドの計画手法は安全性の欠如に悩まされている。 本研究は、CMDP(Constrained Markov Decision Processs)として定式化された自動運転の制御最適化問題における安全性問題に対処する。 複雑な高次元状態空間における制約を効果的に管理するために,条件付きバリュー・アット・リスクに基づくソフト・アクター・クリティカルを用いて,ポリシー最適化のための新しいモデルベースアプローチを提案する。 本手法では, 安全探索を誘導する最悪のアクターを導入し, 予測不可能なシナリオにおいても, 安全要件の厳密な遵守を確保する。 政策最適化は拡張ラグランジアン法を採用し、遅延拡散モデルを利用して将来の軌道を予測しシミュレーションする。 この2つのアプローチは、環境を安全にナビゲートするだけでなく、環境の不確実性を考慮した流通モデルを統合することで、政策のパフォーマンスを向上する。 シミュレーションと実環境の両方で実施した実証評価では,既存の手法よりも安全性,効率,意思決定能力が優れていた。

With the advancement of autonomous driving, ensuring safety during motion planning and navigation is becoming more and more important. However, most end-to-end planning methods suffer from a lack of safety. This research addresses the safety issue in the control optimization problem of autonomous driving, formulated as Constrained Markov Decision Processes (CMDPs). We propose a novel, model-based approach for policy optimization, utilizing a conditional Value-at-Risk based Soft Actor Critic to manage constraints in complex, high-dimensional state spaces effectively. Our method introduces a worst-case actor to guide safe exploration, ensuring rigorous adherence to safety requirements even in unpredictable scenarios. The policy optimization employs the Augmented Lagrangian method and leverages latent diffusion models to predict and simulate future trajectories. This dual approach not only aids in navigating environments safely but also refines the policy's performance by integrating distribution modeling to account for environmental uncertainties. Empirical evaluations conducted in both simulated and real environment demonstrate that our approach outperforms existing methods in terms of safety, efficiency, and decision-making capabilities.
翻訳日:2024-07-18 11:56:44 公開日:2024-07-17
# Pseudo-RIS:画像セグメント参照のための識別型擬似スーパービジョン生成

Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation ( http://arxiv.org/abs/2407.07412v3 )

ライセンス: Link先を確認
Seonghoon Yu, Paul Hongsuck Seo, Jeany Son, (参考訳) 画像セグメンテーション(RIS)を参照するための疑似監督として,参照表現を用いた高品質セグメンテーションマスクを自動生成するフレームワークを提案する。 これらの疑似監督は、手動ラベリングのコストを伴わずに、監督されたRISメソッドのトレーニングを可能にする。 これを実現するために,既存のセグメンテーションと画像キャプション基礎モデルを導入し,その広範な一般化機能を活用する。 しかし、これらのモデルの素直な組み込みは、ターゲットマスクを特異的に参照しない非識別的な表現を生成する可能性がある。 この課題に対処するために, 特徴あるキャプションを生成する2つの戦略を提案する。 1)「識別的キャプションサンプリング」はキャプションモデルの新しいデコード手法であり、ターゲットに焦点を絞った詳細な単語で複数の表現候補を生成する。 2)「識別性に基づくテキストフィルタリング」により、候補をさらに検証し、低レベルの特徴のある候補をフィルタリングする。 これら2つの戦略は、生成されたテキスト管理がターゲットを他のオブジェクトと区別し、RISアノテーションに適合させることを保証する。 本手法は, RISベンチマークデータセットにおいて, 弱いSoTA法とゼロショットSoTA法の両方を著しく上回っている。 また、未確認領域における完全に教師された手法を超越し、RIS内のオープンワールドの課題に取り組む能力を証明している。 さらに,本手法を人間のアノテーションと組み合わせることで,半教師あり学習アプリケーションにおけるその可能性を強調し,さらなる改善がもたらされる。

We propose a new framework that automatically generates high-quality segmentation masks with their referring expressions as pseudo supervisions for referring image segmentation (RIS). These pseudo supervisions allow the training of any supervised RIS methods without the cost of manual labeling. To achieve this, we incorporate existing segmentation and image captioning foundation models, leveraging their broad generalization capabilities. However, the naive incorporation of these models may generate non-distinctive expressions that do not distinctively refer to the target masks. To address this challenge, we propose two-fold strategies that generate distinctive captions: 1) 'distinctive caption sampling', a new decoding method for the captioning model, to generate multiple expression candidates with detailed words focusing on the target. 2) 'distinctiveness-based text filtering' to further validate the candidates and filter out those with a low level of distinctiveness. These two strategies ensure that the generated text supervisions can distinguish the target from other objects, making them appropriate for the RIS annotations. Our method significantly outperforms both weakly and zero-shot SoTA methods on the RIS benchmark datasets. It also surpasses fully supervised methods in unseen domains, proving its capability to tackle the open-world challenge within RIS. Furthermore, integrating our method with human annotations yields further improvements, highlighting its potential in semi-supervised learning applications.
翻訳日:2024-07-18 11:56:44 公開日:2024-07-17
# 拡張ペアを用いた分子言語モデルとエキスパートトランスファー

Molecule Language Model with Augmented Pairs and Expertise Transfer ( http://arxiv.org/abs/2407.09043v2 )

ライセンス: Link先を確認
Namkyeong Lee, Siddhartha Laghuvarapu, Chanyoung Park, Jimeng Sun, (参考訳) 最近、分子言語モデル(MoLM)による分子とそのテキスト記述の理解が、研究者の間で注目を集めている。 しかし、MOLMの分野には独自の課題が存在する。 1)分子文のペア化データの限られた量と 2)専門家の専門分野による専門知識の欠如。 この目的のために,我々はAMOLEを提案する。 1)構造的類似性保持損失を有する分子文対を増補し、 2) 専門知識を分子間で伝達する。 様々な下流タスクに関する大規模な実験は、コンプレッション分子とその記述におけるAMOLEの優位性を示し、現実世界の薬物発見への応用の可能性を強調している。

Understanding the molecules and their textual descriptions via molecule language models (MoLM) recently got a surge of interest among researchers. However, unique challenges exist in the field of MoLM due to 1) a limited amount of molecule-text paired data and 2) missing expertise that occurred due to the specialized areas of focus among the experts. To this end, we propose AMOLE, which 1) augments molecule-text pairs with structural similarity preserving loss, and 2) transfers the expertise between the molecules. Extensive experiments on various downstream tasks demonstrate the superiority of AMOLE in comprehending molecules and their descriptions, highlighting its potential for application in real-world drug discovery.
翻訳日:2024-07-18 11:56:44 公開日:2024-07-17
# VividDreamer:超現実的なテキストから3D生成のための不変スコア蒸留

VividDreamer: Invariant Score Distillation For Hyper-Realistic Text-to-3D Generation ( http://arxiv.org/abs/2407.09822v2 )

ライセンス: Link先を確認
Wenjie Zhuo, Fan Ma, Hehe Fan, Yi Yang, (参考訳) Invariant Score Distillation (ISD) を提案する。 ISDは、スコア蒸留サンプリング(SDS)における過飽和と過平滑化の問題に対処することを目的としている。 本稿では,SDSを再構成項と分類器フリーガイダンス項の重み付き和に分解する。 過飽和は大規模な分類器のない指導尺度から生じるものであり,過飽和は再建用語から生じるものである。 これらの問題を解決するため、IDSはDDIMサンプリングから派生した不変スコア項を用いてSDSの再構成項を置き換える。 この操作は、中級分類器フリーガイダンス尺度の利用を可能にし、再構成関連エラーを軽減し、過度なスムース化と過飽和化を防止する。 大規模な実験により,本手法はSDSを大幅に向上し,一段最適化により現実的な3Dオブジェクトを生成することが示された。

This paper presents Invariant Score Distillation (ISD), a novel method for high-fidelity text-to-3D generation. ISD aims to tackle the over-saturation and over-smoothing problems in Score Distillation Sampling (SDS). In this paper, SDS is decoupled into a weighted sum of two components: the reconstruction term and the classifier-free guidance term. We experimentally found that over-saturation stems from the large classifier-free guidance scale and over-smoothing comes from the reconstruction term. To overcome these problems, ISD utilizes an invariant score term derived from DDIM sampling to replace the reconstruction term in SDS. This operation allows the utilization of a medium classifier-free guidance scale and mitigates the reconstruction-related errors, thus preventing the over-smoothing and over-saturation of results. Extensive experiments demonstrate that our method greatly enhances SDS and produces realistic 3D objects through single-stage optimization.
翻訳日:2024-07-18 11:56:44 公開日:2024-07-17
# 効率的なバックドア浄化のための強化ニューラルファインチューニング

Augmented Neural Fine-Tuning for Efficient Backdoor Purification ( http://arxiv.org/abs/2407.10052v2 )

ライセンス: Link先を確認
Nazmul Karim, Abdullah Al Arafat, Umar Khalid, Zhishan Guo, Nazanin Rahnavard, (参考訳) 近年の研究では、様々なバックドア攻撃に対するディープニューラルネットワーク(DNN)の脆弱性が明らかにされている。 State-of-the-art(SOTA)ディフェンスは、トリガー分布をリバースエンジニアリングするための計算コストのかかる対向探索モジュールか、過敏なハイパーパラメータ選択モジュールのいずれかを必要とする、高度すぎるメカニズムを採用している。 さらに、挑戦的なシナリオ、例えば、限定されたバリデーションデータ、強力な攻撃において、サブパーパフォーマンスを提供する。 本稿では,バックドアの効果を除去する目的で,ニューロン活動の最適再編成を目的としたニューラルマスクファインチューニング(NFT)を提案する。 MixUpのような単純なデータ拡張を利用することで、NFTはトリガー合成プロセスを緩和し、逆探索モジュールの要求をなくす。 また, 本研究は, 厳密な検証データによる直接微調整により, 浄化後の清浄検査精度が低下することを明らかにした。 そこで本研究では,モデル重みの代わりにニューラルマスクを微調整する手法を提案する。 さらに、浄化過程でモデルドリフトをさらに緩和するためにマスクレギュレータが考案されている。 NFTの特徴は、単一のサンプルが各クラスから利用可能である場合でも、バックドアを削除することができるため、ランタイムとサンプルの両方で非常に効率的である。 画像分類,物体検出,映像行動認識,3Dポイントクラウド,自然言語処理などのタスクを網羅した広範な実験により,NFTの有効性を検証した。 我々は、ImageNet、UCF101、Pascal VOC、ModelNet、OpenSubtitles2012など11のベンチマークデータセット上で、14の異なる攻撃(LIRA、WaNetなど)に対して、本手法を評価した。

Recent studies have revealed the vulnerability of deep neural networks (DNNs) to various backdoor attacks, where the behavior of DNNs can be compromised by utilizing certain types of triggers or poisoning mechanisms. State-of-the-art (SOTA) defenses employ too-sophisticated mechanisms that require either a computationally expensive adversarial search module for reverse-engineering the trigger distribution or an over-sensitive hyper-parameter selection module. Moreover, they offer sub-par performance in challenging scenarios, e.g., limited validation data and strong attacks. In this paper, we propose Neural mask Fine-Tuning (NFT) with an aim to optimally re-organize the neuron activities in a way that the effect of the backdoor is removed. Utilizing a simple data augmentation like MixUp, NFT relaxes the trigger synthesis process and eliminates the requirement of the adversarial search module. Our study further reveals that direct weight fine-tuning under limited validation data results in poor post-purification clean test accuracy, primarily due to overfitting issue. To overcome this, we propose to fine-tune neural masks instead of model weights. In addition, a mask regularizer has been devised to further mitigate the model drift during the purification process. The distinct characteristics of NFT render it highly efficient in both runtime and sample usage, as it can remove the backdoor even when a single sample is available from each class. We validate the effectiveness of NFT through extensive experiments covering the tasks of image classification, object detection, video action recognition, 3D point cloud, and natural language processing. We evaluate our method against 14 different attacks (LIRA, WaNet, etc.) on 11 benchmark data sets such as ImageNet, UCF101, Pascal VOC, ModelNet, OpenSubtitles2012, etc.
翻訳日:2024-07-18 11:56:44 公開日:2024-07-17
# MSD: 建築施設の床計画作成のためのベンチマークデータセット

MSD: A Benchmark Dataset for Floor Plan Generation of Building Complexes ( http://arxiv.org/abs/2407.10121v2 )

ライセンス: Link先を確認
Casper van Engelenburg, Fatemeh Mostafavi, Emanuel Kuhn, Yuntae Jeon, Michael Franzen, Matthias Standfest, Jan van Gemert, Seyran Khademi, (参考訳) 建築設計における有用なコンピュータ支援手法の開発には,多元的かつ現実的なフロアプランデータが必要である。 今日の大規模なフロアプランデータセットは主に単純なフロアプランのレイアウトを特徴としている。 現在のデータセットと実世界のミスマッチを補うために、我々は、マルチパートメント住宅のレイアウトのかなりのシェアを含む最初の大規模フロアプランデータセットである‘textbf{Modified Swiss Dwellings} (MSD) を開発した。 MSDは中規模から大規模の複合住宅の5.3K以上のフロアプランがあり、18.9K以上のアパートをカバーしている。 従来のフロアプラン生成手法は,より単純なシナリオでは有効であるが,MSDがもたらした課題に対して,まだシームレスに対処できないことが検証された。 我々のベンチマークでは、フロアプランマシン理解の新しい研究が求められている。 コードとデータはオープンです。

Diverse and realistic floor plan data are essential for the development of useful computer-aided methods in architectural design. Today's large-scale floor plan datasets predominantly feature simple floor plan layouts, typically representing single-apartment dwellings only. To compensate for the mismatch between current datasets and the real world, we develop \textbf{Modified Swiss Dwellings} (MSD) -- the first large-scale floor plan dataset that contains a significant share of layouts of multi-apartment dwellings. MSD features over 5.3K floor plans of medium- to large-scale building complexes, covering over 18.9K distinct apartments. We validate that existing approaches for floor plan generation, while effective in simpler scenarios, cannot yet seamlessly address the challenges posed by MSD. Our benchmark calls for new research in floor plan machine understanding. Code and data are open.
翻訳日:2024-07-18 11:56:44 公開日:2024-07-17
# 多モードMRI分割・分類のための自己教師付き学習の強化:モデル崩壊を回避する新しいアプローチ

Enhanced Self-supervised Learning for Multi-modality MRI Segmentation and Classification: A Novel Approach Avoiding Model Collapse ( http://arxiv.org/abs/2407.10377v2 )

ライセンス: Link先を確認
Linxuan Han, Sa Xiao, Zimeng Li, Haidong Li, Xiuchao Zhao, Fumin Guo, Yeqing Han, Xin Zhou, (参考訳) 多モードMRI(Multi-modality magnetic resonance imaging)は、コンピュータ支援診断のための補完的な情報を提供する。 従来のディープラーニングアルゴリズムは、病変をセグメント化し、磁気共鳴画像で疾患を分類する特定の解剖学的構造を特定するのに適している。 しかし、高コストのため手動ラベルは制限されており、モデル精度のさらなる向上を妨げている。 自己教師付き学習(SSL)は、事前学習によりラベル付きデータから特徴表現を効果的に学習することができ、自然画像解析に有効であることが示されている。 ほとんどのSSLメソッドはマルチモードMRIの類似性を無視し、モデルが崩壊する。 これにより、事前トレーニングの効率が制限され、下流のセグメンテーションや分類タスクの精度が低下する。 この課題を解決するため,多モードMRI解析によるSSLのためのハイブリッドマスクパターン(HMP)とピラミッドバーローツイン(PBT)モジュールからなる多モードMRIマスク自動エンコーダの確立と検証を行った。 HMPは、SSLにマスクパッチを再構築することで、マルチモダリティ画像の意味的な接続を学習させる3つのマスキングステップを結合する。 我々は,提案したHMPがモデル崩壊を回避できることを証明した。 PBTモジュールは、ネットワークのピラミッド階層を利用して、マスク付きとオリジナルビュー間のバローツインロスを構築し、遅延空間における異なる視覚スケールでのイメージパッチの意味的表現を整列する。 BraTS2023、PI-CAI、および肺ガスMRIデータセットの実験は、我々のフレームワークが最先端技術よりも優れていることをさらに証明している。 セグメンテーションと分類の性能は著しく向上し、小さな病変領域の正確な検出を支援する。 コードはhttps://github.com/LinxuanHan/M2-MAEで公開されている。

Multi-modality magnetic resonance imaging (MRI) can provide complementary information for computer-aided diagnosis. Traditional deep learning algorithms are suitable for identifying specific anatomical structures segmenting lesions and classifying diseases with magnetic resonance images. However, manual labels are limited due to high expense, which hinders further improvement of model accuracy. Self-supervised learning (SSL) can effectively learn feature representations from unlabeled data by pre-training and is demonstrated to be effective in natural image analysis. Most SSL methods ignore the similarity of multi-modality MRI, leading to model collapse. This limits the efficiency of pre-training, causing low accuracy in downstream segmentation and classification tasks. To solve this challenge, we establish and validate a multi-modality MRI masked autoencoder consisting of hybrid mask pattern (HMP) and pyramid barlow twin (PBT) module for SSL on multi-modality MRI analysis. The HMP concatenates three masking steps forcing the SSL to learn the semantic connections of multi-modality images by reconstructing the masking patches. We have proved that the proposed HMP can avoid model collapse. The PBT module exploits the pyramidal hierarchy of the network to construct barlow twin loss between masked and original views, aligning the semantic representations of image patches at different vision scales in latent space. Experiments on BraTS2023, PI-CAI, and lung gas MRI datasets further demonstrate the superiority of our framework over the state-of-the-art. The performance of the segmentation and classification is substantially enhanced, supporting the accurate detection of small lesion areas. The code is available at https://github.com/LinxuanHan/M2-MAE.
翻訳日:2024-07-18 11:56:44 公開日:2024-07-17
# 衛星エッジクラウドにおける統合テストのQoSフレームワーク

A Framework for QoS of Integration Testing in Satellite Edge Clouds ( http://arxiv.org/abs/2407.10402v2 )

ライセンス: Link先を確認
Guogen Zeng, Juan Luo, Yufeng Zhang, Ying Qiao, Shuyang Teng, (参考訳) 衛星通信サービスの多様化は、ネットワークサービス品質にさまざまな要件を課し、衛星上で実行されるマイクロサービスのクオリティ・オブ・サービス(QoS)テストをより複雑にする。 既存のテストツールには制限があり、単一の機能テストのみを提供する可能性があるため、モバイルサテライトシナリオにおけるエッジクラウドサービスのQoSテストの要件を満たすことができない。 本稿では,衛星エッジクラウドにおけるサービステストの品質統合のためのフレームワークを提案する。 より正確には、このフレームワークは衛星ネットワークトポロジの変更の統合、異種エッジデバイス上での衛星エッジクラウドクラスタテスト環境の作成と管理、ユーザのための実験のカスタマイズ、さまざまな統合テストツールのデプロイとスケーリングのサポート、テスト結果のパブリッシュと視覚化を可能にする。 実験の結果,サテライトエッジクラウドクラスタにおける主要なサービス品質メトリクスをテストするためのフレームワークの能力を検証することができた。

The diversification of satellite communication services imposes varied requirements on network service quality, making quality of service (QoS) testing for microservices running on satellites more complex. Existing testing tools have limitations, potentially offering only single-functionality testing, thus failing to meet the requirements of QoS testing for edge cloud services in mobile satellite scenarios. In this paper, we propose a framework for integrating quality of service testing in satellite edge clouds. More precisely, the framework can integrate changes in satellite network topology, create and manage satellite edge cloud cluster testing environments on heterogeneous edge devices, customize experiments for users, support deployment and scaling of various integrated testing tools, and publish and visualize test results. Our experimental results validate the framework's ability to test key service quality metrics in a satellite edge cloud cluster.
翻訳日:2024-07-18 11:56:44 公開日:2024-07-17
# GROOT:拡散モデルに基づく音声合成のためのロバストな透かしを生成する

GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio Synthesis ( http://arxiv.org/abs/2407.10471v2 )

ライセンス: Link先を確認
Weizhi Liu, Yue Li, Dongdong Lin, Hui Tian, Haizhou Li, (参考訳) 拡散モデルのような生成モデルの開発が盛んに進んでいる中、合成されたオーディオを自然のものと区別するタスクは、ますます困難になってきている。 ディープフェイク検出は、この課題に対処するための実行可能なソリューションを提供する。 しかし、この防御措置は、生成モデルの継続的な改良を意図せず推進する。 ウォーターマーキングは、積極的に持続的な戦術として出現し、合成されたコンテンツの創造と普及を事前に規制している。 そこで,本論文は先駆者として,合成音声とその音源拡散モデルを積極的に監視するためのパラダイムを提示する,再生可能なロバストな音声透かし手法(Groot)を提案する。 このパラダイムでは、専用エンコーダを備えたパラメータ固定拡散モデルにより、透かし生成と音声合成のプロセスが同時に実行される。 その後、オーディオに埋め込まれた透かしを軽量デコーダで検索できる。 実験結果は、特にロバスト性の観点から、Grootの卓越した性能が、最先端の手法よりも優れていることを示している。 個々のポストプロセッシング攻撃に対する印象的なレジリエンスに加えて、Grootは複合攻撃に直面した際の異常な堅牢性を示し、平均的な透かし抽出精度は約95%を維持している。

Amid the burgeoning development of generative models like diffusion models, the task of differentiating synthesized audio from its natural counterpart grows more daunting. Deepfake detection offers a viable solution to combat this challenge. Yet, this defensive measure unintentionally fuels the continued refinement of generative models. Watermarking emerges as a proactive and sustainable tactic, preemptively regulating the creation and dissemination of synthesized content. Thus, this paper, as a pioneer, proposes the generative robust audio watermarking method (Groot), presenting a paradigm for proactively supervising the synthesized audio and its source diffusion models. In this paradigm, the processes of watermark generation and audio synthesis occur simultaneously, facilitated by parameter-fixed diffusion models equipped with a dedicated encoder. The watermark embedded within the audio can subsequently be retrieved by a lightweight decoder. The experimental results highlight Groot's outstanding performance, particularly in terms of robustness, surpassing that of the leading state-of-the-art methods. Beyond its impressive resilience against individual post-processing attacks, Groot exhibits exceptional robustness when facing compound attacks, maintaining an average watermark extraction accuracy of around 95%.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# これが私のモデルだ! LLMフィンガープリント技術であるChain & Hashの導入

Hey, That's My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique ( http://arxiv.org/abs/2407.10887v2 )

ライセンス: Link先を確認
Mark Russinovich, Ahmed Salem, (参考訳) 盗難の容易さやLLM(Large Language Models)の誤用に関する懸念が高まっている中、フィンガープリントモデルの必要性が高まっている。 この文脈でのフィンガープリントは、モデル所有者が与えられたモデルを元のバージョンにリンクできることを意味し、それによってモデルが誤用されているか、完全に盗まれているかを識別する。 本稿では,まず,指紋が満足すべき5つの特性,すなわち,指紋は透過性,効率性,永続性,ロバスト性,非偽造性(unforgeable)の5つを定義する。 次にChain & Hashを提案する。これは、暗号的なフレーバーを持つ指紋を実装し、これらの特性をすべて達成する、新しい、シンプルなフィンガープリントアプローチである。 Chain & Hashは、潜在的な答えのセットとともに、一連の質問(指紋)を生成する。 これらの要素はセキュアなハッシュ技術を使ってまとめられ、各質問の値を選択する。 我々は,複数のモデル上でChain & Hash技術を評価し,異なるデータセットの微調整や指紋の消去の試みなど,良性変換に対する堅牢性を実証した。 最後に、我々はChain & Hashとそのユーティリティの実装の効率を実証し、指紋モデルが異なるベンチマークで非指紋モデルとほぼ同等のパフォーマンスを達成した。

Amid growing concerns over the ease of theft and misuse of Large Language Models (LLMs), the need for fingerprinting models has increased. Fingerprinting, in this context, means that the model owner can link a given model to their original version, thereby identifying if their model is being misused or has been completely stolen. In this paper, we first define a set five properties a successful fingerprint should satisfy; namely, the fingerprint should be Transparent, Efficient, Persistent, Robust, and Unforgeable. Next, we propose Chain & Hash, a new, simple fingerprinting approach that implements a fingerprint with a cryptographic flavor, achieving all these properties. Chain & Hash involves generating a set of questions (the fingerprints) along with a set of potential answers. These elements are hashed together using a secure hashing technique to select the value for each question, hence providing an unforgeability property-preventing adversaries from claiming false ownership. We evaluate the Chain & Hash technique on multiple models and demonstrate its robustness against benign transformations, such as fine-tuning on different datasets, and adversarial attempts to erase the fingerprint. Finally, our experiments demonstrate the efficiency of implementing Chain & Hash and its utility, where fingerprinted models achieve almost the same performance as non-fingerprinted ones across different benchmarks.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# 大規模言語モデル透かしによるインテリジェンス同定システムの構築

Building Intelligence Identification System via Large Language Model Watermarking: A Survey and Beyond ( http://arxiv.org/abs/2407.11100v2 )

ライセンス: Link先を確認
Xuhong Wang, Haoyu Jiang, Yi Yu, Jingru Yu, Yilun Lin, Ping Yi, Yingchun Wang, Qiao Yu, Li Li, Fei-Yue Wang, (参考訳) 大規模言語モデル(LLM)は多種多様な産業に統合され、不正な複製と誤用により重大なセキュリティリスクが生じる。 これらの懸念を軽減するため、堅牢な識別メカニズムは効果的な戦略として広く認識されている。 LLMの識別システムは、知的財産を管理し保護し、データのセキュリティを確保するための透かし技術に大きく依存している。 しかし、従来の研究は主にアルゴリズムの基本原理に集中しており、知的識別の観点からの透かし理論と実践の包括的な分析を欠いていた。 このギャップを埋めるために、まず、ウォーターマーキング技術を用いて、様々な参加者がLLM内で堅牢なID認識システムを効果的に実装し、管理する方法を検討する。 第2に,より正確でカスタマイズされた透かしを実現するために識別プロセスを体系化する相互情報理論に基づく数学的枠組みを提案する。 さらに,LLM透かしの性能指標を総合的に評価し,選好を反映し,識別アプリケーションに関する議論を進める。 最後に、現在の透かし技術や理論フレームワークにおける既存の課題について概説し、これらの課題に対処するための方向性を示す。 我々の体系的な分類と詳細な展示は、様々な方法の比較と評価を強化し、透明でセキュアで公平なLLMエコシステムに向けたさらなる研究と開発を促進することを目的としている。

Large Language Models (LLMs) are increasingly integrated into diverse industries, posing substantial security risks due to unauthorized replication and misuse. To mitigate these concerns, robust identification mechanisms are widely acknowledged as an effective strategy. Identification systems for LLMs now rely heavily on watermarking technology to manage and protect intellectual property and ensure data security. However, previous studies have primarily concentrated on the basic principles of algorithms and lacked a comprehensive analysis of watermarking theory and practice from the perspective of intelligent identification. To bridge this gap, firstly, we explore how a robust identity recognition system can be effectively implemented and managed within LLMs by various participants using watermarking technology. Secondly, we propose a mathematical framework based on mutual information theory, which systematizes the identification process to achieve more precise and customized watermarking. Additionally, we present a comprehensive evaluation of performance metrics for LLM watermarking, reflecting participant preferences and advancing discussions on its identification applications. Lastly, we outline the existing challenges in current watermarking technologies and theoretical frameworks, and provide directional guidance to address these challenges. Our systematic classification and detailed exposition aim to enhance the comparison and evaluation of various methods, fostering further research and development toward a transparent, secure, and equitable LLM ecosystem.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# 不確実性:大規模言語モデルにおける不確実性を操作する

Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models ( http://arxiv.org/abs/2407.11282v2 )

ライセンス: Link先を確認
Qingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang, (参考訳) 大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。 LLMの応答の信頼性を評価する方法として、不確実性推定(英語版)がある。 LLMにおける不確実性推定の精度向上に焦点が当てられているが、本研究では不確実性推定の脆弱性を調査し、攻撃の可能性を探る。 攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。 具体的には,提案手法は,LLMの出力確率分布を変化させることができ,その確率分布を攻撃者が予め定義した分布に収束させ,トップ1の予測が変化しないことを保証する。 実験の結果,この攻撃は,複数項目の質問において,モデルの自己評価信頼性を効果的に損なうことが示された。 例えば、攻撃成功率(ASR)は4つのモデルで3つの異なるトリガー戦略で達成しました。 さらに、この操作が異なるプロンプトやドメインにまたがって一般化するかどうかについても検討する。 この研究は、LSMの信頼性に対する重大な脅威を強調し、そのような攻撃に対する将来の防衛の必要性を浮き彫りにしている。 コードはhttps://github.com/qcznlp/uncertainty_ attackで公開されている。

Large Language Models (LLMs) are employed across various high-stakes domains, where the reliability of their outputs is crucial. One commonly used method to assess the reliability of LLMs' responses is uncertainty estimation, which gauges the likelihood of their answers being correct. While many studies focus on improving the accuracy of uncertainty estimations for LLMs, our research investigates the fragility of uncertainty estimation and explores potential attacks. We demonstrate that an attacker can embed a backdoor in LLMs, which, when activated by a specific trigger in the input, manipulates the model's uncertainty without affecting the final output. Specifically, the proposed backdoor attack method can alter an LLM's output probability distribution, causing the probability distribution to converge towards an attacker-predefined distribution while ensuring that the top-1 prediction remains unchanged. Our experimental results demonstrate that this attack effectively undermines the model's self-evaluation reliability in multiple-choice questions. For instance, we achieved a 100 attack success rate (ASR) across three different triggering strategies in four models. Further, we investigate whether this manipulation generalizes across different prompts and domains. This work highlights a significant threat to the reliability of LLMs and underscores the need for future defenses against such attacks. The code is available at https://github.com/qcznlp/uncertainty_attack.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# セグメント、リフト、フィット:2Dプロンプからの自動3D形状ラベル

Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts ( http://arxiv.org/abs/2407.11382v2 )

ライセンス: Link先を確認
Jianhao Li, Tianyu Sun, Zhongdao Wang, Enze Xie, Bailan Feng, Hongbo Zhang, Ze Yuan, Ke Xu, Jiaheng Liu, Ping Luo, (参考訳) 本稿では2Dポイントやボックスプロンプトから3Dオブジェクトを自動的にラベル付けするアルゴリズムを提案する。 従来のアートとは異なり、自動ラベルはバウンディングボックスの代わりに3D形状を予測し、特定のデータセットのトレーニングを必要としない。 この目的を達成するために、Segment, Lift, and Fit(SLF)パラダイムを提案する。 まず、Segment Anything Model(SAM)を用いてプロンプトから高品質なインスタンスマスクを分割し、残りの問題を与えられた2次元マスクから3次元形状を予測する。 この問題の性質が不明確であるため、複数の3次元形状が同一のマスクに投影できるため、大きな課題となる。 この問題に対処するため、我々は2Dマスクを3D形状に上げ、その姿勢と形状を調整するために勾配勾配を利用して、プロジェクションがマスクと表面が周囲のLiDAR点に適合するまでに配置する。 注目すべきなのは、特定のデータセットをトレーニングしないため、SLF自動ラベルラは他のメソッドと同じように、トレーニングセット内のバイアス付きアノテーションパターンに過度に適合しないことです。 これにより、異なるデータセット間の一般化能力が改善される。 KITTIデータセットによる実験結果から,SLFオートラベルは高品質なバウンディングボックスアノテーションを生成し,AP@0.5 IoUの90%近くを達成した。 生成された擬似ラベルで訓練されたディテクターは、実際の接頭辞アノテーションで訓練されたディテクターとほぼ同等に機能する。 さらに、SLFオートラベルは、詳細な形状予測の有望な結果を示し、動的オブジェクトの占有アノテーションの潜在的な代替手段を提供する。

This paper proposes an algorithm for automatically labeling 3D objects from 2D point or box prompts, especially focusing on applications in autonomous driving. Unlike previous arts, our auto-labeler predicts 3D shapes instead of bounding boxes and does not require training on a specific dataset. We propose a Segment, Lift, and Fit (SLF) paradigm to achieve this goal. Firstly, we segment high-quality instance masks from the prompts using the Segment Anything Model (SAM) and transform the remaining problem into predicting 3D shapes from given 2D masks. Due to the ill-posed nature of this problem, it presents a significant challenge as multiple 3D shapes can project into an identical mask. To tackle this issue, we then lift 2D masks to 3D forms and employ gradient descent to adjust their poses and shapes until the projections fit the masks and the surfaces conform to surrounding LiDAR points. Notably, since we do not train on a specific dataset, the SLF auto-labeler does not overfit to biased annotation patterns in the training set as other methods do. Thus, the generalization ability across different datasets improves. Experimental results on the KITTI dataset demonstrate that the SLF auto-labeler produces high-quality bounding box annotations, achieving an AP@0.5 IoU of nearly 90\%. Detectors trained with the generated pseudo-labels perform nearly as well as those trained with actual ground-truth annotations. Furthermore, the SLF auto-labeler shows promising results in detailed shape predictions, providing a potential alternative for the occupancy annotation of dynamic objects.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# RIMformer: FMCWレーダ干渉軽減のためのエンドツーエンド変換器

RIMformer: An End-to-End Transformer for FMCW Radar Interference Mitigation ( http://arxiv.org/abs/2407.11459v2 )

ライセンス: Link先を確認
Ziang Zhang, Guangzhi Chen, Youlong Weng, Shunchuan Yang, Zhiyu Jia, Jingxuan Chen, (参考訳) 周波数変調連続波(FMCW)レーダーはリモートセンシングの分野において重要な役割を果たす。 FMCWレーダー配備の度合いの増大は相互干渉を増大させ、レーダーの検出能力を弱め、システムの信頼性と安全性を脅かす。 本稿では, RIMformerと呼ばれる新しいFMCWレーダ干渉緩和法について, エンドツーエンドのTransformer構造を用いて提案する。 RIMformerでは、中間周波数(IF)信号の異なる距離要素間の相関を捉えるために、デュアルマルチヘッド自己アテンション機構が提案されている。 さらに、局所的な特徴を抽出するために畳み込みの力を利用するために改良された畳み込みブロックが統合される。 このアーキテクチャは、時間領域IF信号をエンドツーエンドに処理するように設計されており、これにより、追加の手動データ処理ステップが不要になる。 改良されたデコーダ構造により、ネットワークの並列化が保証され、その計算効率が向上する。 提案手法の精度と有効性を検証するため,シミュレーションおよび測定実験を行った。 その結果,提案したRIMformerは干渉を効果的に軽減し,ターゲット信号の復元を可能にすることがわかった。

Frequency-modulated continuous-wave (FMCW) radar plays a pivotal role in the field of remote sensing. The increasing degree of FMCW radar deployment has increased the mutual interference, which weakens the detection capabilities of radars and threatens reliability and safety of systems. In this paper, a novel FMCW radar interference mitigation (RIM) method, termed as RIMformer, is proposed by using an end-to-end Transformer-based structure. In the RIMformer, a dual multi-head self-attention mechanism is proposed to capture the correlations among the distinct distance elements of intermediate frequency (IF) signals. Additionally, an improved convolutional block is integrated to harness the power of convolution for extracting local features. The architecture is designed to process time-domain IF signals in an end-to-end manner, thereby avoiding the need for additional manual data processing steps. The improved decoder structure ensures the parallelization of the network to increase its computational efficiency. Simulation and measurement experiments are carried out to validate the accuracy and effectiveness of the proposed method. The results show that the proposed RIMformer can effectively mitigate interference and restore the target signals.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# UP-Diff:リモートセンシング都市予測のための潜時拡散モデル

UP-Diff: Latent Diffusion Model for Remote Sensing Urban Prediction ( http://arxiv.org/abs/2407.11578v2 )

ライセンス: Link先を確認
Zeyu Wang, Zecheng Hao, Jingyu Lin, Yuchao Feng, Yufei Guo, (参考訳) 本研究は,既存の都市レイアウト情報と計画変更マップを利用して都市レイアウトを予測することを目的とした,今後の都市計画に焦点を当てた新しいリモートセンシング(RS)都市予測(UP)タスクを提案する。 提案するRS UPタスクに対処するため,都市レイアウトや計画された変更マップの位置情報の埋め込みを,LDM(Latent Diffusion Model)を利用したUP-Diffを提案する。 具体的には、UP-Diffの反復拡散モジュール内のトレーニング可能なクロスアテンション層は、ターゲットとなる修正のための重要な領域を動的にハイライトすることができる。 UP-Diffを利用することで、設計者は変更マップを動的かつ適応的に変更することにより、将来の都市計画を効果的に洗練・調整することができる。 従来の RS 変更検出 (CD) 法と比較して,提案した RS UP タスクの UP-Diff は,都市開発における実用性を高めるために,ペア化事前変更画像と後変更画像の要求を回避している。 LEVIRCDとSYSU-CDデータセットの実験結果は、UP-Diffが将来の都市レイアウトを高い忠実度で正確に予測できることを示し、都市計画の可能性を示している。 コードとモデルの重み付けはhttps://github.com/zeyuwang-zju/UP-Diff.comで入手できる。

This study introduces a novel Remote Sensing (RS) Urban Prediction (UP) task focused on future urban planning, which aims to forecast urban layouts by utilizing information from existing urban layouts and planned change maps. To address the proposed RS UP task, we propose UP-Diff, which leverages a Latent Diffusion Model (LDM) to capture positionaware embeddings of pre-change urban layouts and planned change maps. In specific, the trainable cross-attention layers within UP-Diff's iterative diffusion modules enable the model to dynamically highlight crucial regions for targeted modifications. By utilizing our UP-Diff, designers can effectively refine and adjust future urban city plans by making modifications to the change maps in a dynamic and adaptive manner. Compared with conventional RS Change Detection (CD) methods, the proposed UP-Diff for the RS UP task avoids the requirement of paired prechange and post-change images, which enhances the practical usage in city development. Experimental results on LEVIRCD and SYSU-CD datasets show UP-Diff's ability to accurately predict future urban layouts with high fidelity, demonstrating its potential for urban planning. Code and model weights are available at https://github.com/zeyuwang-zju/UP-Diff.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# QVD:ビデオ拡散モデルのための後学習量子化

QVD: Post-training Quantization for Video Diffusion Models ( http://arxiv.org/abs/2407.11585v2 )

ライセンス: Link先を確認
Shilong Tian, Hong Chen, Chengtao Lv, Yu Liu, Jinyang Guo, Xianglong Liu, Shengxi Li, Hao Yang, Tao Xie, (参考訳) 近年,映像拡散モデル (VDM) が注目されている。 しかし、複数のフレームを並列に処理し、相当なモデルサイズと組み合わせることで、高いレイテンシと広範なメモリ消費が発生し、より広範なアプリケーションを妨げる。 ポストトレーニング量子化(PTQ)は、メモリフットプリントの削減と計算効率の向上に有効な手法である。 画像拡散とは異なり、時間的特徴は全てのフレーム特徴に統合され、顕著な歪みを示す。 さらに,ビデオ拡散モデルのアクティベーションにおけるチャネル間の相違や非対称性について検討し,個々のチャンネルによる量子化レベルの範囲が低くなり,量子化の課題が増大することを示した。 これらの問題に対処するために、QVDと呼ばれるビデオ拡散モデルに適した最初のPTQ戦略を導入する。 具体的には,時間的特徴に対する高時間的識別可能性量子化法(HTDQ)を提案する。 さらに,各チャネルにおける量子化レベルのカバレッジ向上を目的としたScattered Channel Range Integration (SCRI)法を提案する。 様々なモデル、データセット、ビット幅設定の実験的検証は、様々なメトリクスの観点から、私たちのQVDの有効性を示しています。 特にW8A8では,FVDの205.12倍の性能向上を実現している。

Recently, video diffusion models (VDMs) have garnered significant attention due to their notable advancements in generating coherent and realistic video content. However, processing multiple frame features concurrently, coupled with the considerable model size, results in high latency and extensive memory consumption, hindering their broader application. Post-training quantization (PTQ) is an effective technique to reduce memory footprint and improve computational efficiency. Unlike image diffusion, we observe that the temporal features, which are integrated into all frame features, exhibit pronounced skewness. Furthermore, we investigate significant inter-channel disparities and asymmetries in the activation of video diffusion models, resulting in low coverage of quantization levels by individual channels and increasing the challenge of quantization. To address these issues, we introduce the first PTQ strategy tailored for video diffusion models, dubbed QVD. Specifically, we propose the High Temporal Discriminability Quantization (HTDQ) method, designed for temporal features, which retains the high discriminability of quantized features, providing precise temporal guidance for all video frames. In addition, we present the Scattered Channel Range Integration (SCRI) method which aims to improve the coverage of quantization levels across individual channels. Experimental validations across various models, datasets, and bit-width settings demonstrate the effectiveness of our QVD in terms of diverse metrics. In particular, we achieve near-lossless performance degradation on W8A8, outperforming the current methods by 205.12 in FVD.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# CCoE: 専門家の協力によるコンパクトなLLM

CCoE: A Compact LLM with Collaboration of Experts ( http://arxiv.org/abs/2407.11686v2 )

ライセンス: Link先を確認
Shaomang Huang, Jianfeng Pan, Hanzhong Zheng, (参考訳) 大規模言語モデル(LLM)の領域では、LLMは自然言語の理解と生成において重要な能力を示す。 様々なドメインにLLMを適用する必要性が高まっている中で、異なるドメインの専門知識を持つモデルをどのように効率的に訓練し、構築するかという研究の課題である。 本稿では,複数の強力なドメインエキスパートを結合して大きなLLMに融合するフレームワークであるCCoEアーキテクチャを提案する。 さらに、複数の専門家による大規模な共同作業のトレーニングには、トレーニングソースに対する高い要求が必要である。 CCoEは、他の専門家を分離し、各専門家を個別に訓練することで、この問題を回避します。 CCoEの設計は、CoE(Collaboration of Experts)レイヤを通じて複数の専門家のLCMを組み立てる。 各CoE層は1つ以上の専門LSMを持つことができる。 専門家のLLMは異なるレイヤ数を持ち、異なるドメインタスクに対して十分に訓練されている。 各エキスパートは、SOTAドメインのLLMで同等の結果を得ることができるように微調整される。 Code, Math, Law, text-to-SQL, Medicalの5つの分野の専門家から始めます。 その結果、我々のCCoEフレームワークは、異なるドメインにおける元のベースモデルで10%-20%近いパフォーマンスを容易かつ効率的に向上できるが、トレーニングのリソースは少なく、推論も少ないことが示唆された。

In the domain of Large Language Model (LLM), LLMs demonstrate significant capabilities in natural language understanding and generation. With the growing needs of applying LLMs on various domains, it is a research question that how to efficiently train and build a model that has expertise in different domains but with a low training cost. We propose CCoE architecture, a framework of easily coupling multiple strong domain experts together to fuse into a big LLM, provides a collective way of utilizing the different domain expert LLMs. Besides, training a large collaborative of multiple expert LLMs requires a high requirements on training sources. CCoE bypasses this problem through isolating other experts and train each expert separately. The design of CCoE assembles multiple expert LLMs through the CoE (Collaboration of Experts) layer. Each CoE layer could have one or more expert LLMs. Expert LLMs have different number of layers and have been well-trained for different domain tasks. Each expert is fine-tuned to be able to achieve the comparable results with SOTA domain LLMs. We start from 5 experts in the domain of Code, Math, Law, text-to-SQL and Medical. The results indicate that our CCoE framework can easily and efficiently boost nearly 10%-20% performance on original base model in different domains but using less resources on training, as well as inference.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# 速度歪み認知制御型可変ニューラルイメージ圧縮

Rate-Distortion-Cognition Controllable Versatile Neural Image Compression ( http://arxiv.org/abs/2407.11700v2 )

ライセンス: Link先を確認
Jinming Liu, Ruoyu Feng, Yunpeng Qi, Qiuyu Chen, Zhibo Chen, Wenjun Zeng, Xin Jin, (参考訳) 近年,画像圧縮・解析の学習技術が急速に進歩し,画像符号化(ICM)分野への関心が高まっている。 従来の研究では、様々なビットレートレベル、マシンタスク、ネットワークをサポートするために別々のコーデックを訓練する必要があることが多く、柔軟性と実用性の両方が欠如している。 これらの課題に対処するために、レート歪み認識制御可能な多目的画像圧縮を提案する。これは、ユーザがビットレート(レート)、画像再構成品質(歪み)、マシンタスク精度(認知)を1つのニューラルモデルで調整し、超制御性を実現する方法である。 具体的には、まず第一圧縮分岐において認知指向の損失を導入し、多様なマシンタスクのためのコーデックを訓練する。 この分岐は、潜時符号チャネルを通して量子化度を調節することで可変ビットレートを得る。 再構成画像の品質をさらに高めるために、我々は、拡張性のあるビットストリームで残余情報を補う補助分岐を用いる。 最終的に、2つの枝は '$\beta x + (1 - \beta) y$' 補間戦略を使用して、バランスの取れた認識歪曲トレードオフを達成する。 拡張実験により,本手法は良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御が得られることが示された。

Recently, the field of Image Coding for Machines (ICM) has garnered heightened interest and significant advances thanks to the rapid progress of learning-based techniques for image compression and analysis. Previous studies often require training separate codecs to support various bitrate levels, machine tasks, and networks, thus lacking both flexibility and practicality. To address these challenges, we propose a rate-distortion-cognition controllable versatile image compression, which method allows the users to adjust the bitrate (i.e., Rate), image reconstruction quality (i.e., Distortion), and machine task accuracy (i.e., Cognition) with a single neural model, achieving ultra-controllability. Specifically, we first introduce a cognition-oriented loss in the primary compression branch to train a codec for diverse machine tasks. This branch attains variable bitrate by regulating quantization degree through the latent code channels. To further enhance the quality of the reconstructed images, we employ an auxiliary branch to supplement residual information with a scalable bitstream. Ultimately, two branches use a `$\beta x + (1 - \beta) y$' interpolation strategy to achieve a balanced cognition-distortion trade-off. Extensive experiments demonstrate that our method yields satisfactory ICM performance and flexible Rate-Distortion-Cognition controlling.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# 拡張性屋内シーンにおける単眼活動予測

Monocular Occupancy Prediction for Scalable Indoor Scenes ( http://arxiv.org/abs/2407.11730v2 )

ライセンス: Link先を確認
Hongxiao Yu, Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang, (参考訳) カメラによる3D占有予測は、最近、屋外の運転シーンで注目を集めている。 しかし、屋内の場面での研究は、いまだに未調査である。 屋内シーンにおける中核的な違いは、シーンスケールの複雑さとオブジェクトサイズのばらつきにある。 本稿では,モノクロ画像を用いた屋内シーンの占有率の予測手法であるISOを提案する。 ISOは、事前訓練された深度モデルの利点を利用して正確な深度予測を行う。 さらに,ISO内にD-FLoSP(Dual Feature Line of Sight Projection, D-FLoSP)モジュールを導入した。 この領域におけるさらなる研究を促進するために,屋内シーンの大規模占有ベンチマークであるOcc-ScanNetを紹介する。 データセットのサイズはNYUv2データセットの40倍で、屋内シーン分析における将来のスケーラブルな研究を促進する。 また,NYUv2 と Occ-ScanNet による実験結果から,本手法が最先端の性能を実現することを示す。 データセットとコードはhttps://github.com/hongxiaoy/ISO.git.comで公開されている。

Camera-based 3D occupancy prediction has recently garnered increasing attention in outdoor driving scenes. However, research in indoor scenes remains relatively unexplored. The core differences in indoor scenes lie in the complexity of scene scale and the variance in object size. In this paper, we propose a novel method, named ISO, for predicting indoor scene occupancy using monocular images. ISO harnesses the advantages of a pretrained depth model to achieve accurate depth predictions. Furthermore, we introduce the Dual Feature Line of Sight Projection (D-FLoSP) module within ISO, which enhances the learning of 3D voxel features. To foster further research in this domain, we introduce Occ-ScanNet, a large-scale occupancy benchmark for indoor scenes. With a dataset size 40 times larger than the NYUv2 dataset, it facilitates future scalable research in indoor scene analysis. Experimental results on both NYUv2 and Occ-ScanNet demonstrate that our method achieves state-of-the-art performance. The dataset and code are made publicly at https://github.com/hongxiaoy/ISO.git.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# GV-Bench:長期ループクロージャ検出の幾何学的検証のための局所特徴マッチングベンチマーク

GV-Bench: Benchmarking Local Feature Matching for Geometric Verification of Long-term Loop Closure Detection ( http://arxiv.org/abs/2407.11736v2 )

ライセンス: Link先を確認
Jingwen Yu, Hanjing Ye, Jianhao Jiao, Ping Tan, Hong Zhang, (参考訳) 視覚ループクロージャ検出は、現在のカメラ観測と以前に訪れた場所を関連付ける視覚的同時位置決めとマッピング(SLAM)において重要なモジュールである。 ループクロージャは軌道推定における正しいドリフトを補正し、グローバルに一貫したマップを構築する。 しかし、偽ループ閉鎖は致命的であり、偽正ループを拒絶することで堅牢性を確保するための追加のステップとして検証が必要である。 幾何学的検証は、局所的特徴マッチングによって提供される空間的手がかりを利用して真の正を求める、よく認識された解である。 既存の特徴マッチング手法では、ホログラフィーとポーズ推定に焦点が当てられ、幾何的検証の基準が欠如している。 このギャップを埋めるために,長期条件下でのループ閉鎖検出の幾何的検証を目標とした統一ベンチマークを提案する。 さらに,6つの局所的特徴マッチング手法(手作り・学習ベース)をベンチマークで評価し,制約や今後の方向性を詳細に分析した。

Visual loop closure detection is an important module in visual simultaneous localization and mapping (SLAM), which associates current camera observation with previously visited places. Loop closures correct drifts in trajectory estimation to build a globally consistent map. However, a false loop closure can be fatal, so verification is required as an additional step to ensure robustness by rejecting the false positive loops. Geometric verification has been a well-acknowledged solution that leverages spatial clues provided by local feature matching to find true positives. Existing feature matching methods focus on homography and pose estimation in long-term visual localization, lacking references for geometric verification. To fill the gap, this paper proposes a unified benchmark targeting geometric verification of loop closure detection under long-term conditional variations. Furthermore, we evaluate six representative local feature matching methods (handcrafted and learning-based) under the benchmark, with in-depth analysis for limitations and future directions.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# Vibravox:ボディ伝導型音声センサを用いたフランス語音声のデータセット

Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors ( http://arxiv.org/abs/2407.11828v2 )

ライセンス: Link先を確認
Julien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu, (参考訳) VibravoxはGeneral Data Protection Regulation (GDPR)に準拠したデータセットで、5つの異なる体伝導型オーディオセンサ(内耳マイク2つ、骨伝導型振動ピックアップ2つ、喉頭音)を用いたオーディオ記録を含んでいる。 データセットには、基準として使用される空中マイクからのオーディオデータも含まれている。 ヴィブラヴォックスコーパスは、高次アンビソニクス3D空間化装置によって課せられる異なる音響条件下で188人の被験者が記録した38時間の音声サンプルと生理音を含む。 コーパスには、記録条件や言語転写に関する注釈も含まれている。 音声認識,音声強調,話者検証など,様々な音声関連課題について一連の実験を行った。 これらの実験は、最先端のモデルを用いて、Vibravoxデータセットによって提供される異なるオーディオセンサによって取得された信号の性能を評価し、比較し、個々の特性をよりよく把握することを目的とした。

Vibravox is a dataset compliant with the General Data Protection Regulation (GDPR) containing audio recordings using five different body-conduction audio sensors : two in-ear microphones, two bone conduction vibration pickups and a laryngophone. The data set also includes audio data from an airborne microphone used as a reference. The Vibravox corpus contains 38 hours of speech samples and physiological sounds recorded by 188 participants under different acoustic conditions imposed by an high order ambisonics 3D spatializer. Annotations about the recording conditions and linguistic transcriptions are also included in the corpus. We conducted a series of experiments on various speech-related tasks, including speech recognition, speech enhancement and speaker verification. These experiments were carried out using state-of-the-art models to evaluate and compare their performances on signals captured by the different audio sensors offered by the Vibravox dataset, with the aim of gaining a better grasp of their individual characteristics.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17
# スナップショット圧縮画像用階層分離型ビデオトランス

Hierarchical Separable Video Transformer for Snapshot Compressive Imaging ( http://arxiv.org/abs/2407.11946v2 )

ライセンス: Link先を確認
Ping Wang, Yulun Zhang, Lishun Wang, Xin Yuan, (参考訳) トランスフォーマーは、空間マスキングと時間エイリアシングの混合劣化に根ざしたビデオ用スナップショット圧縮イメージング(SCI)の逆問題を解決する上で、最先端のパフォーマンスを達成した。 しかし、以前のTransformerには劣化に関する洞察がなく、パフォーマンスと効率が制限されている。 本研究では,階層型分離ビデオ変換器(HiSViT)をビルディングブロックとして,初期層における時間的アグリゲーションを伴わない効率的な再構成アーキテクチャを設計する。 HiSViTは、複数のグループ(CSS-MSA)とGated Self-Modulated Feed-Forward Network(GSM-FFN)によって構築され、それぞれ異なるチャンネル内で異なるスケールで、マルチスケールのインタラクションと長距離モデリングを行う。 時間的操作から空間操作を分離することで、CSS-MSAは、計算オーバーヘッドを省きながらフレーム間ではなくフレーム内でより多くの注意を払う誘導バイアスを導入する。 GSM-FFNはさらに、ゲート機構と分解された時空間畳み込みを介して局所性を高める。 大規模な実験により、我々のメソッドは以前のメソッドよりも$\! >\! 0.5$ dBで、同等または少ないパラメータと複雑さを持つ。 ソースコードと事前訓練されたモデルはhttps://github.com/pwangcs/HiSViT.comで公開されている。

Transformers have achieved the state-of-the-art performance on solving the inverse problem of Snapshot Compressive Imaging (SCI) for video, whose ill-posedness is rooted in the mixed degradation of spatial masking and temporal aliasing. However, previous Transformers lack an insight into the degradation and thus have limited performance and efficiency. In this work, we tailor an efficient reconstruction architecture without temporal aggregation in early layers and Hierarchical Separable Video Transformer (HiSViT) as building block. HiSViT is built by multiple groups of Cross-Scale Separable Multi-head Self-Attention (CSS-MSA) and Gated Self-Modulated Feed-Forward Network (GSM-FFN) with dense connections, each of which is conducted within a separate channel portions at a different scale, for multi-scale interactions and long-range modeling. By separating spatial operations from temporal ones, CSS-MSA introduces an inductive bias of paying more attention within frames instead of between frames while saving computational overheads. GSM-FFN further enhances the locality via gated mechanism and factorized spatial-temporal convolutions. Extensive experiments demonstrate that our method outperforms previous methods by $\!>\!0.5$ dB with comparable or fewer parameters and complexity. The source codes and pretrained models are released at https://github.com/pwangcs/HiSViT.
翻訳日:2024-07-18 11:42:46 公開日:2024-07-17