このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240822となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 性能最適化 - 微調整によるコンパクトモデルとGPTの分類能力の一致
Optimizing Performance: How Compact Models Match or Exceed GPT's Classification Capabilities through Fine-Tuning ( http://arxiv.org/abs/2409.11408v1 ) ライセンス: Link先を確認 | Baptiste Lefort, Eric Benhamou, Jean-Jacques Ohana, David Saltiel, Beatrice Guez, | (参考訳) 本稿では,FinBERTやFinDRoBERTaのような非生成型・小型モデルにおいて,財務ニュースの感情分析におけるゼロショット学習設定において,GPT-3.5やGPT-4モデルよりも優れた性能を示すことを示す。
これらの微調整されたモデルは、ブルームバーグが発行した毎日の金融ニュースの要約から市場のセンチメントを決定するタスクを微調整した時に、GPT-3.5に匹敵する結果を示す。
これらのモデルを微調整し、比較するために、我々は、人間の解釈バイアスを伴わずに、市場スコアを各ニュースに割り当てる新しいデータベースを作成しました。
さらに,Condorcet の Jury Theorem の仮定は,細調整された小型モデルが細調整された GPT モデルとは独立ではないことを示唆せず,挙動の類似性を示している。
最後に、得られた細調整されたモデルは、HuggingFaceで公開されており、財務感情分析とテキスト分類のさらなる研究のためのリソースを提供する。
In this paper, we demonstrate that non-generative, small-sized models such as FinBERT and FinDRoBERTa, when fine-tuned, can outperform GPT-3.5 and GPT-4 models in zero-shot learning settings in sentiment analysis for financial news. These fine-tuned models show comparable results to GPT-3.5 when it is fine-tuned on the task of determining market sentiment from daily financial news summaries sourced from Bloomberg. To fine-tune and compare these models, we created a novel database, which assigns a market score to each piece of news without human interpretation bias, systematically identifying the mentioned companies and analyzing whether their stocks have gone up, down, or remained neutral. Furthermore, the paper shows that the assumptions of Condorcet's Jury Theorem do not hold suggesting that fine-tuned small models are not independent of the fine-tuned GPT models, indicating behavioural similarities. Lastly, the resulted fine-tuned models are made publicly available on HuggingFace, providing a resource for further research in financial sentiment analysis and text classification. | 翻訳日:2024-11-07 20:01:55 公開日:2024-08-22 |
# コンピューティング固有の教育学と理論モデル--共通利用と関係
Computing-specific pedagogies and theoretical models: common uses and relationships ( http://arxiv.org/abs/2409.12245v1 ) ライセンス: Link先を確認 | Lauri Malmi, Judy Sheard, Claudia Szabo, Päivi Kinnunen, | (参考訳) コンピューティング教育は、一般的な学習理論と教育実践を広く適用している。
しかし、コンピューティングには特定の学際的な知識とスキル、例えばプログラミングやソフトウェア開発の手法が含まれており、特定の教育実践の開発や応用には長い歴史がある。
近年では、様々な文脈において、コンピュータの教えや学習における複雑な相互作用を記述し、説明しようとする、コンピューティング固有の理論モデルの開発にも大きな関心が寄せられている。
本稿では,計算固有の教育学と理論モデルとの関係について報告する。
我々のゴールは、フィールド固有の理論や教育の明示的な利用が、その分野全体をさらに発展させることによって、コンピューティング教育の研究と実践を豊かにすることである。
我々は、文献検索からコンピュータ固有の教育実践と理論モデルのリストを収集し、それらが最初に紹介された、あるいはよく記述された資料を同定した。
次に,各リストから資料を引用するACMデジタルライブラリの論文を検索し,各論文におけるモデルと教育の相互作用のタイプを分析した。
我々は,理論モデルと教育学が相互に支持あるいは割引しあうか,実証研究や新しい工芸品の製作に併用されたかの分類を開発した。
その結果,ペアプログラミングとパーソンの問題が最も理論モデルと相互作用していることが明らかとなり,これらの相互作用の解析結果が得られた。
Computing education widely applies general learning theories and pedagogical practices. However, computing also includes specific disciplinary knowledge and skills, e.g., programming and software development methods, for which there has been a long history of development and application of specific pedagogical practices. In recent years, there has also been substantial interest in developing computing-specific theoretical models, which seek to describe and explain the complex interactions within teaching and learning computing in various contexts. In this paper, we explore connections between computing-specific pedagogies and theoretical models as reported in the literature. Our goal is to enrich computing education research and practice by illustrating how explicit use of field-specific theories and pedagogies can further the whole field. We have collected a list of computing-specific pedagogical practices and theoretical models from a literature search, identifying source papers where they have been first introduced or well described. We then searched for papers in the ACM digital library that cite source papers from each list, and analyzed the type of interaction between the model and pedagogy in each paper. We developed a categorization of how theoretical models and pedagogies have supported or discounted each other, have been used together in empirical studies or used to build new artefacts. Our results showed that pair programming and parsons problems have had the most interactions with theoretical models in the explored papers, and we present findings of the analysis of these interactions. | 翻訳日:2024-11-07 15:38:21 公開日:2024-08-22 |
# ChatGPTとその教育的影響:ソフトウェア開発コンペティションからの洞察
ChatGPT and Its Educational Impact: Insights from a Software Development Competition ( http://arxiv.org/abs/2409.03779v1 ) ライセンス: Link先を確認 | Sunhee Hwang, Yudoo Kim, Heejin Lee, | (参考訳) 本研究では,自然言語処理を利用した生成AIChatGPTの教育環境における統合と影響について検討する。
主な目標は、ChatGPTがプロジェクトパフォーマンスにどのように影響するかを評価することである。
この目的のために、ChatGPTを使ったソフトウェア開発コンペティションを組織し、4週間継続し、36人の学生を巻き込んだ。
最初のラウンドでは、36人の学生全員が参加し、コード品質、イノベーション、プロジェクト要件の遵守といった特定のパフォーマンス指標に基づいて評価されます。
第1ラウンドの上位15人のパフォーマーが第2ラウンドに進むために選ばれ、最終ランキングで競い合い、総合優勝者が決定される。
このコンペティションでは、ChatGPTを使用する学生は、アイデア、ドキュメンテーション、ソフトウェア開発、品質保証など、様々な開発段階において、より高いプロジェクトの完成率とより良いスコアを持っていることが示されている。
第1ラウンドと第2ラウンドの勝者の詳細な比較分析は、ソフトウェア開発のための生成AIの経験、大規模な言語モデルを学ぶ経験、そしてそれぞれの研究分野への関心において、大きな違いを示している。
これらの結果から,ChatGPTは個人の学習とプロジェクトパフォーマンスを向上させることが示唆された。
参加者のポストサーベイはまた、高いレベルの満足感を明らかにし、学術的な設定でChatGPTのような生成AIを統合するメリットを強調している。
本研究は,プロジェクトベースの学習環境におけるChatGPTの変容の可能性を強調し,その長期的影響と様々な教育的文脈における幅広い応用に関するさらなる研究を支援する。
This study explores the integration and impact of ChatGPT, a generative AI that utilizes natural language processing, in an educational environment. The main goal is to evaluate how ChatGPT affects project performance. To this end, we organize a software development competition utilizing ChatGPT, lasting for four weeks and involving 36 students. The competition is structured in two rounds: in the first round, all 36 students participate and are evaluated based on specific performance metrics such as code quality, innovation, and adherence to project requirements. The top 15 performers from the first round are then selected to advance to the second round, where they compete for the final rankings and the overall winner is determined. The competition shows that students who use ChatGPT extensively in various stages of development, including ideation, documentation, software development, and quality assurance, have higher project completion rates and better scores. A detailed comparative analysis between first-round and second-round winners reveals significant differences in their experience with generative AI for software development, experience learning large-scale language models, and interest in their respective fields of study. These findings suggest that ChatGPT enhances individual learning and project performance. A post-survey of participants also reveals high levels of satisfaction, further emphasizing the benefits of integrating generative AI like ChatGPT in academic settings. This study highlights the transformative potential of ChatGPT in project-based learning environments and supports further research into its long-term impact and broader application in a variety of educational contexts. | 翻訳日:2024-09-15 05:41:23 公開日:2024-08-22 |
# ラプト上のステッカー検出のための物体検出モデルの不確かさとロバスト性の評価
Assessing the Uncertainty and Robustness of Object Detection Models for Detecting Stickers on Laptops ( http://arxiv.org/abs/2409.03782v1 ) ライセンス: Link先を確認 | Chengjie Lu, Jiahui Wu, Shaukat Ali, Mikkel Labori Olsen, | (参考訳) ラップトップのリサイクルは、持続的な未来の構築を促進するため、電子廃棄物の削減に貢献しながら、寿命を延ばす。
この目的のために、デンマーク技術研究所(DTI)は、ラップトップの改修を含むいくつかのアプリケーションの研究と開発に重点を置いている。
これには、ラップトップの表面からステッカーを識別して取り除くことを含む、クリーニングを含むいくつかのステップが含まれている。
DTIは、オープンソースオブジェクト検出モデルに基づく6つのステッカー検出モデル(SDM)を訓練し、これらのステッカーを自動的に除去できるように、それらのステッカーを正確に識別した。
しかし、ステッカーの種類(例えば、形状、色、位置)の多様性を考えると、ステッカーの識別は極めて不確実であり、それによって特定されたステッカーに関連する不確実性を明確に定量化する必要がある。
このような不確実性の定量化は、ステッカーを除去するリスクを減らすのに役立つ。
不確実性定量化のために,我々はモンテカルロ・ドロップアウト法を用いて,DTIのオリジナル画像データセットと,DALL-E-3とStable Diffusion-3という視覚言語モデルで生成された2つのデータセットの3つのデータセットを用いて,DTIの6つのSDMを評価する。
さらに,検出精度と不確実性に関する新たなロバストネス指標を提示し,高密度逆解析法を用いて3つのデータセットから生成された逆データセットに基づいてSDMのロバストネスを評価する。
評価結果から,SDMは異なる指標に対して異なる性能を示すことが示された。
その結果から,SDM選択ガイドラインと様々な視点から学んだ教訓が得られた。
Refurbishing laptops extends their lives while contributing to reducing electronic waste, which promotes building a sustainable future. To this end, the Danish Technological Institute (DTI) focuses on the research and development of several applications, including laptop refurbishing. This has several steps, including cleaning, which involves identifying and removing stickers from laptop surfaces. DTI trained six sticker detection models (SDMs) based on open-source object detection models to identify such stickers precisely so these stickers can be removed automatically. However, given the diversity in types of stickers (e.g., shapes, colors, locations), identification of the stickers is highly uncertain, thereby requiring explicit quantification of uncertainty associated with the identified stickers. Such uncertainty quantification can help reduce risks in removing stickers, which, for example, could otherwise result in damaging laptop surfaces. For uncertainty quantification, we adopted the Monte Carlo Dropout method to evaluate the six SDMs from DTI using three datasets: the original image dataset from DTI and two datasets generated with vision language models, i.e., DALL-E-3 and Stable Diffusion-3. In addition, we presented novel robustness metrics concerning detection accuracy and uncertainty to assess the robustness of the SDMs based on adversarial datasets generated from the three datasets using a dense adversary method. Our evaluation results show that different SDMs perform differently regarding different metrics. Based on the results, we provide SDM selection guidelines and lessons learned from various perspectives. | 翻訳日:2024-09-15 05:41:23 公開日:2024-08-22 |
# LLM4V: LLM-as-a-Judge for Validation and Verification Testsuites
LLM4VV: Exploring LLM-as-a-Judge for Validation and Verification Testsuites ( http://arxiv.org/abs/2408.11729v2 ) ライセンス: Link先を確認 | Zachariah Sollenberger, Jay Patel, Christian Munley, Aaron Jarmusch, Sunita Chandrasekaran, | (参考訳) 大規模言語モデル(LLM)は進化し、ソフトウェア開発のランドスケープに大きな革命をもたらしています。
うまく使えば、彼らはソフトウェア開発サイクルを著しく加速できます。
同時に、コミュニティはバイアスやセンシティブなデータに基づいてトレーニングされているモデルに非常に注意を払っています。
さらに、これらのブラックボックスモデルのカーボンフットプリントと説明不能さは、LSMのユーザビリティに関する疑問を提起し続けている。
LLMが提供すべき機会の多さから,命令型プログラミングモデルのコンパイラ実装の評価や,LLMのブラックボックスの探索に使用されるテストの判断について検討する。
この結果から,エージェントベースのプロンプト手法と検証パイプライン構造の設定により,DeepSeek Coderの品質が大幅に向上し,LCMが評価目的に選択された。
Large Language Models (LLM) are evolving and have significantly revolutionized the landscape of software development. If used well, they can significantly accelerate the software development cycle. At the same time, the community is very cautious of the models being trained on biased or sensitive data, which can lead to biased outputs along with the inadvertent release of confidential information. Additionally, the carbon footprints and the un-explainability of these black box models continue to raise questions about the usability of LLMs. With the abundance of opportunities LLMs have to offer, this paper explores the idea of judging tests used to evaluate compiler implementations of directive-based programming models as well as probe into the black box of LLMs. Based on our results, utilizing an agent-based prompting approach and setting up a validation pipeline structure drastically increased the quality of DeepSeek Coder, the LLM chosen for the evaluation purposes. | 翻訳日:2024-09-08 15:56:29 公開日:2024-08-22 |
# LLMによる文学文章の理解--古漢詩を事例として
Understanding Literary Texts by LLMs: A Case Study of Ancient Chinese Poetry ( http://arxiv.org/abs/2409.00060v1 ) ライセンス: Link先を確認 | Cheng Zhao, Bin Wang, Zhen Wang, | (参考訳) 大規模言語モデル(LLMs)の誕生と急速な発展は、文学の分野で大きな騒ぎを引き起こしている。
文芸創造におけるAIの役割は、かつては達成不可能と考えられていたが、次第に現実化しつつある。
詩、ジョーク、短編小説などのジャンルにおいて、多くのAIツールが登場し、新たな視点を提供する。
しかし、これらの作品の質をさらに改善することは困難である。
これは主に、優れた文学作品の理解と評価には、文学理論の知識、審美的感受性、学際的知識など、かなりのしきい値が伴うためである。
そのため、この地域の権威的なデータは欠落している。
さらに、文学作品を評価することはしばしば複雑で、完全に定量化することは困難であり、AI創造のさらなる発展を妨げている。
この問題に対処するために,古漢詩を実験の例として用い,LLMの観点から文学テキストの謎を探究する。
まず、異なる資料からさまざまな古詩を採集し、その一部に専門家が注釈を付けた。
そこで我々は,これらすべての詩を評価するために,LLMに基づく様々な理解尺度を設計した。
最後に,様々な詩集の相互関係と相違点を分析し,文体パターンを同定した。
実験を通じて,LLMをベースとしたハイレベルな文学創作の技術的発展を支援する一連の啓蒙現象を観察した。
The birth and rapid development of large language models (LLMs) have caused quite a stir in the field of literature. Once considered unattainable, AI's role in literary creation is increasingly becoming a reality. In genres such as poetry, jokes, and short stories, numerous AI tools have emerged, offering refreshing new perspectives. However, it's difficult to further improve the quality of these works. This is primarily because understanding and appreciating a good literary work involves a considerable threshold, such as knowledge of literary theory, aesthetic sensibility, interdisciplinary knowledge. Therefore, authoritative data in this area is quite lacking. Additionally, evaluating literary works is often complex and hard to fully quantify, which directly hinders the further development of AI creation. To address this issue, this paper attempts to explore the mysteries of literary texts from the perspective of LLMs, using ancient Chinese poetry as an example for experimentation. First, we collected a variety of ancient poems from different sources and had experts annotate a small portion of them. Then, we designed a range of comprehension metrics based on LLMs to evaluate all these poems. Finally, we analyzed the correlations and differences between various poem collections to identify literary patterns. Through our experiments, we observed a series of enlightening phenomena that provide technical support for the future development of high-level literary creation based on LLMs. | 翻訳日:2024-09-08 15:31:02 公開日:2024-08-22 |
# インドネシア語における COVID-19 Automated Fact-Checking のための知識グラフによる自然言語推論性能の向上
Enhancing Natural Language Inference Performance with Knowledge Graph for COVID-19 Automated Fact-Checking in Indonesian Language ( http://arxiv.org/abs/2409.00061v1 ) ライセンス: Link先を確認 | Arief Purnama Muharram, Ayu Purwarianti, | (参考訳) 自動ファクトチェックは、インターネット上での新型コロナウイルスの誤情報拡散を克服するための重要な戦略だ。
これらのシステムは典型的には、自然言語推論(NLI)による深層学習アプローチを利用して、支持する証拠に基づいて情報の真正性を検証する。
しかし、ディープラーニングで生じる課題の1つは、トレーニング中に知識が不足しているため、パフォーマンスの停滞である。
本研究は、インドネシア語における新型コロナウイルスのファクトチェック自動化のためのNLI性能を高めるために、知識グラフ(KG)を外部知識として用いることを提案する。
提案するモデルアーキテクチャは,ファクトモジュール,NLIモジュール,分類器モジュールの3つのモジュールから構成される。
事実モジュールはKGからの情報を処理し、NLIモジュールは与えられた前提と仮説の間の意味的関係を処理する。
両モジュールの表現ベクトルは連結され、最終結果を生成するために分類モジュールに入力される。
このモデルは、インドネシアの新型コロナウイルス(COVID-19)ファクトチェックデータセットと、インドネシアのKGバハサ(KG Bahasa Indonesia)を使用してトレーニングされた。
本研究は,KGsを組み込むことで,NLI性能が有意に向上し,0,8616の精度が達成できることを示す。
このことは、KGsが自動事実チェックにおけるNLI性能を高める貴重なコンポーネントであることを示唆している。
Automated fact-checking is a key strategy to overcome the spread of COVID-19 misinformation on the internet. These systems typically leverage deep learning approaches through Natural Language Inference (NLI) to verify the truthfulness of information based on supporting evidence. However, one challenge that arises in deep learning is performance stagnation due to a lack of knowledge during training. This study proposes using a Knowledge Graph (KG) as external knowledge to enhance NLI performance for automated COVID-19 fact-checking in the Indonesian language. The proposed model architecture comprises three modules: a fact module, an NLI module, and a classifier module. The fact module processes information from the KG, while the NLI module handles semantic relationships between the given premise and hypothesis. The representation vectors from both modules are concatenated and fed into the classifier module to produce the final result. The model was trained using the generated Indonesian COVID-19 fact-checking dataset and the COVID-19 KG Bahasa Indonesia. Our study demonstrates that incorporating KGs can significantly improve NLI performance in fact-checking, achieving the best accuracy of 0,8616. This suggests that KGs are a valuable component for enhancing NLI performance in automated fact-checking. | 翻訳日:2024-09-08 15:31:02 公開日:2024-08-22 |
# LLMを用いた都市モビリティアセスメント
Urban Mobility Assessment Using LLMs ( http://arxiv.org/abs/2409.00063v1 ) ライセンス: Link先を確認 | Prabin Bhandari, Antonios Anastasopoulos, Dieter Pfoser, | (参考訳) 都市移動パターンを理解し、人々がどのように都市を動き回るかを分析することは、生活の全体的な品質を改善し、より生き生きとした、効率的で持続可能な都市部の開発を支援する。
この作業の難しい側面は、ユーザの追跡や旅行調査によるモビリティデータの収集である。
本研究は,大規模言語モデル(LLM)を推進し,膨大な量の背景知識とテキスト生成能力を活用することによって,旅行調査を合成する,革新的なAIベースのアプローチを提案する。
本研究は, 異なる粒度レベルの既存調査データと比較し, この手法の有効性について評価した。
これらのレベルには
(i)旅行の所数や旅行時間などの集計値を比較するパターンレベル。
(二)トランジション確率を用いた旅行を単位単位として比較することに焦点を当てた旅行水準、
三 個人が訪れた場所の順序を調べる活動連鎖レベル。
本研究は,Llama-2のようなオープンソースベースモデルを用いて,限られた実際のデータ量でも微調整することで,実際の旅行調査データを忠実に模倣した合成データを生成することができることを示す。
Understanding urban mobility patterns and analyzing how people move around cities helps improve the overall quality of life and supports the development of more livable, efficient, and sustainable urban areas. A challenging aspect of this work is the collection of mobility data by means of user tracking or travel surveys, given the associated privacy concerns, noncompliance, and high cost. This work proposes an innovative AI-based approach for synthesizing travel surveys by prompting large language models (LLMs), aiming to leverage their vast amount of relevant background knowledge and text generation capabilities. Our study evaluates the effectiveness of this approach across various U.S. metropolitan areas by comparing the results against existing survey data at different granularity levels. These levels include (i) pattern level, which compares aggregated metrics like the average number of locations traveled and travel time, (ii) trip level, which focuses on comparing trips as whole units using transition probabilities, and (iii) activity chain level, which examines the sequence of locations visited by individuals. Our work covers several proprietary and open-source LLMs, revealing that open-source base models like Llama-2, when fine-tuned on even a limited amount of actual data, can generate synthetic data that closely mimics the actual travel survey data, and as such provides an argument for using such data in mobility studies. | 翻訳日:2024-09-08 15:31:02 公開日:2024-08-22 |
# FIDAVL:視覚言語モデルを用いたフェイク画像の検出と帰属
FIDAVL: Fake Image Detection and Attribution using Vision-Language Model ( http://arxiv.org/abs/2409.03109v1 ) ライセンス: Link先を確認 | Mamadou Keita, Wassim Hamidouche, Hessen Bougueffa Eutamene, Abdelmalik Taleb-Ahmed, Abdenour Hadid, | (参考訳) 視覚言語モデルを用いたFIDAVL: Fake Image Detection and Attributionを紹介する。
FIDAVLは、視覚と言語処理の相乗効果に触発された、新規で効率的なマルチタスクアプローチである。
ゼロショット学習の利点を活用して、FIDAVLは視覚と言語間の相補性を利用して、偽画像を検出し、それらが起源のソースモデルに正確に関連付けるソフトなプロンプトチューニング戦略を使用する。
我々は,様々な最先端モデルから生成された合成画像からなる包括的データセットについて広範な実験を行った。
その結果,FIDAVLの平均検出精度は95.42%,F1スコアは95.47%であり,F1スコアは92.64%,ROUGE-Lスコアは96.50%であった。
この作業のソースコードはhttps://github.com/Mamadou-Keita/FIDAVL.comで公開される。
We introduce FIDAVL: Fake Image Detection and Attribution using a Vision-Language Model. FIDAVL is a novel and efficient mul-titask approach inspired by the synergies between vision and language processing. Leveraging the benefits of zero-shot learning, FIDAVL exploits the complementarity between vision and language along with soft prompt-tuning strategy to detect fake images and accurately attribute them to their originating source models. We conducted extensive experiments on a comprehensive dataset comprising synthetic images generated by various state-of-the-art models. Our results demonstrate that FIDAVL achieves an encouraging average detection accuracy of 95.42% and F1-score of 95.47% while also obtaining noteworthy performance metrics, with an average F1-score of 92.64% and ROUGE-L score of 96.50% for attributing synthetic images to their respective source generation models. The source code of this work will be publicly released at https://github.com/Mamadou-Keita/FIDAVL. | 翻訳日:2024-09-08 14:53:30 公開日:2024-08-22 |
# 条件拡散モデルを用いた3次元光子計数CT画像超解像
3D Photon Counting CT Image Super-Resolution Using Conditional Diffusion Model ( http://arxiv.org/abs/2408.15283v1 ) ライセンス: Link先を確認 | Chuang Niu, Christopher Wiedeman, Mengzhou Li, Jonathan S Maltz, Ge Wang, | (参考訳) 本研究の目的は、拡散確率モデル(DDPM)を用いて、光子計数CT(PCCT)画像の解像度を改善することである。
DDPMは様々なコンピュータビジョンタスクに適用した場合に優れた性能を示すが、その効果は高次元CT超解像への変換には至っていない。
DDPMを条件付きサンプリング方式で訓練するために,我々はまずCatSimを利用して,高分解能CTスキャンから現実的な低分解能PCCT画像をシミュレートする。
DDPM性能の最大化は、特に高次元PCCTデータにおいて、推論とトレーニングの両方に時間を要するため、条件付きDDPMのための2Dネットワークと3Dネットワークの両方を探索し、トレーニングを加速する手法を適用する。
特に,3次元タスクを効率的な2次元DDPMに分解し,3次元の2次元結果を相乗化して最終的な3次元予測を行う逆拡散過程におけるジョイント2次元推論を設計する。
実験の結果, DDPMは高周波数構造回復における基準基準モデルよりも優れた結果が得られ, 現実的なシミュレーションとDDPMに基づくフレームワークはPCCTの分解能の向上を約束することを示した。
This study aims to improve photon counting CT (PCCT) image resolution using denoising diffusion probabilistic models (DDPM). Although DDPMs have shown superior performance when applied to various computer vision tasks, their effectiveness has yet to be translated to high dimensional CT super-resolution. To train DDPMs in a conditional sampling manner, we first leverage CatSim to simulate realistic lower resolution PCCT images from high-resolution CT scans. Since maximizing DDPM performance is time-consuming for both inference and training, especially on high-dimensional PCCT data, we explore both 2D and 3D networks for conditional DDPM and apply methods to accelerate training. In particular, we decompose the 3D task into efficient 2D DDPMs and design a joint 2D inference in the reverse diffusion process that synergizes 2D results of all three dimensions to make the final 3D prediction. Experimental results show that our DDPM achieves improved results versus baseline reference models in recovering high-frequency structures, suggesting that a framework based on realistic simulation and DDPM shows promise for improving PCCT resolution. | 翻訳日:2024-08-29 18:22:33 公開日:2024-08-22 |
# 学習・学習環境分析のためのマルチモーダル手法:体系的文献レビュー
Multimodal Methods for Analyzing Learning and Training Environments: A Systematic Literature Review ( http://arxiv.org/abs/2408.14491v1 ) ライセンス: Link先を確認 | Clayton Cohn, Eduardo Davalos, Caleb Vatral, Joyce Horn Fonteles, Hanchen David Wang, Meiyi Ma, Gautam Biswas, | (参考訳) 最近の技術進歩により、学習やトレーニング経験をよりよく知るために、豊富なマルチモーダルデータ(音声、ビデオ、視線など)を収集、分析する能力が強化された。
これまでのレビューでは、マルチモーダルパイプラインの一部(概念モデルやデータ融合など)に焦点が当てられていたが、マルチモーダル学習や学習環境を規定する手法に関する包括的な文献レビューは行われていない。
本稿では,これらの環境における研究手法を詳細に分析し,この分野における最近の方法論的進歩を包括する分類と枠組みを提案し,自然言語,ビデオ,センサ,人間中心,環境ログという5つのモダリティ群の観点からマルチモーダル領域を特徴付ける。
我々は,新たなデータ融合カテゴリであるMid fusionを導入し,文献レビューを精査するグラフベースの手法を引用グラフプルーニングと呼ぶ。
分析の結果,複数のモダリティを活用することで,学習者と学習者の行動や成果をより包括的に理解することができることがわかった。
マルチモーダリティは予測精度を向上しないが、文脈化と非モーダルデータの解明を行うパターンをしばしば発見し、単一のモーダリティが見逃す可能性のある微妙さを明らかにしている。
しかし、マルチモーダル学習とトレーニング研究と基礎的AI研究のギャップを埋めるためには、さらなる研究が必要である。
Recent technological advancements have enhanced our ability to collect and analyze rich multimodal data (e.g., speech, video, and eye gaze) to better inform learning and training experiences. While previous reviews have focused on parts of the multimodal pipeline (e.g., conceptual models and data fusion), a comprehensive literature review on the methods informing multimodal learning and training environments has not been conducted. This literature review provides an in-depth analysis of research methods in these environments, proposing a taxonomy and framework that encapsulates recent methodological advances in this field and characterizes the multimodal domain in terms of five modality groups: Natural Language, Video, Sensors, Human-Centered, and Environment Logs. We introduce a novel data fusion category -- mid fusion -- and a graph-based technique for refining literature reviews, termed citation graph pruning. Our analysis reveals that leveraging multiple modalities offers a more holistic understanding of the behaviors and outcomes of learners and trainees. Even when multimodality does not enhance predictive accuracy, it often uncovers patterns that contextualize and elucidate unimodal data, revealing subtleties that a single modality may miss. However, there remains a need for further research to bridge the divide between multimodal learning and training studies and foundational AI research. | 翻訳日:2024-08-28 18:11:54 公開日:2024-08-22 |
# 隠れたリスク:NFTメタデータの中央集権化と市場にとって何を意味するか
Hidden Risks: The Centralization of NFT Metadata and What It Means for the Market ( http://arxiv.org/abs/2408.13281v1 ) ライセンス: Link先を確認 | Hamza Salem, Manuel Mazzara, | (参考訳) 非ファンジブルトークン(NFT)市場の急速な拡大は、アーティスト、コレクター、投資家に新たな機会をもたらしたが、関連するメタデータの保存と配布に関する重要な課題も明らかにした。
本稿では,NFTメタデータストレージの現在の状況について考察し,デジタル資産の完全性,セキュリティ,分散化にリスクをもたらす集中型プラットフォームに大きく依存していることを明らかにする。
OpenSeaマーケットプレースのトップセラーNTTの詳細な分析により、メタデータのかなりの部分が集中型サーバにホストされており、検閲やデータ侵害、管理上の変更の影響を受けやすいことが判明した。
逆に、分散ストレージソリューション、特にIPFS(InterPlanetary File System)は、よりセキュアでレジリエントな代替品として認識され、透明性の強化、改ざんに対する抵抗、クリエーターやコレクターのコントロールの強化を提供する。
本研究は,NFTの価値と信頼性を維持する手段として,デジタルシグネチャを取り入れた分散ストレージアーキテクチャの普及を提唱する。
NFTの長期的な持続可能性と整合性を確保するために、NFTプラットフォームが分散した方法論を優先する必要があることを明らかにする。
The rapid expansion of the non-fungible token (NFT) market has catalyzed new opportunities for artists, collectors, and investors, yet it has also unveiled critical challenges related to the storage and distribution of associated metadata. This paper examines the current landscape of NFT metadata storage, revealing a significant reliance on centralized platforms, which poses risks to the integrity, security, and decentralization of these digital assets. Through a detailed analysis of top-selling NFTs on the OpenSea marketplace, it was found that a substantial portion of metadata is hosted on centralized servers, making them susceptible to censorship, data breaches, and administrative alterations. Conversely, decentralized storage solutions, particularly the InterPlanetary File System (IPFS), were identified as a more secure and resilient alternative, offering enhanced transparency, resistance to tampering, and greater control for creators and collectors. This study advocates for the widespread adoption of decentralized storage architectures, incorporating digital signatures to verify ownership, as a means to preserve the value and trustworthiness of NFTs in an increasingly digital world. The findings underscore the necessity for NFT platforms to prioritize decentralized methodologies to ensure the long-term sustainability and integrity of the NFT | 翻訳日:2024-08-27 20:20:40 公開日:2024-08-22 |
# 放射線医学報告から画像ラベルへ: オルソペック・ラジオグラフィー分類のためのトレーニングニューラルネットワークにおける潜在ディリクレ配置の評価
From Radiologist Report to Image Label: Assessing Latent Dirichlet Allocation in Training Neural Networks for Orthopedic Radiograph Classification ( http://arxiv.org/abs/2408.13284v1 ) ライセンス: Link先を確認 | Jakub Olczak, Max Gordon, | (参考訳) 背景:X線撮影は整形外科において支配的なモダリティであり,X線画像の解釈を改善することは臨床的に重要である。
機械学習(ML)はデータ分析に革命をもたらし、自然言語処理(NLP)とニューラルネットワーク(ANN)という形で医学に応用されてきた。
遅延ディリクレ割り当て(LDA)は、自動的に文書をトピックに分類するNLP手法である。
整形ラジオグラフィーにMLを適用することに成功すれば、クリニックで使用するコンピュータ支援決定システムの作成が可能になる。
自動MLパイプラインは, 整形外科的外傷のX線写真から, どのように分類できるかを検討した。
方法: スウェーデンのDanderyd病院で2002年から2015年にかけて撮影されたリストと足首のX線写真。
LDAは、放射線学者の報告から放射線写真用の画像ラベルを作成するために使われた。
ラジオグラフィーとラベルは、画像認識ANNの訓練に使用された。
ANNの結果を手作業でレビューし、その方法の有用性と精度を正確に見積もった。
結果: LDAで生成された画像ラベルは、ANNのトレーニングに成功しました。
ANNは、レーベルによって、ゴールド・スタンダードに比べて91%から60%の精度に達した。
結論: LDAは, 高い精度で, 整形外科的X線写真に適合しないことが明らかとなった。
しかし、それにもかかわらず、ANNは高い精度でラジオグラフィーのいくつかの特徴を検出することを学べる。
この研究は、MLとANNが医学研究にどのように応用できるかも示している。
Background: Radiography (X-rays) is the dominant modality in orthopedics, and improving the interpretation of radiographs is clinically relevant. Machine learning (ML) has revolutionized data analysis and has been applied to medicine, with some success, in the form of natural language processing (NLP) and artificial neural networks (ANN). Latent Dirichlet allocation (LDA) is an NLP method that automatically categorizes documents into topics. Successfully applying ML to orthopedic radiography could enable the creation of computer-aided decision systems for use in the clinic. We studied how an automated ML pipeline could classify orthopedic trauma radiographs from radiologist reports. Methods: Wrist and ankle radiographs from Danderyd Hospital in Sweden taken between 2002 and 2015, with radiologist reports. LDA was used to create image labels for radiographs from the radiologist reports. Radiographs and labels were used to train an image recognition ANN. The ANN outcomes were manually reviewed to get an accurate estimate of the method's utility and accuracy. Results: Image Labels generated via LDA could successfully train the ANN. The ANN reached an accuracy between 91% and 60% compared to a gold standard, depending on the label. Conclusions: We found that LDA was unsuited to label orthopedic radiographs from reports with high accuracy. However, despite this, the ANN could learn to detect some features in radiographs with high accuracy. The study also illustrates how ML and ANN can be applied to medical research. | 翻訳日:2024-08-27 20:08:51 公開日:2024-08-22 |
# 不確実なオラクルを用いた解釈可能なモデル学習
Learning Interpretable Models Using Uncertainty Oracles ( http://arxiv.org/abs/1906.06852v6 ) ライセンス: Link先を確認 | Abhishek Ghose, Balaraman Ravindran, | (参考訳) 解釈可能なモデルの望ましい性質は、人間によって容易に理解できるように、小さなサイズである。
これは次の課題に繋がる。
a) 小型の場合、通常精度が低下し、
b) モデルファミリーがサイズを制限するため,例えば,L1正則化等のベスポークレバーは,所望の大きさ精度のトレードオフに達するには不十分である。
ここではこれらの課題に対処する。
以前の研究は、トレーニング分布の学習が正確な小さなモデルを生成することを示した。
私たちの貢献は、このアイデアを活用する新しいテクニックです。
トレーニングディストリビューションはDirichlet Processとしてエンコードされ、データから学習可能なフレキシブルなモードの数を可能にする。
そのパラメータはベイズ最適化 (Bayesian Optimization) を用いて学習される。
高次元の課題を避けるために、データはまず別の確率モデルの不確実性スコアを用いて1次元まで投影される。
この手法が上記の課題に対処していることが示されています。
(a)モデルの縮小から生じる精度の低下(場合によっては、ベースラインよりも$\sim 100\%$の改善を観察する)を逮捕する。
決定木、線形確率モデル、勾配ブーストモデルで結果が示されます。
さらに,(1)前者よりも精度が高いこと,(2)実際に設定するハイパーパラメータが1つ必要であること,(3)木の大きさの最大深さと木数の両方をグラディエントブーストモデルで許容すること,(4)不確実性オラクルと解釈可能なモデルとの間の異なる特徴空間を横断すること,(3)GRUがn-gramを摂取する決定ツリーのオラクルとして機能すること,などが示される。
A desirable property of interpretable models is small size, so that they are easily understandable by humans. This leads to the following challenges: (a) small sizes typically imply diminished accuracy, and (b) bespoke levers provided by model families to restrict size, e.g., L1 regularization, might be insufficient to reach the desired size-accuracy trade-off. We address these challenges here. Earlier work has shown that learning the training distribution creates accurate small models. Our contribution is a new technique that exploits this idea. The training distribution is encoded as a Dirichlet Process to allow for a flexible number of modes that is learnable from the data. Its parameters are learned using Bayesian Optimization; a design choice that makes the technique applicable to non-differentiable loss functions. To avoid the challenges with high dimensionality, the data is first projected down to one-dimension using uncertainty scores of a separate probabilistic model, that we refer to as the uncertainty oracle. We show that this technique addresses the above challenges: (a) it arrests the reduction in accuracy that comes from shrinking a model (in some cases we observe $\sim 100\%$ improvement over baselines), and also, (b) that this maybe applied with no change across model families with different notions of size; results are shown for Decision Trees, Linear Probability models and Gradient Boosted Models. Additionally, we show that (1) it is more accurate than its predecessor, (2) requires only one hyperparameter to be set in practice, (3) accommodates a multi-variate notion of model size, e.g., both maximum depth of a tree and number of trees in Gradient Boosted Models, and (4) works across different feature spaces between the uncertainty oracle and the interpretable model, e.g., a GRU might act as an oracle for a decision tree that ingests n-grams. | 翻訳日:2024-08-26 20:34:38 公開日:2024-08-22 |
# $\mathrm{SL}_n(\mathbb{F}_p)$ を用いた後量子ハッシュ関数
Post-quantum hash functions using $\mathrm{SL}_n(\mathbb{F}_p)$ ( http://arxiv.org/abs/2207.03987v3 ) ライセンス: Link先を確認 | Corentin Le Coz, Christopher Battarbee, Ramón Flores, Thomas Koberda, Delaram Kahrobaei, | (参考訳) 我々は、有限体上の高次元特殊線型群を台として、ティリッヒ-Z'emorハッシュ関数の新しい族を定義する。
これらの群のケイリーグラフは、高速な混合特性と高いガースを結合し、それらが相まって、対応するハッシュ関数の優れた前像と衝突抵抗をもたらす。
得られたハッシュ関数が量子後安全であるという主張を正当化する。
We define new families of Tillich-Z\'emor hash functions, using higher dimensional special linear groups over finite fields as platforms. The Cayley graphs of these groups combine fast mixing properties and high girth, which together give rise to good preimage and collision resistance of the corresponding hash functions. We justify the claim that the resulting hash functions are post-quantum secure. | 翻訳日:2024-08-26 20:34:38 公開日:2024-08-22 |
# RNAフォールディング、スピングラス、量子回路の変異ロバスト性に関する確率論的遺伝子型フェノタイプマップ
Probabilistic Genotype-Phenotype Maps Reveal Mutational Robustness of RNA Folding, Spin Glasses, and Quantum Circuits ( http://arxiv.org/abs/2301.01847v2 ) ライセンス: Link先を確認 | Anna Sappington, Vaibhav Mohanty, | (参考訳) 遺伝子型フェノタイプ(GP)マップの最近の研究は、進化に不可欠な特徴である遺伝子型変異に対する表現型的堅牢性を普遍的に強化したことを報告している。
これらの研究の全ては、それぞれの遺伝子型(シーケンスとして表される)が、離散構造のような単一の表現型に決定論的に写像するという仮定を単純化する。
ここでは,各遺伝子型が表現型確率ベクトルにマップされる確率的遺伝子型フェノタイプ (PrGP) マップを,様々な物理的,生物学的,計算系の堅牢性を調べるための,より現実的で普遍的な言語として紹介する。
PrGPマップは,(1)RNAの折り畳みにおける熱ゆらぎ,(2)スピンガラスの基底状態検出における外界障害,(3)量子回路における重畳と絡み合いなど,様々な物理源から生じる不確実性に対処可能な一般化されたフレームワークを提供することを示す。
いずれの場合も,より頻繁な表現型に対するランダムな予測に対して拡張され,より頻繁な表現型に対するランダムな予測にアプローチする新しい二相性ロバスト性スケーリングが観察される。
PrGPロバストネスの挙動に関する解析理論を導出し、この理論が経験的ロバストネスの予測性が高いことを示す。
Recent studies of genotype-phenotype (GP) maps have reported universally enhanced phenotypic robustness to genotype mutations, a feature essential to evolution. Virtually all of these studies make a simplifying assumption that each genotype -- represented as a sequence -- maps deterministically to a single phenotype, such as a discrete structure. Here, we introduce probabilistic genotype-phenotype (PrGP) maps, where each genotype maps to a vector of phenotype probabilities, as a more realistic and universal language for investigating robustness in a variety of physical, biological, and computational systems. We study three model systems to show that PrGP maps offer a generalized framework which can handle uncertainty emerging from various physical sources: (1) thermal fluctuation in RNA folding, (2) external field disorder in spin glass ground state finding, and (3) superposition and entanglement in quantum circuits, which are realized experimentally on IBM quantum computers. In all three cases, we observe a novel biphasic robustness scaling which is enhanced relative to random expectation for more frequent phenotypes and approaches random expectation for less frequent phenotypes. We derive an analytical theory for the behavior of PrGP robustness, and we demonstrate that the theory is highly predictive of empirical robustness. | 翻訳日:2024-08-26 20:34:38 公開日:2024-08-22 |
# 時間依存型ブラックウェルアプローチと吸収ゲームへの応用
Time-Dependent Blackwell Approachability and Application to Absorbing Games ( http://arxiv.org/abs/2303.04956v2 ) ライセンス: Link先を確認 | Joon Kwon, Yijun Wan, Bruno Ziliotto, | (参考訳) Blackwell's approachability (Blackwell, 1954, 1956) は、決定因子がベクトル値の結果を得る、非常に一般的なオンライン学習フレームワークであり、与えられた 'target' 集合への平均結果の収束を目指している。
ブラックウェルは、敵の環境に対してそのような収束を保証する戦略と、現在ブラックウェルのアルゴリズムと呼ばれるものを持ち、収束を保証する戦略を持つ意思決定者に十分な条件を与えた。
ブラックウェルのアプローチ性はその後、後悔の最小化やゲーム理論など多くの問題に適用された。
結果関数と内部積を時間依存にすることで、このフレームワークを拡張します。
我々は、ブラックウェルのアルゴリズムのこのフレームワークへの自然な拡張に対する一般的な保証を確立する。
対象集合がオルサントである場合、平均結果の座標ごとに異なる収束速度が得られる時間依存内積の族を示す。
我々はこの枠組みを,ブラックウェルのアルゴリズムを用いたゲーム(確率ゲームの重要なクラス)の吸収に適用し,ゲーム解決におけるオンライン学習ツールの関連性を示す。
Blackwell's approachability (Blackwell, 1954, 1956) is a very general online learning framework where a Decision Maker obtains vector-valued outcomes, and aims at the convergence of the average outcome to a given ``target'' set. Blackwell gave a sufficient condition for the decision maker having a strategy guaranteeing such a convergence against an adversarial environment, as well as what we now call the Blackwell's algorithm, which then ensures convergence. Blackwell's approachability has since been applied to numerous problems, in regret minimization and game theory, in particular. We extend this framework by allowing the outcome function and the inner product to be time-dependent. We establish a general guarantee for the natural extension to this framework of Blackwell's algorithm. In the case where the target set is an orthant, we present a family of time-dependent inner products which yields different convergence speeds for each coordinate of the average outcome. We apply this framework to absorbing games (an important class of stochastic games) for which we construct $\varepsilon$-uniformly optimal strategies using Blackwell's algorithm in a well-chosen auxiliary approachability problem, thereby giving a novel illustration of the relevance of online learning tools for solving games. | 翻訳日:2024-08-26 20:34:38 公開日:2024-08-22 |
# 重み正規化によるロバスト入射規則化
Robust Implicit Regularization via Weight Normalization ( http://arxiv.org/abs/2305.05448v4 ) ライセンス: Link先を確認 | Hung-Hsu Chou, Holger Rauhut, Rachel Ward, | (参考訳) 過度パラメータ化モデルは多くの補間解を持ち、暗黙の正規化は、多くの間の補間解に対する特定の最適化手法の隠れた選好を指す。
現在確立されている研究のラインでは、勾配勾配の勾配は、深い線形ネットワークのトレーニングに使用する場合、低ランクやスパース解に対して暗黙の偏りを持つ傾向にあり、なぜ勾配勾配の勾配で訓練された過度パラメータ化されたニューラルネットワークモデルが実際に良い一般化性能を持つのかを説明している。
しかし、既存の2乗対象の理論は、しばしば訓練可能な重みの非常に小さな初期化を必要とするが、これは、より高速な収束とより優れた一般化性能のために、重みが実際に初期化される大きなスケールに反する。
本稿では, 重みベクトルを極座標で再パラメータ化し, 勾配流を極座標で適用することにより, 勾配流(連続時間勾配降下法)を重み正規化することにより, このギャップを埋めることを目的とする。
勾配流の鍵不変量の解析とロジャシエヴィチ理論を用いて、対角線モデルにおけるスパース解に対して重み正規化は暗黙の偏りを持つが、平らな勾配流とは対照的に、重み正規化は重みが実際に大規模に初期化されても頑健な偏りを持続することを示す。
実験により, 過パラメータ化対角線形ネットワークモデルにおける重み正規化を用いて, 収束速度と暗黙バイアスの頑健性の両方の利得を劇的に改善することが示唆された。
Overparameterized models may have many interpolating solutions; implicit regularization refers to the hidden preference of a particular optimization method towards a certain interpolating solution among the many. A by now established line of work has shown that (stochastic) gradient descent tends to have an implicit bias towards low rank and/or sparse solutions when used to train deep linear networks, explaining to some extent why overparameterized neural network models trained by gradient descent tend to have good generalization performance in practice. However, existing theory for square-loss objectives often requires very small initialization of the trainable weights, which is at odds with the larger scale at which weights are initialized in practice for faster convergence and better generalization performance. In this paper, we aim to close this gap by incorporating and analyzing gradient flow (continuous-time version of gradient descent) with weight normalization, where the weight vector is reparameterized in terms of polar coordinates, and gradient flow is applied to the polar coordinates. By analyzing key invariants of the gradient flow and using Lojasiewicz Theorem, we show that weight normalization also has an implicit bias towards sparse solutions in the diagonal linear model, but that in contrast to plain gradient flow, weight normalization enables a robust bias that persists even if the weights are initialized at practically large scale. Experiments suggest that the gains in both convergence speed and robustness of the implicit bias are improved dramatically by using weight normalization in overparameterized diagonal linear network models. | 翻訳日:2024-08-26 20:28:29 公開日:2024-08-22 |
# チュートリアル:オープン量子系に対するマスター方程式への射影的アプローチ
Tutorial: projector approach to master equations for open quantum systems ( http://arxiv.org/abs/2305.19704v3 ) ライセンス: Link先を確認 | C. Gonzalez-Ballestero, | (参考訳) ほとんどの量子理論家は、ボルン・マルコフのマスター方程式や断熱的除去など、外部自由度と結合したシステムの効果的な量子力学を記述する様々な方法に精通している。
これらのメソッド間の深い関係を理解することは強力なツールであり、非伝統的なシステムやレシエーションにおける効果的なダイナミクスを導出することができます。
このチュートリアルは、複数の分野(例えば、量子光学、原子光学、光力学、ハイブリッド量子システム)にわたる量子論者に対して、N-$レベルエミッタから機械共振器に至るまでのシステムに適用可能な、効果的な量子力学を導出するための自己完結した実用的なツールボックスを提供することを目的としている。
まず、オープン量子系へのプロジェクターアプローチと、基本的な中島-ズワンツィヒ方程式の導出を要約する。
次に, ブラウン方程式, ボルン・マルコフ方程式, 原子・分子光学における断熱除去の3つの共通効用方程式が, 中島・ズワンツィヒ方程式の異なる摂動膨張から導出されることを示す。
また, このフォーマリズムを用いた4つの具体例, 変位雑音を考慮した高調波発振器, 光学キャビティによって冷却された機械共振器の有効方程式, 光学キャビティに結合したキュービットのパーセル効果, Lambdaシステムにおける断熱除去について述べる。
Most quantum theorists are familiar with different ways of describing the effective quantum dynamics of a system coupled to external degrees of freedom, such as the Born-Markov master equation or the adiabatic elimination. Understanding the deep connection between these -- sometimes apparently unrelated -- methods can be a powerful tool, allowing us to derive effective dynamics in unconventional systems or regimes. This tutorial aims at providing quantum theorists across multiple fields (e.g., quantum and atom optics, optomechanics, or hybrid quantum systems) with a self-contained practical toolbox to derive effective quantum dynamics, applicable to systems ranging from $N-$level emitters to mechanical resonators. First, we summarize the projector approach to open quantum systems and the derivation of the fundamental Nakajima-Zwanzig equation. Then, we show how three common effective equations, namely the Brownian master equation, the Born-Markov master equation, and the adiabatic elimination used in atom and molecular optics, can be derived from different perturbative expansions of the Nakajima-Zwanzig equation. We also solve in detail four specific examples using this formalism, namely a harmonic oscillator subject to displacement noise, the effective equations of a mechanical resonator cooled by an optical cavity, the Purcell effect for a qubit coupled to an optical cavity, and the adiabatic elimination in a Lambda system. | 翻訳日:2024-08-26 20:28:29 公開日:2024-08-22 |
# 拡散モデルにおける幾何学的視点
A Geometric Perspective on Diffusion Models ( http://arxiv.org/abs/2305.19947v3 ) ライセンス: Link先を確認 | Defang Chen, Zhenyu Zhou, Jian-Ping Mei, Chunhua Shen, Chun Chen, Can Wang, | (参考訳) 近年、拡散モデルのための効果的なトレーニングと高速サンプリング技術の開発が著しい進歩を見せている。
顕著な進歩は、確率微分方程式(SDE)とその境界保存常微分方程式(ODE)を用いて、統一された枠組みでデータ摂動と生成モデリングを記述することである。
本稿では,広く普及している分散露光SDEのODEに基づくサンプリングを慎重に検討し,そのサンプリングダイナミクスの興味深い構造を明らかにした。
我々は,データ分布と雑音分布が,より高速に収束する擬似線形サンプリング軌道と暗黙的デノイング軌道と円滑に結合していることを発見した。
一方、デノナイジング軌道は、対応するサンプリング軌道の曲率を制御し、その有限差分は、実際に使用される様々な2階サンプリング器を生成する。
さらに、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立し、拡散モデルの漸近的挙動を特徴づけ、経験的スコア偏差を識別する。
コードは \url{https://github.com/zju-pi/diff-sampler} で公開されている。
Recent years have witnessed significant progress in developing effective training and fast sampling techniques for diffusion models. A remarkable advancement is the use of stochastic differential equations (SDEs) and their marginal-preserving ordinary differential equations (ODEs) to describe data perturbation and generative modeling in a unified framework. In this paper, we carefully inspect the ODE-based sampling of a popular variance-exploding SDE and reveal several intriguing structures of its sampling dynamics. We discover that the data distribution and the noise distribution are smoothly connected with a quasi-linear sampling trajectory and another implicit denoising trajectory that even converges faster. Meanwhile, the denoising trajectory governs the curvature of the corresponding sampling trajectory and its finite differences yield various second-order samplers used in practice. Furthermore, we establish a theoretical relationship between the optimal ODE-based sampling and the classic mean-shift (mode-seeking) algorithm, with which we can characterize the asymptotic behavior of diffusion models and identify the empirical score deviation. Code is available at \url{https://github.com/zju-pi/diff-sampler}. | 翻訳日:2024-08-26 20:28:29 公開日:2024-08-22 |
# 一般リンドブラディアンによるオープン量子系における$\hbar\to 0$制限:消音はエレンフェスト時間を超えて古典性を保証する
The $\hbar\to 0$ limit of open quantum systems with general Lindbladians: vanishing noise ensures classicality beyond the Ehrenfest time ( http://arxiv.org/abs/2307.05326v2 ) ライセンス: Link先を確認 | Felipe Hernández, Daniel Ranard, C. Jess Riedel, | (参考訳) 同じ形式ハミルトニアン$H$の下で進化する量子系と古典系は、Ehrenfest timescale $t_E \sim \log(\hbar^{-1})$の後に劇的に異なる振る舞いを示すかもしれない。
システムをマルコフ環境に結合すると、量子進化のためのリンドブラッド方程式が得られる。
その古典的対向は位相空間上のフォッカー・プランク方程式によって与えられ、摩擦と拡散ノイズを伴うハミルトン流を記述する。
量子的および古典的進化はウィグナー・ワイル表現を通して比較することができる。
デコヒーレンスにより、それらはエレンフェストの時間スケールを超えて、$\hbar \to 0$と密接に一致すると推測される。
十分に正則なハミルトニアン$H(x,p)$とリンドブラッド函数$L_k(x,p)$の量子的および古典的進化の間の誤差を有界に証明する。
この誤差は、リンドブラッド関数に付随する拡散$D$の強さが$D \gg \hbar^{4/3}$を満たすとき、特に古典的極限における消音を許容するときに小さい。
我々は、局所調和近似からリンドブラッド力学へ進化する可変圧縮ガウス状態の時間依存半古典混合を用いる。
正確な量子軌道とその古典的軌道は、この半古典混合の摂動として表すことができ、誤りはデュハメルの原理によって境界づけられる。
我々は4/3$指数が最適であることを示唆し、漸近的に弱い拡散がエレンフェストの時間スケールでの量子-古典対応の分解を可能にするという意味で境界を定義する。
私たちのプレゼンテーションは、数学者と物理学者の両方が包括的でアクセスしやすくすることを目的としています。
短い共役論文では、$H=p^2/(2m) + V(x)$と線型リンドブラッド作用素という形のハミルトン多様体の特別な場合を扱う。
Quantum and classical systems evolving under the same formal Hamiltonian $H$ may exhibit dramatically different behavior after the Ehrenfest timescale $t_E \sim \log(\hbar^{-1})$, even as $\hbar \to 0$. Coupling the system to a Markovian environment results in a Lindblad equation for the quantum evolution. Its classical counterpart is given by the Fokker-Planck equation on phase space, which describes Hamiltonian flow with friction and diffusive noise. The quantum and classical evolutions may be compared via the Wigner-Weyl representation. Due to decoherence, they are conjectured to match closely for times far beyond the Ehrenfest timescale as $\hbar \to 0$. We prove a version of this correspondence, bounding the error between the quantum and classical evolutions for any sufficiently regular Hamiltonian $H(x,p)$ and Lindblad functions $L_k(x,p)$. The error is small when the strength of the diffusion $D$ associated to the Lindblad functions satisfies $D \gg \hbar^{4/3}$, in particular allowing vanishing noise in the classical limit. We use a time-dependent semiclassical mixture of variably squeezed Gaussian states evolving by a local harmonic approximation to the Lindblad dynamics. Both the exact quantum trajectory and its classical counterpart can be expressed as perturbations of this semiclassical mixture, with the errors bounded using Duhamel's principle. We present heuristic arguments suggesting the $4/3$ exponent is optimal and defines a boundary in the sense that asymptotically weaker diffusion permits a breakdown of quantum-classical correspondence at the Ehrenfest timescale. Our presentation aims to be comprehensive and accessible to both mathematicians and physicists. In a shorter companion paper, we treat the special case of Hamiltonians of the form $H=p^2/(2m) + V(x)$ and linear Lindblad operators, with explicit bounds that can be applied directly to physical systems. | 翻訳日:2024-08-26 20:28:29 公開日:2024-08-22 |
# 悪騒音に対するフェアネス制約学習の脆弱性について
On the Vulnerability of Fairness Constrained Learning to Malicious Noise ( http://arxiv.org/abs/2307.11892v3 ) ライセンス: Link先を確認 | Avrim Blum, Princewill Okoroafor, Aadirupa Saha, Kevin Stangl, | (参考訳) トレーニングデータにおいて、公平性に制約された学習の脆弱性を少数の悪意のある雑音に対して考慮する。
Konstantinov and Lampert (2021) はこの問題の研究を開始し、いくつかの公正性制約が存在することを示す否定的な結果を示した。
ここでは、より楽観的な見解を示し、ランダム化分類器を許すと、風景はより微妙になることを示す。
例えば、Demographic Parityでは、$\Theta(\alpha)$の精度の損失しか発生できません。
Equal Opportunity に対して、$O(\sqrt{\alpha})$ロスを発生させ、一致する $Omega(\sqrt{\alpha})$lower bound を与える。
対照的に、Konstantinov と Lampert (2021) は、適切な学習者に対して、両方の概念の精度の損失は$\Omega(1)$であることを示した。
私たちの研究の重要な技術的ノベルティは、ランダム化が、敵が自分の力を増幅するために使える単純な「トリック」をバイパスする方法である。
また、等化オッドや校正など、さらなる公平性の概念も検討する。
これらの公平性の概念に対して、過剰な精度のクラスターは3つの自然界に$O(\alpha)$,$O(\sqrt{\alpha})$と$O(1)$である。
これらの結果は、訓練データにおける対向雑音に対する公平性に制約された学習の感度をよりきめ細かなビューを提供する。
We consider the vulnerability of fairness-constrained learning to small amounts of malicious noise in the training data. Konstantinov and Lampert (2021) initiated the study of this question and presented negative results showing there exist data distributions where for several fairness constraints, any proper learner will exhibit high vulnerability when group sizes are imbalanced. Here, we present a more optimistic view, showing that if we allow randomized classifiers, then the landscape is much more nuanced. For example, for Demographic Parity we show we can incur only a $\Theta(\alpha)$ loss in accuracy, where $\alpha$ is the malicious noise rate, matching the best possible even without fairness constraints. For Equal Opportunity, we show we can incur an $O(\sqrt{\alpha})$ loss, and give a matching $\Omega(\sqrt{\alpha})$lower bound. In contrast, Konstantinov and Lampert (2021) showed for proper learners the loss in accuracy for both notions is $\Omega(1)$. The key technical novelty of our work is how randomization can bypass simple "tricks" an adversary can use to amplify his power. We also consider additional fairness notions including Equalized Odds and Calibration. For these fairness notions, the excess accuracy clusters into three natural regimes $O(\alpha)$,$O(\sqrt{\alpha})$ and $O(1)$. These results provide a more fine-grained view of the sensitivity of fairness-constrained learning to adversarial noise in training data. | 翻訳日:2024-08-26 20:28:29 公開日:2024-08-22 |
# 脳波トランスモデルにおける概念に基づく説明可能性
Concept-based explainability for an EEG transformer model ( http://arxiv.org/abs/2307.12745v2 ) ライセンス: Link先を確認 | Anders Gjølbye, William Lehn-Schiøler, Áshildur Jónsdóttir, Bergdís Arnardóttir, Lars Kai Hansen, | (参考訳) ディープラーニングモデルは、トレーニング手順におけるサイズ、構造、および固有のランダム性のために複雑である。
追加の複雑さは、データセットの選択と帰納バイアスから生じる。
説明可能性に関するこれらの課題に対処するため、Kim et al (2018) は、深いモデルの内部状態を理解することを目的とした概念活性化ベクトル (Concept Activation Vectors, CAV) を導入した。
これらの概念は線形判別器を用いて同定された潜在空間の方向に対応する。
この手法はまず画像分類に適用されたが、後に自然言語処理を含む他の領域にも適用された。
本研究では,大規模な変圧器モデルであるKostas et al's BENDR (2021) の電気脳波(EEG)データに適用し,その説明可能性について検討する。
この取り組みの重要な部分は、説明的概念を定義し、関連するデータセットを選択して、潜在空間における概念を基礎にすることである。
我々は、外部ラベル付きEEGデータセットの使用と、解剖学的に定義された概念の適用という、2つのEEG概念形成のメカニズムに焦点を当てている。
前者のアプローチは画像分類で用いられる手法の直接的な一般化であり、後者は脳波に特有な新しい手法である。
両手法が深部脳波モデルで学習した表現に有意義な洞察を与える証拠を提示する。
Deep learning models are complex due to their size, structure, and inherent randomness in training procedures. Additional complexity arises from the selection of datasets and inductive biases. Addressing these challenges for explainability, Kim et al. (2018) introduced Concept Activation Vectors (CAVs), which aim to understand deep models' internal states in terms of human-aligned concepts. These concepts correspond to directions in latent space, identified using linear discriminants. Although this method was first applied to image classification, it was later adapted to other domains, including natural language processing. In this work, we attempt to apply the method to electroencephalogram (EEG) data for explainability in Kostas et al.'s BENDR (2021), a large-scale transformer model. A crucial part of this endeavor involves defining the explanatory concepts and selecting relevant datasets to ground concepts in the latent space. Our focus is on two mechanisms for EEG concept formation: the use of externally labeled EEG datasets, and the application of anatomically defined concepts. The former approach is a straightforward generalization of methods used in image classification, while the latter is novel and specific to EEG. We present evidence that both approaches to concept formation yield valuable insights into the representations learned by deep EEG models. | 翻訳日:2024-08-26 20:28:29 公開日:2024-08-22 |
# Shufflecake: Linux上の複数の隠れファイルシステムに対する可算性
Shufflecake: Plausible Deniability for Multiple Hidden Filesystems on Linux ( http://arxiv.org/abs/2310.04589v3 ) ライセンス: Link先を確認 | Elia Anzuoni, Tommaso Gagliardoni, | (参考訳) 本稿では,暗号化されたデータの存在を記憶媒体に隠蔽し,相手がそのようなデータの存在を証明するのを非常に困難にするための,新しい確実なデニビリティ設計であるShufflecakeを提案する。
ShufflecakeはTrueCryptやVeraCryptのようなツールの‘スピリチュアルな後継’と見なすことができるが、大幅に改善されている。
ORAMベースのソリューションと比較して、Shufflecakeは非常に高速でシンプルだが、マルチスナップショットの敵に対するネイティブな保護を提供していない。
しかし、アーキテクチャによって可能になったセキュリティ拡張について議論し、これらの拡張がより強力な敵を阻止するのに十分な理由を示す。
我々はShufflecakeをLinuxのカーネル内ツールとして実装し、便利な機能を追加した。
Shufflecakeは、抑圧的な当局や危険な犯罪組織によって表現の自由が脅かされている人々にとって有用なツールだと考えている。
We present Shufflecake, a new plausible deniability design to hide the existence of encrypted data on a storage medium making it very difficult for an adversary to prove the existence of such data. Shufflecake can be considered a ``spiritual successor'' of tools such as TrueCrypt and VeraCrypt, but vastly improved: it works natively on Linux, it supports any filesystem of choice, and can manage multiple volumes per device, so to make deniability of the existence of hidden partitions really plausible. Compared to ORAM-based solutions, Shufflecake is extremely fast and simpler but does not offer native protection against multi-snapshot adversaries. However, we discuss security extensions that are made possible by its architecture, and we show evidence why these extensions might be enough to thwart more powerful adversaries. We implemented Shufflecake as an in-kernel tool for Linux, adding useful features, and we benchmarked its performance showing only a minor slowdown compared to a base encrypted system. We believe Shufflecake represents a useful tool for people whose freedom of expression is threatened by repressive authorities or dangerous criminal organizations, in particular: whistleblowers, investigative journalists, and activists for human rights in oppressive regimes. | 翻訳日:2024-08-26 20:18:44 公開日:2024-08-22 |
# 変分量子アルゴリズムのための量子シャドウ勾配Descent
Quantum Shadow Gradient Descent for Variational Quantum Algorithms ( http://arxiv.org/abs/2310.06935v2 ) ライセンス: Link先を確認 | Mohsen Heidari, Mobasshir A Naved, Zahra Honjani, Wenbo Xie, Arjun Jacob Grama, Wojciech Szpankowski, | (参考訳) 量子ニューラルネットワーク(QNN)のような設定で変動量子回路をトレーニングするために、勾配に基づく最適化器が提案されている。
しかし、勾配推定の課題は、主に状態崩壊や測定の不整合性といった特異な量子的特徴のために、困難であることが証明されている。
パラメータシフト規則のような従来の手法は、状態測定の確率的性質に起因する勾配を推定するために、各イテレーションでいくつかの新しいサンプルを必要とする。
測定による状態崩壊により、その後の反復でサンプルを再利用できないことは、サンプル利用に対する根本的なより効率的なアプローチが存在するかどうかという決定的な調査の動機となっている。
本稿では,量子シャドウ勾配勾配法(QSGD)と呼ばれる新しい手法を用いて,1イテレーション毎に1つのサンプルを用いて勾配のすべての成分を推定することで,これらの効率向上の実現可能性を確認する。
提案手法は, 試料効率を大幅に向上させる影トモグラフィの適応に基づく。
より詳細な理論的解析により,QSGDは局所性条件下での既存手法よりもはるかに高速な収束速度を示す。
理論的な主張をすべて裏付ける詳細な数値実験について述べる。
Gradient-based optimizers have been proposed for training variational quantum circuits in settings such as quantum neural networks (QNNs). The task of gradient estimation, however, has proven to be challenging, primarily due to distinctive quantum features such as state collapse and measurement incompatibility. Conventional techniques, such as the parameter-shift rule, necessitate several fresh samples in each iteration to estimate the gradient due to the stochastic nature of state measurement. Owing to state collapse from measurement, the inability to reuse samples in subsequent iterations motivates a crucial inquiry into whether fundamentally more efficient approaches to sample utilization exist. In this paper, we affirm the feasibility of such efficiency enhancements through a novel procedure called quantum shadow gradient descent (QSGD), which uses a single sample per iteration to estimate all components of the gradient. Our approach is based on an adaptation of shadow tomography that significantly enhances sample efficiency. Through detailed theoretical analysis, we show that QSGD has a significantly faster convergence rate than existing methods under locality conditions. We present detailed numerical experiments supporting all of our theoretical claims. | 翻訳日:2024-08-26 20:18:44 公開日:2024-08-22 |
# SDGym:システムダイナミクスモデルを用いた低コード強化学習環境
SDGym: Low-Code Reinforcement Learning Environments using System Dynamics Models ( http://arxiv.org/abs/2310.12494v2 ) ライセンス: Link先を確認 | Emmanuel Klu, Sameer Sethi, DJ Passey, Donald Martin Jr, | (参考訳) 社会に対するアルゴリズム介入の長期的な影響を理解することは、責任あるAIを達成するために不可欠である。
伝統的な評価戦略は、しばしば社会の複雑で適応的で動的な性質のために不足する。
強化学習(RL)は動的設定における決定を最適化するための強力なアプローチであるが、現実的な環境設計の難しさは、実用的な設定でうまく機能する堅牢なエージェントを構築する上での障壁である。
この問題に対処するため、協調シミュレーションモデル仕様を取り入れた補完手法として、システムダイナミクス(SD)の分野に取り組みました。
SDシミュレーションモデルに基づくカスタムRL環境の生成を可能にする,OpenAI Gymフレームワーク上に構築されたローコードライブラリであるSDGymを紹介する。
実現可能性調査を通じて、既存のSDモデルと数行の構成コードから、明確に定義されたリッチなRL環境を生成できることを検証する。
本稿では,電気自動車導入問題のSDモデルを用いて,SDGym環境の性能を実証する。
我々は,PySDとBPTK-Pyの2つのSDシミュレータを比較し,Acmeフレームワークを用いてD4PGエージェントを訓練し,学習と環境相互作用を示す。
予備的な知見は,RL環境設計を改善するためのSDの2つの可能性と,SDモデル内の動的ポリシー発見を改善するためのRLの2つの可能性を強調した。
SDGymをオープンソースにすることで、さらなる研究を活性化し、SDおよびRLコミュニティにおける採用を促進することを目的としている。
Understanding the long-term impact of algorithmic interventions on society is vital to achieving responsible AI. Traditional evaluation strategies often fall short due to the complex, adaptive and dynamic nature of society. While reinforcement learning (RL) can be a powerful approach for optimizing decisions in dynamic settings, the difficulty of realistic environment design remains a barrier to building robust agents that perform well in practical settings. To address this issue we tap into the field of system dynamics (SD) as a complementary method that incorporates collaborative simulation model specification practices. We introduce SDGym, a low-code library built on the OpenAI Gym framework which enables the generation of custom RL environments based on SD simulation models. Through a feasibility study we validate that well specified, rich RL environments can be generated from preexisting SD models and a few lines of configuration code. We demonstrate the capabilities of the SDGym environment using an SD model of the electric vehicle adoption problem. We compare two SD simulators, PySD and BPTK-Py for parity, and train a D4PG agent using the Acme framework to showcase learning and environment interaction. Our preliminary findings underscore the dual potential of SD to improve RL environment design and for RL to improve dynamic policy discovery within SD models. By open-sourcing SDGym, the intent is to galvanize further research and promote adoption across the SD and RL communities, thereby catalyzing collaboration in this emerging interdisciplinary space. | 翻訳日:2024-08-26 20:18:44 公開日:2024-08-22 |
# パフォーマンスモデリングのための汎用プログラムとアーキテクチャ表現の学習
Learning Generalizable Program and Architecture Representations for Performance Modeling ( http://arxiv.org/abs/2310.16792v3 ) ライセンス: Link先を確認 | Lingda Li, Thomas Flynn, Adolfy Hoisie, | (参考訳) パフォーマンスモデリングは、性能評価/最適化、設計空間探索、リソース割り当て問題など、多くの分野で不可欠なツールである。
しかし、既存の性能モデリング手法には、離散イベントシミュレータの計算コストの高騰、ハードウェアエミュレータの柔軟性の狭さ、分析/データ駆動モデルの精度/汎用性の制限といった制限がある。
本稿では,高次元・独立・直交的プログラムとマイクロアーキテクチャ表現を学習する深層学習に基づくパフォーマンスモデリングフレームワークPerfVecを提案する。
学習したプログラム表現は、任意のマイクロアーキテクチャ上でのパフォーマンスを予測するために使用することができ、同様に、プログラムのパフォーマンス予測にもマイクロアーキテクチャ表現を適用することができる。
さらにPerfVecは、トレーニングコストを発生させることなく、多数のパフォーマンスモデリング関連タスクで開発者が直接使用可能な、命令のパフォーマンスの本質をキャプチャする基盤モデルも提供する。
この評価は、PerfVecが以前のアプローチよりも一般的で効率的であることを示す。
Performance modeling is an essential tool in many areas, including performance characterization/optimization, design space exploration, and resource allocation problems, to name a few. However, existing performance modeling approaches have limitations, such as high computational cost for discrete-event simulators, narrow flexibility of hardware emulators, or restricted accuracy/generality of analytical/data-driven models. To address these limitations, this paper proposes PerfVec, a novel deep learning-based performance modeling framework that learns high-dimensional and independent/orthogonal program and microarchitecture representations. Once learned, a program representation can be used to predict its performance on any microarchitecture, and likewise, a microarchitecture representation can be applied in the performance prediction of any program. Additionally, PerfVec yields a foundation model that captures the performance essence of instructions, which can be directly used by developers in numerous performance modeling related tasks without incurring its training cost. The evaluation demonstrates that PerfVec is more general and efficient than previous approaches. | 翻訳日:2024-08-26 20:18:44 公開日:2024-08-22 |
# 最小二乗、正則化、古典的影の関連について
On the connection between least squares, regularization, and classical shadows ( http://arxiv.org/abs/2310.16921v3 ) ライセンス: Link先を確認 | Zhihui Zhu, Joseph M. Lukens, Brian T. Kirby, | (参考訳) 古典的影(CS)は、量子可観測物質を推定する資源効率の高い手段を提供し、徹底的な状態トモグラフィーの必要性を回避している。
本稿では,CS技術と最小二乗法(LS)と,機械学習やデータ解析によく用いられる正則最小二乗法(RLS)の関連性を明らかにする。
LS と RLS の形式的同定により、LS と RLS の「陰影」は完全にCS のものと類似しており、すなわち、単一測定の経験的な周波数から計算された点推定器は、LS と CS の両方を、未決定状態の正則化器と見なすことができ、偽逆を可逆的な代替品に置き換えることができることを示す。
数値シミュレーションにより, RLS と CS は, バイアスと分散のトレードオフ, 期待値と実測値のミスマッチ, 計測数と撮影数との相互作用の3つの異なる角度から評価した。
CSと比較して、RSSはバイアスを犠牲にして低い分散を実現し、分散ミスマッチに対して堅牢であり、一定の数の状態コピーのショット数に敏感である。
概念的には、LS, RLS, CSの統合は、CS手法の全体像を前進させる一貫した「陰影」傘エイズであり、実際、我々の結果は、これらの測定手法に固有のトレードオフを浮き彫りにして、RSSとCSのどちらが好ましいかを示す。
Classical shadows (CS) offer a resource-efficient means to estimate quantum observables, circumventing the need for exhaustive state tomography. Here, we clarify and explore the connection between CS techniques and least squares (LS) and regularized least squares (RLS) methods commonly used in machine learning and data analysis. By formal identification of LS and RLS "shadows" completely analogous to those in CS -- namely, point estimators calculated from the empirical frequencies of single measurements -- we show that both RLS and CS can be viewed as regularizers for the underdetermined regime, replacing the pseudoinverse with invertible alternatives. Through numerical simulations, we evaluate RLS and CS from three distinct angles: the tradeoff in bias and variance, mismatch between the expected and actual measurement distributions, and the interplay between the number of measurements and number of shots per measurement. Compared to CS, RLS attains lower variance at the expense of bias, is robust to distribution mismatch, and is more sensitive to the number of shots for a fixed number of state copies -- differences that can be understood from the distinct approaches taken to regularization. Conceptually, our integration of LS, RLS, and CS under a unifying "shadow" umbrella aids in advancing the overall picture of CS techniques, while practically our results highlight the tradeoffs intrinsic to these measurement approaches, illuminating the circumstances under which either RLS or CS would be preferred, such as unverified randomness for the former or unbiased estimation for the latter. | 翻訳日:2024-08-26 20:18:44 公開日:2024-08-22 |
# バイトレベルの精度を持つエンコーダ・デコーダ基礎モデルを用いたDNAの自然言語理解
Understanding the Natural Language of DNA using Encoder-Decoder Foundation Models with Byte-level Precision ( http://arxiv.org/abs/2311.02333v3 ) ライセンス: Link先を確認 | Aditya Malusare, Harish Kothandaraman, Dipesh Tamboli, Nadia A. Lanman, Vaneet Aggarwal, | (参考訳) 本稿では,Ensemble Nucleotide Byte-level Encoder-Decoder(ENBED)基盤モデルを提案する。
ENBEDは、エンコーダのみまたはデコーダのみのアーキテクチャで以前のゲノムモデルを一般化し、シーケンスからシーケンスへの変換が可能な効率的なモデルを開発するために、注意のサブクアドラルな実装を使用する。
Masked Language Modeling を用いて,(1)エンハンサー,プロモーターおよびスプライス部位の同定,(2)ベースコールミスマッチと挿入/削除エラーを含む配列の認識,2)バイトレベルの精度で解析できない複数の塩基対を含むトークン化スキーム,(3)ゲノム配列の生物学的機能アノテーションの同定,(4)エンコーダ・デコーダアーキテクチャを用いてインフルエンザウイルスの突然変異を発生させ,実世界の観測に有効である。
これらの課題のそれぞれにおいて、既存の最先端の成果と比較して顕著な改善が示される。
This paper presents the Ensemble Nucleotide Byte-level Encoder-Decoder (ENBED) foundation model, analyzing DNA sequences at byte-level precision with an encoder-decoder Transformer architecture. ENBED uses a sub-quadratic implementation of attention to develop an efficient model capable of sequence-to-sequence transformations, generalizing previous genomic models with encoder-only or decoder-only architectures. We use Masked Language Modeling to pre-train the foundation model using reference genome sequences and apply it in the following downstream tasks: (1) identification of enhancers, promotors and splice sites, (2) recognition of sequences containing base call mismatches and insertion/deletion errors, an advantage over tokenization schemes involving multiple base pairs, which lose the ability to analyze with byte-level precision, (3) identification of biological function annotations of genomic sequences, and (4) generating mutations of the Influenza virus using the encoder-decoder architecture and validating them against real-world observations. In each of these tasks, we demonstrate significant improvement as compared to the existing state-of-the-art results. | 翻訳日:2024-08-26 20:08:57 公開日:2024-08-22 |
# 量子マルチアノマリー検出
Quantum multi-anomaly detection ( http://arxiv.org/abs/2312.13020v2 ) ライセンス: Link先を確認 | Santiago Llorens, Gael Sentís, Ramon Muñoz-Tapia, | (参考訳) 特定の参照状態を作成すると仮定されたソースは、時に異常な状態を作成する。
我々は、これらの異常状態を特定するタスクを、$k$異常を伴う一連の$n$準備で解決する。
我々は、最小エラープロトコルとゼロエラー(曖昧な)プロトコルを分析し、参照状態と異常状態の両方がオブザーバに知られ、異常が準備シリーズの任意の位置に等しく現れる場合に、成功確率のクローズド表現を得る。
この解はアソシエーションスキーム理論の結果から得られ、グラフ理論と量子仮説テストの関連性を確立する。
特に、この問題のグラム行列から自然に生じるジョンソンアソシエーションスキームを用いる。
我々はまた、大きな$n$の体制を研究し、非消滅的な成功確率の式を得る。
最後に、観測者が参照状態と異常状態に盲目である場合に対処する。
このシナリオは、漸近的限界において、成功確率が既知の状態シナリオの平均に対応することを証明するための普遍的プロトコルを必要とする。
A source assumed to prepare a specified reference state sometimes prepares an anomalous one. We address the task of identifying these anomalous states in a series of $n$ preparations with $k$ anomalies. We analyze the minimum-error protocol and the zero-error (unambiguous) protocol and obtain closed expressions for the success probability when both reference and anomalous states are known to the observer and anomalies can appear equally likely in any position of the preparation series. We find the solution using results from association schemes theory, thus establishing a connection between graph theory and quantum hypothesis testing. In particular, we use the Johnson association scheme which arises naturally from the Gram matrix of this problem. We also study the regime of large $n$ and obtain the expression of the success probability that is non-vanishing. Finally, we address the case in which the observer is blind to the reference and the anomalous states. This scenario requires a universal protocol for which we prove that in the asymptotic limit, the success probability corresponds to the average of the known state scenario. | 翻訳日:2024-08-26 20:08:57 公開日:2024-08-22 |
# 深層学習バグの再現性向上に向けて--実証的研究
Towards Enhancing the Reproducibility of Deep Learning Bugs: An Empirical Study ( http://arxiv.org/abs/2401.03069v3 ) ライセンス: Link先を確認 | Mehil B. Shah, Mohammad Masudur Rahman, Foutse Khomh, | (参考訳) コンテキスト: ディープラーニングはさまざまな領域で顕著な進歩を遂げています。
しかし、他のソフトウェアシステムと同様に、ディープラーニングシステムはバグを含んでいる。
ディープラーニング技術の大幅な進歩にもかかわらず、ディープラーニングのバグを再現することに注力する研究はほとんどない。
既存の文献では、ディープラーニングのバグのわずか3%が再現可能であり、さらなる研究の必要性を暗示している。
目的:本論文では,ディープラーニングバグの再現性について検討する。
我々は、深層学習バグの再現性を向上できる編集動作と有用な情報を識別する。
メソッド: まず、Stack OverflowとGitHubから3つのフレームワークと22のアーキテクチャにわたって、668のディープラーニングバグのデータセットを構築します。
第2に、668のバグのうち165のバグを階層化サンプリングを用いて選択し、再現性を決定する。
これらのバグを再現しながら、編集動作とそれらの再現に有用な情報を識別する。
第3に、Aprioriアルゴリズムを用いて有用な情報を特定し、特定の種類のバグを再現するために必要なアクションを編集した。
最後に,22名の開発者を対象に,実生活環境における実験結果の有効性について検討した。
結果: 165件のバグのうち148件を再現した。
深層学習のバグを再現するのに役立つ10の編集アクションと5つの有用なコンポーネント情報を特定しました。
我々の発見の助けを借りて、開発者は22.92%のバグを再現し、再生時間を24.35%短縮することができた。
結論:本研究は,ディープラーニングバグ再現性に関する重要な問題に対処する。
専門家や研究者は、この発見を利用してディープラーニングのバグ再現性を向上させることができる。
Context: Deep learning has achieved remarkable progress in various domains. However, like any software system, deep learning systems contain bugs, some of which can have severe impacts, as evidenced by crashes involving autonomous vehicles. Despite substantial advancements in deep learning techniques, little research has focused on reproducing deep learning bugs, which is an essential step for their resolution. Existing literature suggests that only 3% of deep learning bugs are reproducible, underscoring the need for further research. Objective: This paper examines the reproducibility of deep learning bugs. We identify edit actions and useful information that could improve the reproducibility of deep learning bugs. Method: First, we construct a dataset of 668 deep-learning bugs from Stack Overflow and GitHub across three frameworks and 22 architectures. Second, out of the 668 bugs, we select 165 bugs using stratified sampling and attempt to determine their reproducibility. While reproducing these bugs, we identify edit actions and useful information for their reproduction. Third, we used the Apriori algorithm to identify useful information and edit actions required to reproduce specific types of bugs. Finally, we conducted a user study involving 22 developers to assess the effectiveness of our findings in real-life settings. Results: We successfully reproduced 148 out of 165 bugs attempted. We identified ten edit actions and five useful types of component information that can help us reproduce the deep learning bugs. With the help of our findings, the developers were able to reproduce 22.92% more bugs and reduce their reproduction time by 24.35%. Conclusions: Our research addresses the critical issue of deep learning bug reproducibility. Practitioners and researchers can leverage our findings to improve deep learning bug reproducibility. | 翻訳日:2024-08-26 20:08:57 公開日:2024-08-22 |
# 3次元形状創製のためのディバース部品合成
Diverse Part Synthesis for 3D Shape Creation ( http://arxiv.org/abs/2401.09384v4 ) ライセンス: Link先を確認 | Yanran Guan, Oliver van Kaick, | (参考訳) ニューラルネットワークを用いて3次元形状を部分ベース表現の形で合成する手法は、ここ数年で導入されている。
これらの手法は、形状を部品のグラフや階層として表現し、形状サンプリングや再構成などの様々な応用を可能にする。
しかし、現在の手法では、個々の形状部品をユーザの好みに応じて容易に再生することはできない。
本稿では,ユーザが個々の部品に対して多種多様な提案を生成できるようにする手法について検討する。
具体的には、形状部品の多様な提案をサンプリングし、形状合成に関するこれまでの研究では考慮されていなかったモデルに焦点をあてるマルチモーダル深部生成モデルを実験する。
本稿では,これらの技術の比較研究として,パートベース表現における3次元形状の合成法を紹介し,この合成法におけるすべての部分提案手法を評価する。
従来の研究から着想を得た本手法では, 形状は暗黙関数の形で一組の部品として表現され, 空間内に配置して最終形状を形成する。
この表現の合成は、暗黙のデコーダと空間変換器に基づくニューラルネットワークアーキテクチャによって実現される。
複数モーダル生成モデルの比較を行い,その性能評価を行った。
本研究の目的は, マルチモーダル部品生成のための新技術が最良である質的, 定量的評価を行い, 形状復元時に高い形状の忠実さを維持しつつ, 3次元形状に生成する部品をよりきめ細やかな制御を可能にすることにある。
Methods that use neural networks for synthesizing 3D shapes in the form of a part-based representation have been introduced over the last few years. These methods represent shapes as a graph or hierarchy of parts and enable a variety of applications such as shape sampling and reconstruction. However, current methods do not allow easily regenerating individual shape parts according to user preferences. In this paper, we investigate techniques that allow the user to generate multiple, diverse suggestions for individual parts. Specifically, we experiment with multimodal deep generative models that allow sampling diverse suggestions for shape parts and focus on models which have not been considered in previous work on shape synthesis. To provide a comparative study of these techniques, we introduce a method for synthesizing 3D shapes in a part-based representation and evaluate all the part suggestion techniques within this synthesis method. In our method, which is inspired by previous work, shapes are represented as a set of parts in the form of implicit functions which are then positioned in space to form the final shape. Synthesis in this representation is enabled by a neural network architecture based on an implicit decoder and a spatial transformer. We compare the various multimodal generative models by evaluating their performance in generating part suggestions. Our contribution is to show with qualitative and quantitative evaluations which of the new techniques for multimodal part generation perform the best and that a synthesis method based on the top-performing techniques allows the user to more finely control the parts that are generated in the 3D shapes while maintaining high shape fidelity when reconstructing shapes. | 翻訳日:2024-08-26 20:08:57 公開日:2024-08-22 |
# etuner:エッジデバイス上での効果的な継続的学習アプリケーションのための冗長性認識フレームワーク
etuner: A Redundancy-Aware Framework for Efficient Continual Learning Application on Edge Devices ( http://arxiv.org/abs/2401.16694v5 ) ライセンス: Link先を確認 | Sheng Li, Geng Yuan, Yawen Wu, Yue Dai, Tianyu Wang, Chao Wu, Alex K. Jones, Jingtong Hu, Yanzhi Wang, Xulong Tang, | (参考訳) ロボット支援の高齢者ケアやオブジェクト認識など、多くの新興アプリケーションでは、一般的にディープラーニングニューラルネットワーク(DNN)を採用し、エッジデバイスにDNNモデルをデプロイする必要がある。
これらの応用は自然に必要です
一 ストリーミングの推論要求の処理及び処理
二 デプロイ可能なシナリオの変更に対応するために、デプロイされたモデルを微調整すること。
継続的な学習(CL)はこれらのニーズを満たすために広く採用されている。
CLは、継続的モデルの微調整とオーバータイム推論の両方を処理できる人気のあるディープラーニングパラダイムである。
しかし、不適切なモデル微調整方式は、かなりの冗長性を伴い、かなりの時間とエネルギーを消費する可能性があるため、エッジデバイスにCLを適用することは困難である。
本稿では,推論精度,微調整実行時間,エネルギー効率を最適化する効率的なエッジ連続学習フレームワークであるETunerを提案する。
実験結果から,ETunerは全体の微調整実行時間を64%削減し,エネルギー消費量を56%削減し,即時モデル微調整アプローチよりも平均推定精度を1.75%向上した。
Many emerging applications, such as robot-assisted eldercare and object recognition, generally employ deep learning neural networks (DNNs) and require the deployment of DNN models on edge devices. These applications naturally require i) handling streaming-in inference requests and ii) fine-tuning the deployed models to adapt to possible deployment scenario changes. Continual learning (CL) is widely adopted to satisfy these needs. CL is a popular deep learning paradigm that handles both continuous model fine-tuning and overtime inference requests. However, an inappropriate model fine-tuning scheme could involve significant redundancy and consume considerable time and energy, making it challenging to apply CL on edge devices. In this paper, we propose ETuner, an efficient edge continual learning framework that optimizes inference accuracy, fine-tuning execution time, and energy efficiency through both inter-tuning and intra-tuning optimizations. Experimental results show that, on average, ETuner reduces overall fine-tuning execution time by 64%, energy consumption by 56%, and improves average inference accuracy by 1.75% over the immediate model fine-tuning approach. | 翻訳日:2024-08-26 19:58:50 公開日:2024-08-22 |
# 正規位相をもつ量子ネットワークにおける絡み合いの連続分布
Continuously Distributing Entanglement in Quantum Networks with Regular Topologies ( http://arxiv.org/abs/2402.01527v2 ) ライセンス: Link先を確認 | Lars Talsma, Álvaro G. Iñesta, Stephanie Wehner, | (参考訳) 小さな相互接続型量子プロセッサは、通常より有能なデバイスを必要とする量子計算問題に対処するために協力することができる。
これらの連結プロセッサは量子ノードと呼ばれ、非局所的な操作を実行するために共有絡み合った状態を使用することができる。
その結果、絡み合った状態をノード間で分散する方法を理解することは、ハードウェアやソフトウェアを開発する上で不可欠である。
我々は,チェーン,ハニカム格子,正方形格子,三角形格子という,物理的に規則的なパターンで配置されたノード間で絡み合いが連続的に分散されるプロトコルを解析する。
これらの規則パターンは、大規模分散量子コンピューティングのためのネットワークのモジュラー拡張を可能にする。
分散プロトコル内では,隣接ノードと共有される複数の絡み合った状態を,非隣接ノードと共有される少ない状態に対して取り除き,絡み合うスワップの頻度を最適化する方法について検討する。
我々は,仮想近傍サイズを用いて,あるノードが絡み合った状態を共有する他のノードの数を示す指標を用いて,プロトコルの性能を評価する。
数値的手法を用いることで、コヒーレンス時間が短い場合には、仮想近傍サイズを最大化するために、ノードがより多くのスワップを実行する必要があることが分かる。
チェーンネットワークでは、チェーンの終端からの距離に基づいて、スワップ試行回数に対する仮想近傍の大きさの依存性が異なる。
逆に、正方形格子の全てのノードは、スワップ周波数に対する仮想近傍の大きさの質的に類似した依存性を示す。
Small interconnected quantum processors can collaborate to tackle quantum computational problems that typically demand more capable devices. These linked processors, referred to as quantum nodes, can use shared entangled states to execute nonlocal operations. As a consequence, understanding how to distribute entangled states among nodes is essential for developing hardware and software. We analyze a protocol where entanglement is continuously distributed among nodes that are physically arranged in a regular pattern: a chain, a honeycomb lattice, a square grid, and a triangular lattice. These regular patterns allow for the modular expansion of networks for large-scale distributed quantum computing. Within the distribution protocol, we investigate how nodes can optimize the frequency of attempting entanglement swaps, trading off multiple entangled states shared with neighboring nodes for fewer states shared with non-neighboring nodes. We evaluate the protocol's performance using the virtual neighborhood size -- a metric indicating the number of other nodes with which a given node shares entangled states. Employing numerical methods, we find that nodes must perform more swaps to maximize the virtual neighborhood size when coherence times are short. In a chain network, the virtual neighborhood size's dependence on swap attempt frequency differs for each node based on its distance from the end of the chain. Conversely, all nodes in the square grid exhibit a qualitatively similar dependence of the virtual neighborhood size on the swap frequency. | 翻訳日:2024-08-26 19:58:50 公開日:2024-08-22 |
# 位置符号化によるグラフ変換器の比較
Comparing Graph Transformers via Positional Encodings ( http://arxiv.org/abs/2402.14202v4 ) ライセンス: Link先を確認 | Mitchell Black, Zhengchao Wan, Gal Mishne, Amir Nayyeri, Yusu Wang, | (参考訳) グラフ変換器の識別能力は、位置符号化の選択と密接に結びついている。
位置符号化には、絶対位置符号化(APE)と相対位置符号化(RPE)の2種類がある。
APEは各ノードに特徴を割り当て、変換器への入力として与えられる。
RPEは代わりに、例えばグラフ距離などの各ノードに機能を割り当て、アテンションブロックを増強するために使用される。
先行して、結果のグラフ変換器のパワーを最大化するためにどの方法が優れているかは不明確である。
本稿では,これらの異なるタイプの位置符号化の関係を理解することを目的とする。
興味深いことに、 APE と RPE を用いたグラフ変換器は、パワーの区別の点で等価である。
特に, APE と RPE をグラフ変換器の区別能力を維持しながら交換する方法を実証する。
理論的な結果に基づき, 抵抗距離と最近導入された安定かつ表現力のある位置符号化(SPE)を含む複数の APE および RPE について検討し, 変圧器による識別能力の比較を行った。
我々の研究は、位置変換の膨大な数の選択をナビゲートし、グラフ変換器のための位置変換の将来の設計に関するガイダンスを提供すると信じている。
The distinguishing power of graph transformers is closely tied to the choice of positional encoding: features used to augment the base transformer with information about the graph. There are two primary types of positional encoding: absolute positional encodings (APEs) and relative positional encodings (RPEs). APEs assign features to each node and are given as input to the transformer. RPEs instead assign a feature to each pair of nodes, e.g., graph distance, and are used to augment the attention block. A priori, it is unclear which method is better for maximizing the power of the resulting graph transformer. In this paper, we aim to understand the relationship between these different types of positional encodings. Interestingly, we show that graph transformers using APEs and RPEs are equivalent in terms of distinguishing power. In particular, we demonstrate how to interchange APEs and RPEs while maintaining their distinguishing power in terms of graph transformers. Based on our theoretical results, we provide a study on several APEs and RPEs (including the resistance distance and the recently introduced stable and expressive positional encoding (SPE)) and compare their distinguishing power in terms of transformers. We believe our work will help navigate the huge number of choices of positional encoding and will provide guidance on the future design of positional encodings for graph transformers. | 翻訳日:2024-08-26 19:58:50 公開日:2024-08-22 |
# 大規模言語モデルを用いた量子多体物理計算
Quantum Many-Body Physics Calculations with Large Language Models ( http://arxiv.org/abs/2403.03154v2 ) ライセンス: Link先を確認 | Haining Pan, Nayantara Mudur, Will Taranto, Maria Tikhanovskaya, Subhashini Venugopalan, Yasaman Bahri, Michael P. Brenner, Eun-Ah Kim, | (参考訳) 大規模言語モデル(LLM)は、数学的および科学的推論を含む複数の領域で複雑なタスクを実行する前例のない能力を示した。
我々は、慎重に設計されたプロンプトにより、LLMが理論物理学における研究論文において重要な計算を正確に行うことができることを示した。
量子物理学において、近似ハミルトニアンおよびそれに対応する自己整合性方程式を導出した解析的多段階計算を必要とするハートリー・フォック法(Hartree-Fock method)という、広く用いられている近似法に焦点をあてる。
LLMを用いて計算を行うために,問題固有情報のためのプレースホルダーを用いて,解析計算を標準化されたステップに分解する多段階プロンプトテンプレートを設計する。
GPT-4は過去10年間の15件の研究論文の計算性能を評価し,中間段階の補正により,最終Hartree-Fock Hamiltonianが13例で正しく導出され,2例で小さな誤差が生じることを示した。
すべての研究論文を集約すると、個々の計算ステップの実行において平均87.5点(100点中87.5点)のスコアが得られます。
全体として、これらの計算を行うために必要なスキルは、量子凝縮物質理論の卒業レベルにある。
この評価プロセスにおける2つの主要なボトルネックを軽減するために、さらにLLMを使用します。
一 テンプレートに記入するための書類から情報を取り出すこと。
二 計算工程の自動採点で、両方の場合において良い結果を示すこと。
強力な性能は、理論仮説を前例のない規模で自動的に探求するアルゴリズムを開発するための第一歩である。
Large language models (LLMs) have demonstrated an unprecedented ability to perform complex tasks in multiple domains, including mathematical and scientific reasoning. We demonstrate that with carefully designed prompts, LLMs can accurately carry out key calculations in research papers in theoretical physics. We focus on a broadly used approximation method in quantum physics: the Hartree-Fock method, requiring an analytic multi-step calculation deriving approximate Hamiltonian and corresponding self-consistency equations. To carry out the calculations using LLMs, we design multi-step prompt templates that break down the analytic calculation into standardized steps with placeholders for problem-specific information. We evaluate GPT-4's performance in executing the calculation for 15 research papers from the past decade, demonstrating that, with correction of intermediate steps, it can correctly derive the final Hartree-Fock Hamiltonian in 13 cases and makes minor errors in 2 cases. Aggregating across all research papers, we find an average score of 87.5 (out of 100) on the execution of individual calculation steps. Overall, the requisite skill for doing these calculations is at the graduate level in quantum condensed matter theory. We further use LLMs to mitigate the two primary bottlenecks in this evaluation process: (i) extracting information from papers to fill in templates and (ii) automatic scoring of the calculation steps, demonstrating good results in both cases. The strong performance is the first step for developing algorithms that automatically explore theoretical hypotheses at an unprecedented scale. | 翻訳日:2024-08-26 19:58:50 公開日:2024-08-22 |
# 急性骨髄性白血病分類のための自己監督型マルチインスタンス学習
Self-Supervised Multiple Instance Learning for Acute Myeloid Leukemia Classification ( http://arxiv.org/abs/2403.05379v2 ) ライセンス: Link先を確認 | Salome Kazeminia, Max Joosten, Dragan Bosnacki, Carsten Marr, | (参考訳) 医用画像解析を用いた疾患の自動診断はディープラーニングに依存しており、しばしば教師付きモデルトレーニングのために大きなラベル付きデータセットを必要とする。
急性骨髄性白血病(AML)のような疾患は、単細胞レベルでのアノテーションが不足し、コストがかかるため困難である。
マルチインスタンス学習(MIL)は、弱いラベル付きシナリオに対処するが、ラベル付きデータで訓練された強力なエンコーダを必要とする。
本研究では,MILをベースとしたAMLサブタイプの血液スミア分類のための事前学習手法として,自己監視学習(SSL)を探索し,エンコーダトレーニング中のラベル付きデータの必要性を排除した。
そこで本研究では,SimCLR,SwaV,DINOの3つの最先端SSL手法について検討し,その性能を教師付き事前学習と比較する。
以上の結果から,SSL-pretrained encoder は MIL における SSL の可能性を示した。
このブレークスルーは、コスト効率が高く、データ効率のよいソリューションを提供し、AIベースの疾患診断の分野を推進している。
Automated disease diagnosis using medical image analysis relies on deep learning, often requiring large labeled datasets for supervised model training. Diseases like Acute Myeloid Leukemia (AML) pose challenges due to scarce and costly annotations on a single-cell level. Multiple Instance Learning (MIL) addresses weakly labeled scenarios but necessitates powerful encoders typically trained with labeled data. In this study, we explore Self-Supervised Learning (SSL) as a pre-training approach for MIL-based AML subtype classification from blood smears, removing the need for labeled data during encoder training. We investigate the three state-of-the-art SSL methods SimCLR, SwAV, and DINO, and compare their performance against supervised pre-training. Our findings show that SSL-pretrained encoders achieve comparable performance, showcasing the potential of SSL in MIL. This breakthrough offers a cost-effective and data-efficient solution, propelling the field of AI-based disease diagnosis. | 翻訳日:2024-08-26 19:49:07 公開日:2024-08-22 |
# TimeMachine: 時系列は長期予測に価値のある4つのマンバ
TimeMachine: A Time Series is Worth 4 Mambas for Long-term Forecasting ( http://arxiv.org/abs/2403.09898v2 ) ライセンス: Link先を確認 | Md Atik Ahamed, Qiang Cheng, | (参考訳) 長期的依存関係の把握、線形スケーラビリティの実現、計算効率の維持が困難であるため、長期的時系列予測は依然として困難である。
我々は、状態空間モデルであるMambaを利用して、線形スケーラビリティと小さなメモリフットプリントを維持しながら、多変量時系列データにおける長期依存関係をキャプチャする革新的なモデルであるTimeMachineを紹介した。
TimeMachineは時系列データのユニークな特性を活用して、多スケールで健全なコンテキストキューを生成し、革新的な統合四重項マンバアーキテクチャを活用して、チャネル混合とチャネル独立状況の処理を統一し、異なるスケールでのグローバルおよびローカルコンテキストに対する予測のためのコンテンツの効果的な選択を可能にする。
TimeMachineは、ベンチマークデータセットを使用して広範囲に検証されるように、予測精度、スケーラビリティ、メモリ効率において優れたパフォーマンスを実現している。
コードの可用性: https://github.com/Atik-Ahamed/TimeMachine
Long-term time-series forecasting remains challenging due to the difficulty in capturing long-term dependencies, achieving linear scalability, and maintaining computational efficiency. We introduce TimeMachine, an innovative model that leverages Mamba, a state-space model, to capture long-term dependencies in multivariate time series data while maintaining linear scalability and small memory footprints. TimeMachine exploits the unique properties of time series data to produce salient contextual cues at multi-scales and leverage an innovative integrated quadruple-Mamba architecture to unify the handling of channel-mixing and channel-independence situations, thus enabling effective selection of contents for prediction against global and local contexts at different scales. Experimentally, TimeMachine achieves superior performance in prediction accuracy, scalability, and memory efficiency, as extensively validated using benchmark datasets. Code availability: https://github.com/Atik-Ahamed/TimeMachine | 翻訳日:2024-08-26 19:49:07 公開日:2024-08-22 |
# 熱力学的自明な系における非ゼロ温度での量子メモリ
Quantum memory at nonzero temperature in a thermodynamically trivial system ( http://arxiv.org/abs/2403.10599v2 ) ライセンス: Link先を確認 | Yifan Hong, Jinkang Guo, Andrew Lucas, | (参考訳) パッシブエラー訂正は、局所情報と少数体の相互作用のみに基づいてシステムを更新することで、論理情報を永久に(熱力学の限界において)保護する。
古典的な2次元イジングモデル(英語版)のパラダイム的な例: メトロポリススタイルのギブスサンプリング器は、低温相において熱力学的に長い時間に初期磁化(論理ビット)の符号を保持する。
受動的量子誤差補正の既知のモデルも同様に、論理量子ビットが熱的に安定な位相秩序によって保護される低温相への熱力学的相転移を示す。
対照的に、定格古典的および量子的低密度パリティチェック符号の族は、非ゼロ温度で熱力学的相転移を持たないが、しかしながら、非ゼロ温度以下では、局所ギブスサンプリングの混合時間は熱力学極限で分岐する。
このようなコードのスローギブスサンプリングは、有限深度回路を用いたフォールトトレラントな量子誤り訂正を可能にする。
この戦略は、測定不要な量子誤差補正に適しており、シンドローム測定とアクティブフィードバックに基づく従来の量子エラー補正に代わる望ましい実験的な選択肢を示す可能性がある。
Passive error correction protects logical information forever (in the thermodynamic limit) by updating the system based only on local information and few-body interactions. A paradigmatic example is the classical two-dimensional Ising model: a Metropolis-style Gibbs sampler retains the sign of the initial magnetization (a logical bit) for thermodynamically long times in the low-temperature phase. Known models of passive quantum error correction similarly exhibit thermodynamic phase transitions to a low-temperature phase wherein logical qubits are protected by thermally stable topological order. Here, in contrast, we show that certain families of constant-rate classical and quantum low-density parity check codes have no thermodynamic phase transitions at nonzero temperature, but nonetheless exhibit ergodicity-breaking dynamical transitions: below a critical nonzero temperature, the mixing time of local Gibbs sampling diverges in the thermodynamic limit. Slow Gibbs sampling of such codes enables fault-tolerant passive quantum error correction using finite-depth circuits. This strategy is well suited to measurement-free quantum error correction and may present a desirable experimental alternative to conventional quantum error correction based on syndrome measurements and active feedback. | 翻訳日:2024-08-26 19:49:07 公開日:2024-08-22 |
# Arc2Face: ID一貫性のある人間の顔の基礎モデル
Arc2Face: A Foundation Model for ID-Consistent Human Faces ( http://arxiv.org/abs/2403.11641v2 ) ライセンス: Link先を確認 | Foivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Jiankang Deng, Bernhard Kainz, Stefanos Zafeiriou, | (参考訳) 本稿では,身元条件付き顔基礎モデルであるArc2Faceを提案する。
顔認識機能を詳細な画像にデコードする以前の試みにもかかわらず、一般的な高解像度データセット(例えばFFHQ)には、対象を再構築するのに十分なアイデンティティがないことが判明した。
そのために、私たちは、顔認識(FR)のための最大のパブリックデータセットであるWebFace42Mデータベースのかなりの部分を慎重にアップサンプする。
Arc2Faceはトレーニング済みの安定拡散モデルに基づいて構築されるが、IDベクトルにのみ条件付きでID-対面生成のタスクに適応する。
テキスト・ツー・イメージ・モデルのゼロショットパーソナライズのためのIDとテキスト埋め込みを組み合わせた最近の研究から、手作りのプロンプトとは対照的に、人間の顔の本質を完全に捉えることのできるFR特徴のコンパクト性を強調した。
重要なことに、テキスト拡張モデルはアイデンティティとテキストを分離するのに苦労し、通常、満足のいく類似性を達成するために与えられた顔のいくつかの記述を必要とする。
しかし、Arc2Faceは生成を導くためにArcFaceの差別的な機能しか必要とせず、ID一貫性が最重要事項である多数のタスクに対して堅牢な事前機能を提供する。
例えば、我々のモデルから合成画像上でFRモデルを訓練し、既存の合成データセットよりも優れた性能を達成する。
This paper presents Arc2Face, an identity-conditioned face foundation model, which, given the ArcFace embedding of a person, can generate diverse photo-realistic images with an unparalleled degree of face similarity than existing models. Despite previous attempts to decode face recognition features into detailed images, we find that common high-resolution datasets (e.g. FFHQ) lack sufficient identities to reconstruct any subject. To that end, we meticulously upsample a significant portion of the WebFace42M database, the largest public dataset for face recognition (FR). Arc2Face builds upon a pretrained Stable Diffusion model, yet adapts it to the task of ID-to-face generation, conditioned solely on ID vectors. Deviating from recent works that combine ID with text embeddings for zero-shot personalization of text-to-image models, we emphasize on the compactness of FR features, which can fully capture the essence of the human face, as opposed to hand-crafted prompts. Crucially, text-augmented models struggle to decouple identity and text, usually necessitating some description of the given face to achieve satisfactory similarity. Arc2Face, however, only needs the discriminative features of ArcFace to guide the generation, offering a robust prior for a plethora of tasks where ID consistency is of paramount importance. As an example, we train a FR model on synthetic images from our model and achieve superior performance to existing synthetic datasets. | 翻訳日:2024-08-26 19:49:07 公開日:2024-08-22 |
# 量子カオスの局所的および非局所的確率的制御--測定と制御による臨界
Local and nonlocal stochastic control of quantum chaos: Measurement- and control-induced criticality ( http://arxiv.org/abs/2405.14936v2 ) ライセンス: Link先を確認 | Haining Pan, Sriram Ganeshan, Thomas Iadecola, Justin H. Wilson, J. H. Pixley, | (参考訳) 古典ベルヌーイ写像から着想を得た量子モデルの族における位相図の位相について、理論的に研究する。
量子モデルは古典モデルから制御誘起相転移を継承し、量子設定に固有の絡み合い相転移を示す。
この測定誘起相転移は、制御遷移と一致するか、分離されるかの様々な条件で示されてきたが、この場合の2つの遷移に必要な十分条件の体系的理解は、今のところ不足している。
本研究では,制御マップを一般化し,局所的かつグローバルな制御動作を可能にする。
これはランダムウォークによって記述される制御遷移の古典的な側面には影響しないが、量子力学に大きな影響を与え、測定誘起遷移の普遍性クラスは制御操作の局所性に依存する。
大域的な制御マップの存在下では、2つの遷移が一致し、制御誘起相転移が測定誘起相転移を支配する。
対照的に、2つの遷移は局所的な制御写像や追加の射影測度の存在によって分裂し、異なる普遍性クラスを包含する。
局所制御のために、測定誘起相転移はフィードバックフリーモデルで見られるハール対数共形場理論の普遍性クラスを復元する。
しかし、グローバルコントロールでは、相関長指数$\nu \approx 0.7$の新たな普遍性クラスが制御と射影の測定の相互作用から生まれる。
この研究は、制御誘起相転移と測定誘起相転移の関係についてより洗練された理解を提供する。
We theoretically study the topology of the phase diagram of a family of quantum models inspired by the classical Bernoulli map under stochastic control. The quantum models inherit a control-induced phase transition from the classical model and also manifest an entanglement phase transition intrinsic to the quantum setting. This measurement-induced phase transition has been shown in various settings to either coincide or split off from the control transition, but a systematic understanding of the necessary and sufficient conditions for the two transitions to coincide in this case has so far been lacking. In this work, we generalize the control map to allow for either local or global control action. While this does not affect the classical aspects of the control transition that is described by a random walk, it significantly influences the quantum dynamics, leading to the universality class of the measurement-induced transition being dependent on the locality of the control operation. In the presence of a global control map, the two transitions coincide and the control-induced phase transition dominates the measurement-induced phase transition. Contrarily, the two transitions split in the presence of the local control map or additional projective measurements and generically take on distinct universality classes. For local control, the measurement-induced phase transition recovers the Haar logarithmic conformal field theory universality class found in feedback-free models. However, for global control, a novel universality class with correlation length exponent $\nu \approx 0.7$ emerges from the interplay of control and projective measurements. This work provides a more refined understanding of the relationship between the control- and measurement-induced phase transitions. | 翻訳日:2024-08-26 19:27:29 公開日:2024-08-22 |
# 畳み込みニューラルネットワークにおけるバイアス補正のためのニューロシンボリックフレームワーク
A Neurosymbolic Framework for Bias Correction in Convolutional Neural Networks ( http://arxiv.org/abs/2405.15886v4 ) ライセンス: Link先を確認 | Parth Padalkar, Natalia Ślusarz, Ekaterina Komendantskaya, Gopal Gupta, | (参考訳) 畳み込みニューラルネットワーク(CNN)の解釈における最近の取り組みは、CNNフィルタの活性化を階層化されたAnswer Set Program(ASP)ルールセットに変換することに焦点を当てている。
CNNフィルタは高レベルのイメージ概念をキャプチャすることで知られており、ルールセットの述語は、対応するフィルタが表現する概念にマッピングされる。
したがって、ルールセットはCNNの意思決定過程を例示し、任意の画像分類タスクで学習する概念を例示する。
これらのルールセットはCNNのバイアスを理解するのに役立つが、バイアスを修正することは依然として困難である。
我々は、訓練されたCNNにおいて、バイアス補正のためのNeSyBiCorと呼ばれるニューロシンボリックフレームワークを導入する。
ASP 制約のように CNN がバイアスのかかるシンボリックな概念を考えると、その概念を対応するベクトル表現に変換する。
そして、CNNは我々の新しいセマンティック類似性損失を使用して再訓練され、フィルタを望まれない概念から遠ざける(あるいは向く)。
再トレーニング後に得られた最後のASPルールセットは、制約を高いレベルまで満たし、CNNの知識の見直しを示す。
我々のNeSyBiCorフレームワークは、最小限の精度を犠牲にして解釈性を改善しながら、"Places"データセットのサブセットでトレーニングされたCNNのバイアスをうまく修正することを示した。
Recent efforts in interpreting Convolutional Neural Networks (CNNs) focus on translating the activation of CNN filters into a stratified Answer Set Program (ASP) rule-sets. The CNN filters are known to capture high-level image concepts, thus the predicates in the rule-set are mapped to the concept that their corresponding filter represents. Hence, the rule-set exemplifies the decision-making process of the CNN w.r.t the concepts that it learns for any image classification task. These rule-sets help understand the biases in CNNs, although correcting the biases remains a challenge. We introduce a neurosymbolic framework called NeSyBiCor for bias correction in a trained CNN. Given symbolic concepts, as ASP constraints, that the CNN is biased towards, we convert the concepts to their corresponding vector representations. Then, the CNN is retrained using our novel semantic similarity loss that pushes the filters away from (or towards) learning the desired/undesired concepts. The final ASP rule-set obtained after retraining, satisfies the constraints to a high degree, thus showing the revision in the knowledge of the CNN. We demonstrate that our NeSyBiCor framework successfully corrects the biases of CNNs trained with subsets of classes from the "Places" dataset while sacrificing minimal accuracy and improving interpretability. | 翻訳日:2024-08-26 19:27:29 公開日:2024-08-22 |
# 対話型大言語モデルにおける文脈注入の解法
Unmasking Context Injection on Interactive Large Language Models ( http://arxiv.org/abs/2405.20234v2 ) ライセンス: Link先を確認 | Cheng'an Wei, Yue Zhao, Yujia Gong, Kai Chen, Lu Xiang, Shenchen Zhu, | (参考訳) ChatGPTやLlamaのような大規模言語モデル(LLM)は、現実のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。
LLMは、入力データが静的で構造化されていないシナリオから基本的に開発されている。
LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。
しかし、LLMはコンテキストからのユーザ入力を分離することができず、コンテキストインジェクションが可能である。
本稿では,LLMの会話に,対象モデルの事前知識を必要とせずに,誤解を招くコンテキスト(チャット履歴)を系統的に注入する手法を提案する。
我々は、応答検索タスクを通じてコンテキストインジェクションを形式化し、効果的なインジェクションプロンプトを生成するためにLLMGA(LLMGA)を提案する。
我々は、コンテキストインジェクションを用いて、禁止されたコンテンツを引き出す方法、違法な行為や不適切な反応のリスクを訴える方法について検討する。
提案手法は,ChatGPT で 97% に達する成功率で,有効に無効な応答を誘発することができる。
ChatGPT や Llama-2/3 など実世界の LLM の総合評価は LLMGA の有効性と注入戦略を実証する。
また、注入の検出やより安全なモデルの開発に応用可能な潜在的な対策についても論じる。
本研究は,対話型・構造化データシナリオにおけるLLMの現実的展開に関わる課題について考察した。
Large Language Models (LLMs) such as ChatGPT and Llama have become prevalent in real-world applications, exhibiting impressive text generation performance. LLMs are fundamentally developed from a scenario where the input data remains static and unstructured. To behave interactively, LLM-based chat systems must integrate prior chat history as context into their inputs, following a pre-defined structure. However, LLMs cannot separate user inputs from context, enabling context injection. This paper introduces a methodology to systematically inject misleading context (i.e., chat history) into LLM conversations without prior knowledge of the target model. We formalize context injection through a response retrieval task and propose an LLM-Guided Genetic Algorithm (LLMGA) to create effective injection prompts, leading the target LLM to recognize injected context as genuine. We explore how context injection can be used to elicit disallowed content, posing risks of illegal actions and inappropriate responses. Our elicitation strategies, including acceptance elicitation and word anonymization, can effectively elicit disallowed responses with success rates reaching 97% on ChatGPT. Comprehensive evaluations on real-world LLMs including ChatGPT and Llama-2/3 demonstrate the efficacy of LLMGA and our injection strategies. We also discuss potential countermeasures that can be adopted for detecting injection and developing more secure models. Our findings provide insights into the challenges associated with the real-world deployment of LLMs for interactive and structured data scenarios. | 翻訳日:2024-08-26 19:27:29 公開日:2024-08-22 |
# LaMSUM: LLMを用いたユーザ生成コンテンツの抽出要約作成
LaMSUM: Creating Extractive Summaries of User Generated Content using LLMs ( http://arxiv.org/abs/2406.15809v2 ) ライセンス: Link先を確認 | Garima Chhikara, Anurag Sharma, V. Gurucharan, Kripabandhu Ghosh, Abhijnan Chakraborty, | (参考訳) 大規模言語モデル(LLM)は、要約を含む幅広いNLPタスクにおいて、印象的なパフォーマンスを示している。
LLMは本来、原文を言い換えて抽象的な要約を生成するが、原文から特定の部分集合を選択する抽出的な要約の生成は、ほとんど探索されていない。
LLMはコンテキストウィンドウのサイズが限られており、一度に処理できるデータの量を制限する。
LLMを用いた大量のユーザ生成テキストから抽出要約を生成するために設計された,新しいマルチレベルフレームワークであるLaMSUMを導入することで,この問題に対処する。
LaMSUMは、様々な投票方法と要約を統合して、堅牢な要約を実現する。
4つのLLM (Llama 3, Mixtral, Gemini, GPT-4o) を用いた大規模評価により, LaMSUMが最先端抽出法より優れていることが示された。
全体として、この研究はLLMの力を活用して抽出的な要約を実現しようとする最初の試みの1つであり、研究コミュニティ内でさらなる関心を喚起する可能性がある。
Large Language Models (LLMs) have demonstrated impressive performance across a wide range of NLP tasks, including summarization. LLMs inherently produce abstractive summaries by paraphrasing the original text, while the generation of extractive summaries - selecting specific subsets from the original text - remains largely unexplored. LLMs have a limited context window size, restricting the amount of data that can be processed at once. We tackle this challenge by introducing LaMSUM, a novel multi-level framework designed to generate extractive summaries from large collections of user-generated text using LLMs. LaMSUM integrates summarization with different voting methods to achieve robust summaries. Extensive evaluation using four popular LLMs (Llama 3, Mixtral, Gemini, GPT-4o) demonstrates that LaMSUM outperforms state-of-the-art extractive summarization methods. Overall, this work represents one of the first attempts to achieve extractive summarization by leveraging the power of LLMs, and is likely to spark further interest within the research community. | 翻訳日:2024-08-26 19:17:18 公開日:2024-08-22 |
# 量子エンタングルメント、量子テレポーテーション、多線形多項式と幾何学
Quantum Entanglement, Quantum Teleportation, Multilinear Polynomials and Geometry ( http://arxiv.org/abs/2407.17621v2 ) ライセンス: Link先を確認 | Juan M. Romero, Emiliano Montoya-Gonzalez, Oscar Velazquez-Alvarado, | (参考訳) 量子絡み合い状態は、分解できない多線型多項式と関連していることを示す。
これらの多線型多項式を用いて、絡み合い状態の幾何学的表現を提案する。
特に、ベル状態は3次元曲面で幾何学的に表現できる非分解可能実多重線型多項式と関連していることを示す。
さらに, この枠組みでは, 量子回路を平面幾何学の幾何学的変換と見なすことができる。
この現象は、物質が時空を曲がる重力と類似している。
さらに、量子テレポーテーションと多線型多項式を含む演算の類似性を示す。
We show that quantum entanglement states are associated with multilinear polynomials that cannot be factored. By using these multilinear polynomials, we propose a geometric representation for entanglement states. In particular, we show that the Bell's states are associated with non-factorable real multilinear polynomial, which can be represented geometrically by three-dimensional surfaces. Furthermore, in this framework, we show that a quantum circuit can be seen as a geometric transformations of plane geometry. This phenomenon is analogous to gravity, where matter curves space-time. In addition, we show an analogy between quantum teleportation and operations involving multilinear polynomials. | 翻訳日:2024-08-26 17:21:03 公開日:2024-08-22 |
# 調和振動子と等調振動子の擬エルミート拡大
Pseudo-Hermitian extensions of the harmonic and isotonic oscillators ( http://arxiv.org/abs/2408.01397v2 ) ライセンス: Link先を確認 | Aritra Ghosh, Akash Sinha, | (参考訳) 本研究では、調和振動子と等速振動子の擬エルミート拡大について記述し、どちらも量子力学において正確に解けるモデルである。
一次元ポテンシャルで動く粒子の力学を虚値ゲージ場に結合することにより、元の(エルミート)問題の擬エルミート拡大を得ることが出来る。
特に、スワンソン発振器は量子調和振動器の拡張として生じることが指摘されている。
調和振動子と等速振動子の擬エルミート拡大に対しては、位置表現における波動関数を明示的に解き、それらの相互関係を探索する。
In this work, we describe certain pseudo-Hermitian extensions of the harmonic and isotonic oscillators, both of which are exactly-solvable models in quantum mechanics. By coupling the dynamics of a particle moving in a one-dimensional potential to an imaginary-valued gauge field, it is possible to obtain certain pseudo-Hermitian extensions of the original (Hermitian) problem. In particular, it is pointed out that the Swanson oscillator arises as such an extension of the quantum harmonic oscillator. For the pseudo-Hermitian extensions of the harmonic and isotonic oscillators, we explicitly solve for the wavefunctions in the position representation and also explore their intertwining relations. | 翻訳日:2024-08-26 17:21:03 公開日:2024-08-22 |
# ベイジアンオラクルはハームをエージェントから防ぐことができるか?
Can a Bayesian Oracle Prevent Harm from an Agent? ( http://arxiv.org/abs/2408.05284v2 ) ライセンス: Link先を確認 | Yoshua Bengio, Michael K. Cohen, Nikolay Malkin, Matt MacDermott, Damiano Fornasiere, Pietro Greiner, Younesse Kaddar, | (参考訳) 確率論的安全性を保証する機械学習手法に基づいた強力なAIシステムを設計する方法はあるだろうか?
各文脈に適用可能な確率的保証を得るという長期的な目標を掲げて、所定の安全仕様に違反する確率に基づいて文脈依存境界を推定することを検討する。
このようなリスク評価は、AIの危険な行動に対するガードレールを提供するために、実行時に実施する必要がある。
世界の異なる仮説が全く異なる結果をもたらす可能性があることに注意し、どの仮説が正しいかわからないので、真だが未知の仮説の下で予測される安全違反確率の限界を導出する。
このような境界は、潜在的に危険な行為を拒絶するために用いられる。
本研究の主な成果は,ベイジアン後部を仮説として用いた最大化によって得られた,慎重だが妥当な仮説の探索である。
iidの場合と非idの場合の2つの形態を考察し、そのような理論結果を実用的なAIガードレールに変換するためのオープンな問題に結論付ける。
Is there a way to design powerful AI systems based on machine learning methods that would satisfy probabilistic safety guarantees? With the long-term goal of obtaining a probabilistic guarantee that would apply in every context, we consider estimating a context-dependent bound on the probability of violating a given safety specification. Such a risk evaluation would need to be performed at run-time to provide a guardrail against dangerous actions of an AI. Noting that different plausible hypotheses about the world could produce very different outcomes, and because we do not know which one is right, we derive bounds on the safety violation probability predicted under the true but unknown hypothesis. Such bounds could be used to reject potentially dangerous actions. Our main results involve searching for cautious but plausible hypotheses, obtained by a maximization that involves Bayesian posteriors over hypotheses. We consider two forms of this result, in the iid case and in the non-iid case, and conclude with open problems towards turning such theoretical results into practical AI guardrails. | 翻訳日:2024-08-26 17:21:03 公開日:2024-08-22 |
# LaWa: 画像のインジェネレーションに潜在空間を使う
LaWa: Using Latent Space for In-Generation Image Watermarking ( http://arxiv.org/abs/2408.05868v2 ) ライセンス: Link先を確認 | Ahmad Rezaei, Mohammad Akbari, Saeed Ranjbar Alvar, Arezou Fatemi, Yong Zhang, | (参考訳) 生成モデルは、実際のものと区別できない高品質な画像を生成するため、AI生成画像の悪意ある使用に関する懸念が高まっている。
知覚不能な画像透かしはそのような問題に対する有効な解決策の1つである。
以前の透かし法は、透かしを追加するために、イメージを潜在空間にマッピングする。
さらに、遅延拡散モデル(LDM)は、事前訓練されたオートエンコーダの潜時空間で画像を生成する。
この潜伏空間は、ウォーターマーキングを生成プロセスに統合するために利用できると我々は主張する。
この目的のために, LDM用に設計された次世代画像透かし手法であるLaWaを提案する。
粗い透かし埋め込みモジュールを使用することで、LaWaは事前訓練されたオートエンコーダの潜伏空間を修正し、画像の知覚品質を維持しながら、幅広い画像変換に対して高い堅牢性を実現する。
また,LaWaは一般的な画像透かしにも利用できることを示す。
広範な実験を通じて、LaWaは、認識品質、攻撃に対する堅牢性、計算複雑性において、非常に低い偽陽性率を持ちながら、過去の研究よりも優れていたことを実証した。
コードはここにある。
With generative models producing high quality images that are indistinguishable from real ones, there is growing concern regarding the malicious usage of AI-generated images. Imperceptible image watermarking is one viable solution towards such concerns. Prior watermarking methods map the image to a latent space for adding the watermark. Moreover, Latent Diffusion Models (LDM) generate the image in the latent space of a pre-trained autoencoder. We argue that this latent space can be used to integrate watermarking into the generation process. To this end, we present LaWa, an in-generation image watermarking method designed for LDMs. By using coarse-to-fine watermark embedding modules, LaWa modifies the latent space of pre-trained autoencoders and achieves high robustness against a wide range of image transformations while preserving perceptual quality of the image. We show that LaWa can also be used as a general image watermarking method. Through extensive experiments, we demonstrate that LaWa outperforms previous works in perceptual quality, robustness against attacks, and computational complexity, while having very low false positive rate. Code is available here. | 翻訳日:2024-08-26 17:21:03 公開日:2024-08-22 |
# TEXTOC:テキスト駆動型オブジェクト中心スタイル転送
TEXTOC: Text-driven Object-Centric Style Transfer ( http://arxiv.org/abs/2408.08461v2 ) ライセンス: Link先を確認 | Jihun Park, Jongmin Gim, Kyoungmin Lee, Seunghun Lee, Sunghoon Im, | (参考訳) テキスト入力を用いたオブジェクト中心レベルでのスタイル転送をガイドする,テキスト駆動型オブジェクト中心スタイル転送(TEXTOC)を提案する。
TEXTOCの中核は、私たちのPatch-wise Co-Directional (PCD)損失であり、入力テキストと密接に一致した正確なオブジェクト中心変換のために慎重に設計されている。
この損失は、テキスト誘導スタイルの方向に対するパッチ方向の損失と、CLIP埋め込みのオブジェクト領域間の分散に対するパッチ分布の整合性損失を組み合わせたものだ。
オブジェクト領域間のシームレスで調和の取れたスタイル転送を保証する。
本手法の鍵となるのは,テキストマッチング・パッチ・セレクション (TMPS) とプリフィックス・リージョン・セレクション (PRS) モジュールである。
最後に、画像の背景の本来のスタイルと構造的要素を維持するために、適応的背景保存(ABP)損失を導入する。
この損失は動的に同定された背景領域に適用される。
広汎な実験は、視覚的に一貫性があり、テキスト的に整合したスタイル転送の作成において、我々のアプローチの有効性を裏付けるものである。
We present Text-driven Object-Centric Style Transfer (TEXTOC), a novel method that guides style transfer at an object-centric level using textual inputs. The core of TEXTOC is our Patch-wise Co-Directional (PCD) loss, meticulously designed for precise object-centric transformations that are closely aligned with the input text. This loss combines a patch directional loss for text-guided style direction and a patch distribution consistency loss for even CLIP embedding distribution across object regions. It ensures a seamless and harmonious style transfer across object regions. Key to our method are the Text-Matched Patch Selection (TMPS) and Pre-fixed Region Selection (PRS) modules for identifying object locations via text, eliminating the need for segmentation masks. Lastly, we introduce an Adaptive Background Preservation (ABP) loss to maintain the original style and structural essence of the image's background. This loss is applied to dynamically identified background areas. Extensive experiments underline the effectiveness of our approach in creating visually coherent and textually aligned style transfers. | 翻訳日:2024-08-26 17:10:58 公開日:2024-08-22 |
# ネットワークにおけるコミュニティ検出の強化:局所的メトリクスと階層的アルゴリズムの比較分析
Enhancing Community Detection in Networks: A Comparative Analysis of Local Metrics and Hierarchical Algorithms ( http://arxiv.org/abs/2408.09072v2 ) ライセンス: Link先を確認 | Julio-Omar Palacio-Niño, Fernando Berzal, | (参考訳) ネットワーク構造におけるコミュニティの分析と検出は、社会的行動を理解するためにますます重要になっている。
この分野での大きな課題の1つは、既存のアルゴリズムの複雑さである。
Girvan-Newmanアルゴリズムはノード間の距離をノード類似性の尺度として用いており、この分野で最も代表的なアルゴリズムの1つである。
本研究は,地域間類似度指標を用いた地域検出の関連性を評価するために,同じ手法を用いている。
Girvan-Newman基本アルゴリズムを用いて構築されたネットワーク上で、一連のローカルメトリクスがテストされた。
これらの指標の有効性は,モジュール性とNMIを用いて,異なるコミュニティサイズを持つ複数の実ネットワークにベースアルゴリズムを適用して評価した。
その結果,地域類似度尺度に基づくアプローチは,コミュニティ検出に有意な可能性を示唆した。
The analysis and detection of communities in network structures are becoming increasingly relevant for understanding social behavior. One of the principal challenges in this field is the complexity of existing algorithms. The Girvan-Newman algorithm, which uses the betweenness metric as a measure of node similarity, is one of the most representative algorithms in this area. This study employs the same method to evaluate the relevance of using local similarity metrics for community detection. A series of local metrics were tested on a set of networks constructed using the Girvan-Newman basic algorithm. The efficacy of these metrics was evaluated by applying the base algorithm to several real networks with varying community sizes, using modularity and NMI. The results indicate that approaches based on local similarity metrics have significant potential for community detection. | 翻訳日:2024-08-26 17:10:58 公開日:2024-08-22 |
# 黒潮拡張による2000年以降の観測海面高さの拡散モデルによるダウンスケーリング
Generative Diffusion Model-based Downscaling of Observed Sea Surface Height over Kuroshio Extension since 2000 ( http://arxiv.org/abs/2408.12632v1 ) ライセンス: Link先を確認 | Qiuchang Han, Xingliang Jiang, Yang Zhao, Xudong Wang, Zhijin Li, Renhe Zhang, | (参考訳) 衛星高度計は地球規模の海面変動を観測するために広く利用されており、盆地スケールから局地的な海面変動の観測を可能にしている。
しかし、観測高度計の空間分解能は、0.25o以下の水平スケールで発生する海洋のサブメソスケール変動の理解を制限している。
そこで本研究では,高分解能海面高度(SSH)再解析データをトレーニングするための最先端な生成拡散モデルを導入し,その優位性を示す。
拡散モデルでは、約12kmの波長に対応する0.25oの分解能から1/16oまでの生衛星補間データを効果的にダウンスケールする。
このモデルは、他の高分解能リアナリシスデータセットやニューラルネットワークベースの手法よりも優れている。
また、衛星の軌道観測における空間パターンとパワースペクトルを再現することに成功した。
その結果,2004年以降の黒潮拡張地域では,250km未満の水平スケールでの渦運動エネルギーが著しく増加したことが示唆された。
これらの知見は、衛星高度計の再構築における深層学習の可能性と、海流スケールでの海洋力学の理解の向上を裏付けるものである。
Satellite altimetry has been widely utilized to monitor global sea surface dynamics, enabling investigation of upper ocean variability from basin-scale to localized eddy ranges. However, the sparse spatial resolution of observational altimetry limits our understanding of oceanic submesoscale variability, prevalent at horizontal scales below 0.25o resolution. Here, we introduce a state-of-the-art generative diffusion model to train high-resolution sea surface height (SSH) reanalysis data and demonstrate its advantage in observational SSH downscaling over the eddy-rich Kuroshio Extension region. The diffusion-based model effectively downscales raw satellite-interpolated data from 0.25o resolution to 1/16o, corresponding to approximately 12-km wavelength. This model outperforms other high-resolution reanalysis datasets and neural network-based methods. Also, it successfully reproduces the spatial patterns and power spectra of satellite along-track observations. Our diffusion-based results indicate that eddy kinetic energy at horizontal scales less than 250 km has intensified significantly since 2004 in the Kuroshio Extension region. These findings underscore the great potential of deep learning in reconstructing satellite altimetry and enhancing our understanding of ocean dynamics at eddy scales. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# デジタル双極子技術における共同ハイパーグラフ再生とメモリ拡張予測技術
Joint Hypergraph Rewiring and Memory-Augmented Forecasting Techniques in Digital Twin Technology ( http://arxiv.org/abs/2408.12634v1 ) ライセンス: Link先を確認 | Sagar Srinivas Sakhinana, Krishna Sai Sudhir Aripirala, Shivam Gupta, Venkataramana Runkana, | (参考訳) Digital Twin技術は、物理的オブジェクト、プロセス、システムの仮想レプリカを作成し、それらの特性、データ、振る舞いを複製する。
この先進的な技術は、設計最適化、性能推定、監視操作を容易にする、モデリング、シミュレーション、データ駆動意思決定など、さまざまなインテリジェントな機能を提供します。
予測はデジタルツイン技術において重要な役割を担い、将来の成果の予測を可能にし、情報に基づく意思決定をサポートし、リスクを最小化し、効率、生産性、コスト削減を改善する。
近年、Digital Twin技術は、大規模複雑なセンサーネットワークにおけるグラフ予測技術を活用し、様々なシナリオの正確な予測とシミュレーションを可能にし、積極的な意思決定とデータ駆動意思決定を促進する。
しかし、既存のグラフ予測技術は、多くの現実世界のアプリケーションにスケーラビリティを欠いている。
これらは、非定常環境への適応、過去の知識の保持、高次の時空間力学を捉えるメカニズムの欠如、モデル予測の不確実性を推定する能力に制限がある。
課題を克服するために,新しいパターンへの高速適応と過去の知識のメモリベース検索を取り入れ,ハイパーグラフ表現学習のバックボーンを強化するハイブリッドアーキテクチャを導入する。
このバランスは、ゆっくりと学習したバックボーンを改善し、最近の変更に適応してパフォーマンスを向上させることを目的としています。
さらに、マルチ水平予測の時間変化の不確実性をモデル化し、予測不確実性の推定を提供する。
我々の予測アーキテクチャはアブレーション研究によって検証され、複数のベンチマークデータセットで有望な結果を示し、最先端の予測手法をかなりの差で上回っている。
Digital Twin technology creates virtual replicas of physical objects, processes, or systems by replicating their properties, data, and behaviors. This advanced technology offers a range of intelligent functionalities, such as modeling, simulation, and data-driven decision-making, that facilitate design optimization, performance estimation, and monitoring operations. Forecasting plays a pivotal role in Digital Twin technology, as it enables the prediction of future outcomes, supports informed decision-making, minimizes risks, driving improvements in efficiency, productivity, and cost reduction. Recently, Digital Twin technology has leveraged Graph forecasting techniques in large-scale complex sensor networks to enable accurate forecasting and simulation of diverse scenarios, fostering proactive and data-driven decision making. However, existing Graph forecasting techniques lack scalability for many real-world applications. They have limited ability to adapt to non-stationary environments, retain past knowledge, lack a mechanism to capture the higher order spatio-temporal dynamics, and estimate uncertainty in model predictions. To surmount the challenges, we introduce a hybrid architecture that enhances the hypergraph representation learning backbone by incorporating fast adaptation to new patterns and memory-based retrieval of past knowledge. This balance aims to improve the slowly-learned backbone and achieve better performance in adapting to recent changes. In addition, it models the time-varying uncertainty of multi-horizon forecasts, providing estimates of prediction uncertainty. Our forecasting architecture has been validated through ablation studies and has demonstrated promising results across multiple benchmark datasets, surpassing state-ofthe-art forecasting methods by a significant margin. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# Wave-LSTM:体性全ゲノムコピー数プロファイルのマルチスケール解析
Wave-LSTM: Multi-scale analysis of somatic whole genome copy number profiles ( http://arxiv.org/abs/2408.12636v1 ) ライセンス: Link先を確認 | Charles Gadd, Christopher Yau, | (参考訳) ゲノムの特定の部分のコピー数の変化(コピー数変更(CNAs))は、体細胞突然変異によるものである。
このゲノムの複雑さは、患者にとってより貧弱な結果に結びつくことが知られているが、その貢献を詳細に説明することは困難である。
コピー数の変化は、染色体全体またはゲノムそのもの全体にまたがる大きな領域に影響を与えるが、ゲノムの小さな部分のみに局在することもでき、このマルチスケールの性質を定量化できる方法はない。
本稿では、複雑な全ゲノムコピー数プロファイルのマルチスケール構造を捉えるために設計された信号分解手法であるWave-LSTMを用いて、この問題に対処する。
ウェーブレットベースのソース分離とディープラーニングベースのアテンションメカニズムを併用する。
本稿では,Wave-LSTMを用いて単一セルコピー数データからサブクローン構造を解読し,患者腫瘍プロファイルから生存予測性能を向上させるために,コピー数プロファイルからマルチスケール表現を導出できることを示す。
Changes in the number of copies of certain parts of the genome, known as copy number alterations (CNAs), due to somatic mutation processes are a hallmark of many cancers. This genomic complexity is known to be associated with poorer outcomes for patients but describing its contribution in detail has been difficult. Copy number alterations can affect large regions spanning whole chromosomes or the entire genome itself but can also be localised to only small segments of the genome and no methods exist that allow this multi-scale nature to be quantified. In this paper, we address this using Wave-LSTM, a signal decomposition approach designed to capture the multi-scale structure of complex whole genome copy number profiles. Using wavelet-based source separation in combination with deep learning-based attention mechanisms. We show that Wave-LSTM can be used to derive multi-scale representations from copy number profiles which can be used to decipher sub-clonal structures from single-cell copy number data and to improve survival prediction performance from patient tumour profiles. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# 視覚言語モデルの構築と理解 : 洞察と今後の方向性
Building and better understanding vision-language models: insights and future directions ( http://arxiv.org/abs/2408.12637v1 ) ライセンス: Link先を確認 | Hugo Laurençon, Andrés Marafioti, Victor Sanh, Léo Tronchon, | (参考訳) 画像やテキストを入力および出力テキストとして取り込む視覚言語モデル(VLM)の分野は急速に発展しており、データ、アーキテクチャ、トレーニング方法など、開発パイプラインのいくつかの重要な側面について合意に達していない。
この論文は、VLMを構築するためのチュートリアルと見なすことができる。
まず、現在の最先端のアプローチの概要を概観し、それぞれの長所と短所を強調し、この分野における大きな課題に対処し、未探索領域に対して有望な研究方向を提案することから始めます。
Idefics3-8Bは、前任のIdefics2-8Bを大きく上回っている強力なVLMで、オープンデータセットのみで、簡単なパイプラインを使用して、効率的にトレーニングされている。
これらのステップには、ドキュメント理解機能を改善するデータセットであるDocmatixの作成が含まれている。
トレーニング用に作成されたデータセットとともに、モデルをリリースしています。
The field of vision-language models (VLMs), which take images and texts as inputs and output texts, is rapidly evolving and has yet to reach consensus on several key aspects of the development pipeline, including data, architecture, and training methods. This paper can be seen as a tutorial for building a VLM. We begin by providing a comprehensive overview of the current state-of-the-art approaches, highlighting the strengths and weaknesses of each, addressing the major challenges in the field, and suggesting promising research directions for underexplored areas. We then walk through the practical steps to build Idefics3-8B, a powerful VLM that significantly outperforms its predecessor Idefics2-8B, while being trained efficiently, exclusively on open datasets, and using a straightforward pipeline. These steps include the creation of Docmatix, a dataset for improving document understanding capabilities, which is 240 times larger than previously available datasets. We release the model along with the datasets created for its training. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# 非線形動車システムにおけるAI駆動型変圧器モデルによる故障予測
AI-driven Transformer Model for Fault Prediction in Non-Linear Dynamic Automotive System ( http://arxiv.org/abs/2408.12638v1 ) ライセンス: Link先を確認 | Priyanka Kumar, | (参考訳) 自動車エンジンシステムの故障検出は最も有望な研究分野の一つである。
モデルに基づく故障診断の分野では、いくつかの研究がなされている。
多くの研究者が、より高度な統計手法とアルゴリズムを発見し、どんな自動車のダイナミックエンジンシステムでもより良い故障検出を行っている。
ガスタービン/ディーゼルエンジンは、非常に複雑で巨大なデータを生成し、それは非常に非線形である。
だから研究者たちは、この巨大で複雑なデータを非線形のダイナミックなシステムで扱えるほど、よりレジリエントで堅牢な自動化システムを考え出すべきだ。
本稿では,高非線形動車システムに適用可能な,AIに基づく故障分類・予測モデルをディーゼルエンジンに提示する。
本研究の主な貢献は,WLTP(Worldwide Harmon Light Vehicle Test procedure)の運転サイクルに関する,ディーゼルエンジンにおけるAIベースのトランスフォーマー故障分類と予測モデルである。
このモデルは27の入力次元、2つのレイヤーを持つ64の隠れ次元と9のヘッドを使用して、12の出力ヘッドを持つ分類器(1つはフォールトフリーデータ、1つはフォールトフリーデータ、11はフォールトタイプ)を作成しました。
このモデルは、5つのNVIDIA V100 GPU、40コアCPU、384GB RAMを持つUTSA Arc High-Performance Compute (HPC)クラスタでトレーニングされ、保持されたテストセットで70.01 %の精度を達成した。
Fault detection in automotive engine systems is one of the most promising research areas. Several works have been done in the field of model-based fault diagnosis. Many researchers have discovered more advanced statistical methods and algorithms for better fault detection on any automotive dynamic engine system. The gas turbines/diesel engines produce highly complex and huge data which are highly non-linear. So, researchers should come up with an automated system that is more resilient and robust enough to handle this huge, complex data in highly non-linear dynamic automotive systems. Here, I present an AI-based fault classification and prediction model in the diesel engine that can be applied to any highly non-linear dynamic automotive system. The main contribution of this paper is the AI-based Transformer fault classification and prediction model in the diesel engine concerning the worldwide harmonic light vehicle test procedure (WLTP) driving cycle. This model used 27 input dimensions, 64 hidden dimensions with 2 layers, and 9 heads to create a classifier with 12 output heads (one for fault-free data and 11 different fault types). This model was trained on the UTSA Arc High-Performance Compute (HPC) cluster with 5 NVIDIA V100 GPUs, 40-core CPUs, and 384GB RAM and achieved 70.01 % accuracy on a held test set. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# 光空洞内のフェルミオン超流動性の量子シミュレータにおける時間分解対ギャップ分光
Time-resolved pairing gap spectroscopy in a quantum simulator of fermionic superfluidity inside an optical cavity ( http://arxiv.org/abs/2408.12640v1 ) ライセンス: Link先を確認 | Dylan J. Young, Eric Yilun Song, Anjun Chu, Diego Barberena, Zhijing Niu, Vera M. Schäfer, Robert J. Lewis-Swan, Ana Maria Rey, James K. Thompson, | (参考訳) レーザー冷却したストロンチウム原子を高濃度キャビティにアンサンブルして, 縮退した低温ガスのフェルミオン超流動におけるBEC-BCS物理研究に使用されるrf分光法をきれいにエミュレートする。
ここでは、原子の多層構造を利用して、この系におけるクーパー対破壊の物理を研究する。
そこで我々は,BCSペアリングギャップとスペクトルギャップの2つの異なる多体ギャップの特性を,非破壊的読み出し技術を用いて観察し,識別する。
後者は内部の原子状態の個体群に依存しており、フェルミオン性超流動で予測される化学的ポテンシャル依存を反映している。
この研究は、キャビティQEDエミュレータ内の原子の内部構造をより十分に活用し、類似系と、まだ実現されていないよりエキゾチックな状態の両方を研究するための道を開く。
We use an ensemble of laser-cooled strontium atoms in a high-finesse cavity to cleanly emulate the technique of rf spectroscopy employed in studies of BEC-BCS physics in fermionic superfluids of degenerate cold gases. Here, we leverage the multilevel internal structure of the atoms to study the physics of Cooper pair breaking in this system. In doing so, we observe and distinguish the properties of two distinct many-body gaps, the BCS pairing gap and the spectral gap, using nondestructive readout techniques. The latter is found to depend on the populations of the internal atomic states, reflecting the chemical potential dependence predicted in fermionic superfluids. This work opens the path for more fully exploiting the rich internal structure of atoms in cavity QED emulators to study both analogous systems and also more exotic states yet to be realized. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# SchwingerモデルにおけるSurrogate Constructed Scalable Circuits ADAPT-VQE
Surrogate Constructed Scalable Circuits ADAPT-VQE in the Schwinger model ( http://arxiv.org/abs/2408.12641v1 ) ライセンス: Link先を確認 | Erik Gustafson, Kyle Sherbert, Adrien Florio, Karunya Shirali, Yanzhu Chen, Henry Lamm, Semeon Valgushev, Andreas Weichselbaum, Sophia E. Economou, Robert D. Pisarski, Norm M. Tubman, | (参考訳) 量子コンピュータにおける周期系シミュレーションの最近の進歩に触発されて、これらのシステムのシミュレーションをさらに進めるために、新しいアプローチ (SC)$^2$-ADAPT-VQE を開発した。
提案手法は,任意のサイズで定義されている座標不変演算子のプールからアンザッツを構築するためのスケーラブル回路ADAPT-VQEフレームワークを拡張している。
提案手法では,古典的に抽出可能な ``Surrogate Constructed'' 法を用いて,無関係な演算子をプールから取り除き,拡張性のある回路を定義する最小サイズを小さくする。
スケーラブルな回路とサロゲート構築アプローチを組み合わせることで、(SC)$^2$方法論のコアとなる。
我々のアプローチは、より堅牢な外挿プロトコルに使用できる、小ボリュームの古典計算のより広範なセットを可能にする。
格子モデルの文脈で開発されているが、サロゲート構成部分は、プール内の演算子の相対的重要性に関する情報が利用できる様々な問題に適用できる。
一例として、シュウィンガーモデル(1+1$次元の1つの大きなフェルミオンに対する量子電磁力学)の特性を計算し、我々の方法が連続極限に正確に外挿できることを示す。
Inspired by recent advancements of simulating periodic systems on quantum computers, we develop a new approach, (SC)$^2$-ADAPT-VQE, to further advance the simulation of these systems. Our approach extends the scalable circuits ADAPT-VQE framework, which builds an ansatz from a pool of coordinate-invariant operators defined for arbitrarily large, though not arbitrarily small, volumes. Our method uses a classically tractable ``Surrogate Constructed'' method to remove irrelevant operators from the pool, reducing the minimum size for which the scalable circuits are defined. Bringing together the scalable circuits and the surrogate constructed approaches forms the core of the (SC)$^2$ methodology. Our approach allows for a wider set of classical computations, on small volumes, which can be used for a more robust extrapolation protocol. While developed in the context of lattice models, the surrogate construction portion is applicable to a wide variety of problems where information about the relative importance of operators in the pool is available. As an example, we use it to compute properties of the Schwinger model - quantum electrodynamics for a single, massive fermion in $1+1$ dimensions - and show that our method can be used to accurately extrapolate to the continuum limit. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# 純反転量子オシレータの時間外整列器:古典的カオスは量子安定性に合致する
Out-Of-Time-Ordered-Correlators for the Pure Inverted Quartic Oscillator: Classical Chaos meets Quantum Stability ( http://arxiv.org/abs/2408.12643v1 ) ライセンス: Link先を確認 | Paul Romatschke, | (参考訳) 量子力学系におけるカオス的挙動を診断する手段として、OTOC(Out-of-time-ordered-correlator)が提案されている。
近年、OTOCは逆量子調和振動子に対して指数関数的な成長を示し、この系が古典的かつ量子力学的に不安定であるという事実を反映していることが判明した。
本研究では, 量子力学における逆非調和(純クォート)発振器のOTOCについて検討し, 古典的に不安定な性質に拘わらず, 振動挙動のみを見いだした。
高温では, OTOCsの飽和度は, 遅くとも2×x^2 \rangle_T \langle p^2 \rangle_T$と一致している。
スペクトルゼータ関数とWKB法およびシュリンガー方程式の直接数値解から、反転クォート振動子が実および正のエネルギー固有スペクトルを持ち、正規化可能な波動関数を持つという解析的証拠を提供する。
Out-of-time-ordered-correlators (OTOCs) have been suggested as a means to diagnose chaotic behavior in quantum mechanical systems. Recently, it was found that OTOCs display exponential growth for the inverted quantum harmonic oscillator, mirroring the fact that this system is classically and quantum mechanically unstable. In this work, I study OTOCs for the inverted anharmonic (pure quartic) oscillator in quantum mechanics, finding only oscillatory behavior despite the classically unstable nature of the system. For higher temperature, OTOCs seem to exhibit saturation consistent with a value of $-2 \langle x^2 \rangle_T \langle p^2 \rangle_T$ at late times. I provide analytic evidence from the spectral zeta-function and the WKB method as well as direct numerical solutions of the Schr\"odinger equation that the inverted quartic oscillator possesses a real and positive energy eigenspectrum, and normalizable wave-functions. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# 大規模における位相的絡み合いの探索
Probing topological entanglement on large scales ( http://arxiv.org/abs/2408.12645v1 ) ライセンス: Link先を確認 | Robert Ott, Torsten V. Zache, Nishad Maskara, Mikhail D. Lukin, Peter Zoller, Hannes Pichler, | (参考訳) トポロジカルに秩序づけられた量子物質は、エンタングルメントの長い範囲のパターンを示し、それがサブシステムエントロピーに現れる。
しかし、そのようなエントロピーを測ることは、トポロジ的順序の証明に使用できるが、大きなパーティション上では困難であり、大規模システムでは事実上不可能となる。
有限サイズの小さなサブシステム上での計測から長距離位相絡みの普遍的な特徴を抽出し,多項式時間進化に対する指数関数的な測定数と引き換えに,ハミルトニアンの局所的断熱変形に基づくプロトコルを提案する。
我々のプロトコルは汎用的で、様々な量子シミュレーションアーキテクチャに容易に適用できる。
本手法は, アーベルおよび非アーベルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロ
Topologically ordered quantum matter exhibits intriguing long-range patterns of entanglement, which reveal themselves in subsystem entropies. However, measuring such entropies, which can be used to certify topological order, on large partitions is challenging and becomes practically unfeasible for large systems. We propose a protocol based on local adiabatic deformations of the Hamiltonian which extracts the universal features of long-range topological entanglement from measurements on small subsystems of finite size, trading an exponential number of measurements against a polynomial-time evolution. Our protocol is general and readily applicable to various quantum simulation architectures. We apply our method to various string-net models representing both abelian and non-abelian topologically ordered phases, and illustrate its application to neutral atom tweezer arrays with numerical simulations. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# モンテカルロ木探索によるQAOA--干し草の針の発見
A Monte Carlo Tree Search approach to QAOA: finding a needle in the haystack ( http://arxiv.org/abs/2408.12648v1 ) ライセンス: Link先を確認 | Andoni Agirre, Evert Van Nieuwenburg, Matteo M. Wauters, | (参考訳) 古典的な組合せ最適化問題に対処する量子アルゴリズムの探索は、長い間量子コンピューティングにおいて最も魅力的で挑戦的な研究トピックの1つであった。
この文脈では、変分量子アルゴリズム(VQA)は、短期量子ハードウェアの限られた能力に対処するために設計された、ハイブリッド量子古典法の一群である。
しかし、それらの効果は、局所的なミニマやコスト関数ランドスケープの平坦な領域で立ち往生しがちな古典的パラメータ最適化の複雑さによって妨げられている。
したがって、効率的な最適化手法の巧妙な設計は、VQAの可能性を完全に活用する上で、基本的な重要性である。
本研究では、パラメータ最適化を逐次決定問題としてアプローチし、複雑な決定グラフを効率的に探索するために設計された一般的な人工知能技術であるモンテカルロ木探索(MCTS)の適応に対処する。
パラメータパターンの正規化は、決定木構造に深く影響し、短期量子デバイスに適したフレキシブルでノイズ耐性の最適化戦略を可能にすることを示す。
我々の結果は、人工知能と量子情報の相互作用にさらに光を当て、変分量子回路のツールキットに貴重な付加を提供する。
The search for quantum algorithms to tackle classical combinatorial optimization problems has long been one of the most attractive yet challenging research topics in quantum computing. In this context, variational quantum algorithms (VQA) are a promising family of hybrid quantum-classical methods tailored to cope with the limited capability of near-term quantum hardware. However, their effectiveness is hampered by the complexity of the classical parameter optimization which is prone to getting stuck either in local minima or in flat regions of the cost-function landscape. The clever design of efficient optimization methods is therefore of fundamental importance for fully leveraging the potential of VQAs. In this work, we approach parameter optimization as a sequential decision-making problem and tackle it with an adaptation of Monte Carlo Tree Search (MCTS), a common artificial intelligence technique designed for efficiently exploring complex decision graphs. We show that leveraging regular parameter patterns deeply affects the decision-tree structure and allows for a flexible and noise-resilient optimization strategy suitable for near-term quantum devices. Our results shed further light on the interplay between artificial intelligence and quantum information and provide a valuable addition to the toolkit of variational quantum circuits. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# データ選択学習のためのメタデータ管理による放射線処理機械学習ワークフローの改善
Improving Radiography Machine Learning Workflows via Metadata Management for Training Data Selection ( http://arxiv.org/abs/2408.12655v1 ) ライセンス: Link先を確認 | Mirabel Reid, Christine Sweeney, Oleg Korobkin, | (参考訳) ほとんどの機械学習モデルは、効果的な結果を得るために、ハイパーパラメータチューニング、機能エンジニアリング、デバッグの多くのイテレーションを必要とする。
機械学習モデルが複雑化するにつれて、このパイプラインはより効果的に管理することが難しくなる。
物理科学では、科学研究サイクルによって生成されるメタデータのプールが永遠に増え続ける。
このメタデータを追跡することで、余分な作業の削減、再現性の向上、機能とデータセットエンジニアリングプロセスの強化が可能になる。
本稿では,動的ラジオグラフィにおける機械学習メタデータ管理のためのツールを提案する。
本稿では,このツールの初期の研究ワークフローに対する有効性を評価し,物理科学における一般的な機械学習パイプラインの拡張について論じる。
Most machine learning models require many iterations of hyper-parameter tuning, feature engineering, and debugging to produce effective results. As machine learning models become more complicated, this pipeline becomes more difficult to manage effectively. In the physical sciences, there is an ever-increasing pool of metadata that is generated by the scientific research cycle. Tracking this metadata can reduce redundant work, improve reproducibility, and aid in the feature and training dataset engineering process. In this case study, we present a tool for machine learning metadata management in dynamic radiography. We evaluate the efficacy of this tool against the initial research workflow and discuss extensions to general machine learning pipelines in the physical sciences. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# ヒンズーシャニー古典音楽における旋律音節の階層的生成モデル
Hierarchical Generative Modeling of Melodic Vocal Contours in Hindustani Classical Music ( http://arxiv.org/abs/2408.12658v1 ) ライセンス: Link先を確認 | Nithya Shikarpur, Krishna Maneesha Dendukur, Yusong Wu, Antoine Caillon, Cheng-Zhi Anna Huang, | (参考訳) ヒンドゥーシャニー音楽は、豊かなメロディック・パターンの再現を示す演奏駆動の口承の伝統である。
本稿では,歌手の音声録音から抽出したメロディーの生成モデルに焦点をあてる。
ヒンズーシャニーの音楽モデルにおける以前の生成的作業は、歌唱の豊かな表現的な旋律の複雑さを捉えるのに失敗する粗い離散的なシンボルとして旋律を表現している。
そこで我々は,階層型音声モデリングの中間表現として,微細な量子化されたピッチ輪郭を提案する。
本稿では,ピッチ輪郭生成モデルとピッチ輪郭合成モデルからなるモジュール型2層階層GaMaDHaNiを提案する。
非階層型音声モデルと自己教師付き中間表現を用いた階層型モデルとのアプローチをリスニングテストと定性解析により比較する。
また、ピアソン相関係数を用いてピッチ輪郭入力を忠実に表現する音響モデルの能力を評価する。
ピッチの輪郭を中間表現として使用することにより,2つの潜在的な相互作用ユースケース(1)素数生成,(2)粗いピッチ条件付けを強調することにより,人間とAIの協調的な環境下でのミュージシャンの聴取と応答に,我々のモデルの方が適していることを示す。
Hindustani music is a performance-driven oral tradition that exhibits the rendition of rich melodic patterns. In this paper, we focus on generative modeling of singers' vocal melodies extracted from audio recordings, as the voice is musically prominent within the tradition. Prior generative work in Hindustani music models melodies as coarse discrete symbols which fails to capture the rich expressive melodic intricacies of singing. Thus, we propose to use a finely quantized pitch contour, as an intermediate representation for hierarchical audio modeling. We propose GaMaDHaNi, a modular two-level hierarchy, consisting of a generative model on pitch contours, and a pitch contour to audio synthesis model. We compare our approach to non-hierarchical audio models and hierarchical models that use a self-supervised intermediate representation, through a listening test and qualitative analysis. We also evaluate audio model's ability to faithfully represent the pitch contour input using Pearson correlation coefficient. By using pitch contours as an intermediate representation, we show that our model may be better equipped to listen and respond to musicians in a human-AI collaborative setting by highlighting two potential interaction use cases (1) primed generation, and (2) coarse pitch conditioning. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# タスク非依存グラフ評価のためのアンタングル構造と特徴表現
Disentangled Structural and Featural Representation for Task-Agnostic Graph Valuation ( http://arxiv.org/abs/2408.12659v1 ) ライセンス: Link先を確認 | Ali Falahati, Mohammad Mohammadi Amiri, | (参考訳) データマーケットプレースの出現に伴い、データの価値を評価する方法の需要が大幅に増加した。
この目的のために多くの技術が提案されているが、グラフを主データモダリティとして具体的に扱うものは存在しない。
グラフは、化学分子からソーシャルネットワークまで、様々な分野に広く使われている。
本研究では,グラフを2つの主要構成要素に分割する。構造的および卓越的であり,特定のタスク関連の指標に頼らずにデータを評価することに集中し,検証要件が欠如しているような現実的なシナリオに適用できるようにする。
我々は,グラフマッチングに基づく共有ノード置換を用いて,売り手と買い手のグラフを整列するブラインドメッセージパッシングという新しいフレームワークを導入する。
これにより、グラフワッサーシュタイン距離を利用して、構造格差と呼ばれるグラフデータセットの構造分布の違いを定量化できる。
次に、データ評価のための買い手グラフと売り手のグラフの偉業的な側面を考察し、その統計的類似点と相違点をそれぞれ関連性および多様性として捉えた。
当社のアプローチは、買い手と売り手がお互いのデータセットに気付かないことを保証するものです。
実際のデータセットに対する我々の実験は、特にグラフベースのデータ評価シナリオにおいて、購入者に対する販売者データの関連性、多様性、構造的格差を捉える上で、我々のアプローチの有効性を実証する。
With the emergence of data marketplaces, the demand for methods to assess the value of data has increased significantly. While numerous techniques have been proposed for this purpose, none have specifically addressed graphs as the main data modality. Graphs are widely used across various fields, ranging from chemical molecules to social networks. In this study, we break down graphs into two main components: structural and featural, and we focus on evaluating data without relying on specific task-related metrics, making it applicable in practical scenarios where validation requirements may be lacking. We introduce a novel framework called blind message passing, which aligns the seller's and buyer's graphs using a shared node permutation based on graph matching. This allows us to utilize the graph Wasserstein distance to quantify the differences in the structural distribution of graph datasets, called the structural disparities. We then consider featural aspects of buyers' and sellers' graphs for data valuation and capture their statistical similarities and differences, referred to as relevance and diversity, respectively. Our approach ensures that buyers and sellers remain unaware of each other's datasets. Our experiments on real datasets demonstrate the effectiveness of our approach in capturing the relevance, diversity, and structural disparities of seller data for buyers, particularly in graph-based data valuation scenarios. | 翻訳日:2024-08-26 16:59:27 公開日:2024-08-22 |
# ニューラルネットワークの多レベル解釈可能性:神経科学の枠組みと手法の活用
Multilevel Interpretability Of Artificial Neural Networks: Leveraging Framework And Methods From Neuroscience ( http://arxiv.org/abs/2408.12664v1 ) ライセンス: Link先を確認 | Zhonghao He, Jascha Achterberg, Katie Collins, Kevin Nejad, Danyal Akarca, Yinzhu Yang, Wes Gurnee, Ilia Sucholutsky, Yuhan Tang, Rebeca Ianov, George Ogden, Chole Li, Kai Sandbrink, Stephen Casper, Anna Ivanova, Grace W. Lindsay, | (参考訳) ディープラーニングシステムは数十億のパラメータにスケールするので、内部構造と外部の振る舞いを関連付けることは非常に難しい。
神経科学者と認知科学者は何十年もの間、特に複雑なシステム(脳)を分析してきた。
本研究では, 生体と人工のニューラルシステムの両方を解釈するには, 各レベルの異なる分析ツールを用いて, 複数のレベルの分析を行う必要がある,と論じる。
私たちはまず、脳を研究し、人工ニューラルネットワークを研究する科学者の間で、分散ニューラルネットワークが複雑な認知と行動を引き起こす方法を理解するという、共同で大きな課題を提起しました。
次に、生物学的および人工的なニューラルネットワークの分析に使用でき、Marrの3つの分析レベル(計算/振る舞い、アルゴリズム/表現、実装)に従ってそれらのツールを整理する。
全体として、多レベル解釈可能性フレームワークは、ニューラルネットワークの複雑さに取り組むための原則的な方法を提供し、構造、計算、振る舞いをリンクし、各レベルでの仮定と研究の優先順位を明確にし、知的システムを理解するための統一された取り組みへの道を開く。
As deep learning systems are scaled up to many billions of parameters, relating their internal structure to external behaviors becomes very challenging. Although daunting, this problem is not new: Neuroscientists and cognitive scientists have accumulated decades of experience analyzing a particularly complex system - the brain. In this work, we argue that interpreting both biological and artificial neural systems requires analyzing those systems at multiple levels of analysis, with different analytic tools for each level. We first lay out a joint grand challenge among scientists who study the brain and who study artificial neural networks: understanding how distributed neural mechanisms give rise to complex cognition and behavior. We then present a series of analytical tools that can be used to analyze biological and artificial neural systems, organizing those tools according to Marr's three levels of analysis: computation/behavior, algorithm/representation, and implementation. Overall, the multilevel interpretability framework provides a principled way to tackle neural system complexity; links structure, computation, and behavior; clarifies assumptions and research priorities at each level; and paves the way toward a unified effort for understanding intelligent systems, may they be biological or artificial. | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# 時系列分類のためのディープラーニングモデルにおける非現実的解釈可能性のベンチマーク
Benchmarking Counterfactual Interpretability in Deep Learning Models for Time Series Classification ( http://arxiv.org/abs/2408.12666v1 ) ライセンス: Link先を確認 | Ziwen Kan, Shahbaz Rezaei, Xin liu, | (参考訳) 時系列領域におけるディープラーニング手法の人気は、対実的(CF)手法を含む解釈可能性研究への関心を高めている。
CFメソッドは、モデル予測を変更するインスタンスの最小限の変更を識別する。
大規模な研究にもかかわらず、時系列領域におけるCFメソッドの既存のベンチマークは存在しない。
さらに、論文で報告された結果は、データセットの数が限られており、メトリクスが不十分であるため、決定的ではない。
本研究では,CFの望ましい特性を正確に把握するために,定量的なメトリクスを再設計する。
特に、疎度と可視性のためにメトリクスを再設計し、一貫性のための新しいメトリクスを導入します。
妥当性,生成時間,近接性が組み合わさって総合的な計量集合を形成する。
我々は、20の単変量データセットと10の多変量データセットに3つの異なる分類器を持つ6つの異なるCF手法を体系的にベンチマークした。
その結果、CFメソッドのパフォーマンスはメトリクスや異なるモデルによって異なります。
最後に,ケーススタディと実践的利用指針について述べる。
The popularity of deep learning methods in the time series domain boosts interest in interpretability studies, including counterfactual (CF) methods. CF methods identify minimal changes in instances to alter the model predictions. Despite extensive research, no existing work benchmarks CF methods in the time series domain. Additionally, the results reported in the literature are inconclusive due to the limited number of datasets and inadequate metrics. In this work, we redesign quantitative metrics to accurately capture desirable characteristics in CFs. We specifically redesign the metrics for sparsity and plausibility and introduce a new metric for consistency. Combined with validity, generation time, and proximity, we form a comprehensive metric set. We systematically benchmark 6 different CF methods on 20 univariate datasets and 10 multivariate datasets with 3 different classifiers. Results indicate that the performance of CF methods varies across metrics and among different models. Finally, we provide case studies and a guideline for practical usage. | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# 敵攻撃に対する周波数領域と空間領域における情報一貫性の活用
Leveraging Information Consistency in Frequency and Spatial Domain for Adversarial Attacks ( http://arxiv.org/abs/2408.12670v1 ) ライセンス: Link先を確認 | Zhibo Jin, Jiayu Zhang, Zhiyu Zhu, Xinyi Wang, Yiyun Huang, Huaming Chen, | (参考訳) 敵対的な例は、ディープニューラルネットワークを利用するための重要な方法である。
勾配情報を使用すると、そのような例は犠牲者のモデルを変更せずに効率的に生成できる。
近年の周波数領域変換は、スペクトルシミュレーション攻撃のような敵の例の転送可能性をさらに高めた。
本研究では,周波数領域攻撃の有効性について検討し,空間領域における同様の知見と整合する。
さらに、このような周波数領域と空間領域の整合性は、勾配に基づく敵攻撃が異なる領域をまたいだ摂動をいかに引き起こすかについての洞察を与えるが、まだ探索されていない。
そこで我々は,周波数領域と空間領域の両方における情報整合性を利用した,単純で効果的でスケーラブルな勾配に基づく逆攻撃アルゴリズムを提案する。
異なるモデルに対してアルゴリズムの有効性を評価する。
大規模な実験により,本アルゴリズムは他の勾配に基づくアルゴリズムと比較して最先端の結果が得られた。
私たちのコードは、https://github.com/LMBTough/FSA.comで利用可能です。
Adversarial examples are a key method to exploit deep neural networks. Using gradient information, such examples can be generated in an efficient way without altering the victim model. Recent frequency domain transformation has further enhanced the transferability of such adversarial examples, such as spectrum simulation attack. In this work, we investigate the effectiveness of frequency domain-based attacks, aligning with similar findings in the spatial domain. Furthermore, such consistency between the frequency and spatial domains provides insights into how gradient-based adversarial attacks induce perturbations across different domains, which is yet to be explored. Hence, we propose a simple, effective, and scalable gradient-based adversarial attack algorithm leveraging the information consistency in both frequency and spatial domains. We evaluate the algorithm for its effectiveness against different models. Extensive experiments demonstrate that our algorithm achieves state-of-the-art results compared to other gradient-based algorithms. Our code is available at: https://github.com/LMBTough/FSA. | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# 改良されたU-netを用いたリモートセンシング画像分割アルゴリズムに関する研究
Research on Improved U-net Based Remote Sensing Image Segmentation Algorithm ( http://arxiv.org/abs/2408.12672v1 ) ライセンス: Link先を確認 | Qiming Yang, Zixin Wang, Shinan Liu, Zizheng Li, | (参考訳) 近年、U-Netネットワークは画像セグメンテーションの分野で大きな進歩を遂げているが、リモートセンシング画像セグメンテーションでは依然としてパフォーマンスのボトルネックに直面している。
本稿では,U-NetにSimAMとCBAMのアテンション機構を導入することを革新的に提案し,SimAMとCBAMモジュールを単独で追加すると,MIoUのモデルが17.41%,12.23%向上し,Mpaと精度も大幅に向上したことを示す。
そして、この2つを融合させた後、モデル性能はMIoUで19.11%まで向上し、Mpaと精度もそれぞれ16.38%、14.8%向上し、高度な一般化能力と堅牢性を備えたセグメンテーション精度と視覚効果が向上した。
本研究では,リモートセンシング画像セグメンテーション技術の新たな道を開き,アルゴリズムの選択と改良のための重要な基準値を持つ。
In recent years, although U-Net network has made significant progress in the field of image segmentation, it still faces performance bottlenecks in remote sensing image segmentation. In this paper, we innovatively propose to introduce SimAM and CBAM attention mechanism in U-Net, and the experimental results show that after adding SimAM and CBAM modules alone, the model improves 17.41% and 12.23% in MIoU, and the Mpa and Accuracy are also significantly improved. And after fusing the two,the model performance jumps up to 19.11% in MIoU, and the Mpa and Accuracy are also improved by 16.38% and 14.8% respectively, showing excellent segmentation accuracy and visual effect with strong generalization ability and robustness. This study opens up a new path for remote sensing image segmentation technology and has important reference value for algorithm selection and improvement. | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# GE-AdvGAN+による敵攻撃の伝達性向上
Enhancing Transferability of Adversarial Attacks with GE-AdvGAN+: A Comprehensive Framework for Gradient Editing ( http://arxiv.org/abs/2408.12673v1 ) ライセンス: Link先を確認 | Zhibo Jin, Jiayu Zhang, Zhiyu Zhu, Yuchen Zhang, Jiahao Huang, Jianlong Zhou, Fang Chen, | (参考訳) 転送可能な敵攻撃は、特に内部モデル情報がアクセスできないブラックボックスシナリオにおいて、ディープニューラルネットワークに重大な脅威をもたらす。
敵攻撃法の研究は、防御機構の性能を向上し、モデルの脆弱性を探究するのに役立つ。
これらの手法はモデルの弱点を発見し、活用し、より堅牢なアーキテクチャの開発を促進する。
しかしながら、トランスファー可能な攻撃の現在の手法は、特にエッジコンピューティングのシナリオにおいて、デプロイとアプリケーションを制限する、かなりの計算コストを伴うことが多い。
GAN(Generative Adversarial Networks)のような逆生成モデルは、最初のトレーニングフェーズ後に再トレーニングすることなくサンプルを生成する能力によって特徴付けられる。
GE-AdvGANは、この原理に基づいている。
本稿では,GE-AdvGAN+という,勾配編集に基づく転送可能な攻撃のための新しいフレームワークを提案する。
我々の実験は、我々のフレームワークの互換性と有効性を実証した。
ベースラインであるAdvGANと比較して、GE-AdvGAN++は平均47.8のASR改善を実現している。
さらに、最新の競合アルゴリズムであるGE-AdvGANを上回り、平均ASRは5.9増加した。
このフレームワークはまた、BIMやMI-FGSMといった従来の手法よりも優れた2217.7 FPSを達成し、計算効率も向上している。
GE-AdvGAN+フレームワークの実装コードはhttps://github.com/GEAdvGANPで公開されている。
Transferable adversarial attacks pose significant threats to deep neural networks, particularly in black-box scenarios where internal model information is inaccessible. Studying adversarial attack methods helps advance the performance of defense mechanisms and explore model vulnerabilities. These methods can uncover and exploit weaknesses in models, promoting the development of more robust architectures. However, current methods for transferable attacks often come with substantial computational costs, limiting their deployment and application, especially in edge computing scenarios. Adversarial generative models, such as Generative Adversarial Networks (GANs), are characterized by their ability to generate samples without the need for retraining after an initial training phase. GE-AdvGAN, a recent method for transferable adversarial attacks, is based on this principle. In this paper, we propose a novel general framework for gradient editing-based transferable attacks, named GE-AdvGAN+, which integrates nearly all mainstream attack methods to enhance transferability while significantly reducing computational resource consumption. Our experiments demonstrate the compatibility and effectiveness of our framework. Compared to the baseline AdvGAN, our best-performing method, GE-AdvGAN++, achieves an average ASR improvement of 47.8. Additionally, it surpasses the latest competing algorithm, GE-AdvGAN, with an average ASR increase of 5.9. The framework also exhibits enhanced computational efficiency, achieving 2217.7 FPS, outperforming traditional methods such as BIM and MI-FGSM. The implementation code for our GE-AdvGAN+ framework is available at https://github.com/GEAdvGANP | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# パラメタライズドシンボリック抽象グラフによるワンショット映像の模倣
One-shot Video Imitation via Parameterized Symbolic Abstraction Graphs ( http://arxiv.org/abs/2408.12674v1 ) ライセンス: Link先を確認 | Jianren Wang, Kangni Liu, Dingkun Guo, Xian Zhou, Christopher G Atkeson, | (参考訳) 動的で変形可能なオブジェクトを単一のデモビデオから操作することを学ぶことは、スケーラビリティという面で大きな約束である。
これまでのアプローチでは、オブジェクト関係のリプレイやアクターの軌跡に主に焦点が当てられていた。
前者は様々なタスクを一般化するのに苦労するが、後者はデータ非効率に悩まされる。
さらに、どちらの手法も、力などの見えない物理的特性を捉える際の課題に直面している。
本稿では,パラメータ化シンボル抽象グラフ(PSAG)を用いて,オブジェクトとエッジがオブジェクト間の関係を表すビデオデモを解釈する。
さらに,非幾何学的,視覚的に知覚できない属性を推定するために,シミュレーションによる幾何学的制約を基礎とする。
強化PSAGは実際のロボット実験に応用される。
我々のアプローチは、Avocado、Cutting Vegetable、Pouring Liquid、Rolling Dough、Slicing Pizzaといった様々なタスクで検証されている。
視覚的・物理的特性の異なる新しい物体への一般化を成功に導く。
Learning to manipulate dynamic and deformable objects from a single demonstration video holds great promise in terms of scalability. Previous approaches have predominantly focused on either replaying object relationships or actor trajectories. The former often struggles to generalize across diverse tasks, while the latter suffers from data inefficiency. Moreover, both methodologies encounter challenges in capturing invisible physical attributes, such as forces. In this paper, we propose to interpret video demonstrations through Parameterized Symbolic Abstraction Graphs (PSAG), where nodes represent objects and edges denote relationships between objects. We further ground geometric constraints through simulation to estimate non-geometric, visually imperceptible attributes. The augmented PSAG is then applied in real robot experiments. Our approach has been validated across a range of tasks, such as Cutting Avocado, Cutting Vegetable, Pouring Liquid, Rolling Dough, and Slicing Pizza. We demonstrate successful generalization to novel objects with distinct visual and physical properties. | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# GSFusion:Gaussian SplattingがTSDF Fusionと競合するオンラインRGB-Dマッピング
GSFusion: Online RGB-D Mapping Where Gaussian Splatting Meets TSDF Fusion ( http://arxiv.org/abs/2408.12677v1 ) ライセンス: Link先を確認 | Jiaxin Wei, Stefan Leutenegger, | (参考訳) 従来の体積融合アルゴリズムは3Dシーンの空間構造を保存しており、コンピュータビジョンやロボット工学における多くのタスクに有用である。
しかし、ヴィジュアライゼーションの面では現実主義を欠いていることが多い。
新たな3Dガウシアンスプラッティングはこのギャップを橋渡しするが、既存のガウシアンベースの再構築手法は、下層の3D構造と矛盾するアーティファクトや不整合に悩まされ、リアルタイムの最適化に苦慮し、高品質なフィードバックをユーザに提供できなかった。
ボトルネックの1つは、最適化中に更新する必要がある大量のガウスパラメータから生じる。
3D Gaussianをスタンドアローンの地図表現として使用する代わりに、幾何学的情報を活用するためにボリュームマッピングシステムに組み込んで、画像上にクワッドツリーデータ構造を用いて、初期化されたスプレートの数を劇的に削減することを提案する。
このようにして、アーティファクトが少ないコンパクトな3次元ガウス写像と、フライ時の体積写像を同時に生成する。
我々の手法であるGSFusionは、合成データセットと実データセットの両方で示されるように、レンダリング品質を犠牲にすることなく、計算効率を著しく向上させる。
コードはhttps://github.com/goldoak/GSFusion.comから入手できる。
Traditional volumetric fusion algorithms preserve the spatial structure of 3D scenes, which is beneficial for many tasks in computer vision and robotics. However, they often lack realism in terms of visualization. Emerging 3D Gaussian splatting bridges this gap, but existing Gaussian-based reconstruction methods often suffer from artifacts and inconsistencies with the underlying 3D structure, and struggle with real-time optimization, unable to provide users with immediate feedback in high quality. One of the bottlenecks arises from the massive amount of Gaussian parameters that need to be updated during optimization. Instead of using 3D Gaussian as a standalone map representation, we incorporate it into a volumetric mapping system to take advantage of geometric information and propose to use a quadtree data structure on images to drastically reduce the number of splats initialized. In this way, we simultaneously generate a compact 3D Gaussian map with fewer artifacts and a volumetric map on the fly. Our method, GSFusion, significantly enhances computational efficiency without sacrificing rendering quality, as demonstrated on both synthetic and real datasets. Code will be available at https://github.com/goldoak/GSFusion. | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# LLMは自律走行ゲームにおける社会的規範を理解できるか?
Can LLMs Understand Social Norms in Autonomous Driving Games? ( http://arxiv.org/abs/2408.12680v1 ) ライセンス: Link先を確認 | Boxuan Wang, Haonan Duan, Yanhao Feng, Xu Chen, Yongjie Fu, Zhaobin Mo, Xuan Di, | (参考訳) 社会規範は、社会において許容される行動の共有標準として定義される。
社会的規範の出現は、インテリジェント輸送システムにおけるAVの大規模展開に不可欠である、ハードコードされたルールのないエージェント間の協調を促進する。
本稿では,自律走行ゲームにおける社会規範の理解とモデル化におけるLLMの適用について検討する。
我々は、テキストプロンプトに従って意思決定を行うインテリジェントエージェントとして、自律走行ゲームにLSMを導入する。
これらのエージェントはLLMベースのエージェントと呼ばれる。
我々のフレームワークはマルチエージェントシステム(MAS)でマルコフゲームをプレイするLLMベースのエージェントで、個々のエージェント間の社会的規範の出現を調査できる。
本研究の目的は,環境設定や LLM エージェントの観察に関連するテキスト情報に基づいて,プロンプトを設計し,LCM を利用した社会規範の特定である。
GPT-4.0をベースとしたOpenAI Chat APIを用いて,対話をシミュレートし,LLMをベースとしたエージェントの性能評価を行う。
その結果, LLMをベースとしたエージェントはマルコフゲームにおいて動的に変化する環境を処理でき, どちらのシナリオにおいても社会的規範はLLMベースのエージェントの間で進化していることがわかった。
交差点ゲームでは、LSMベースのエージェントは、潜在的な自動車事故に直面した場合に保守的な運転ポリシーを採用する傾向がある。
ゲームにおけるLLMベースのエージェントの利点は、その強力な操作性と分析可能性にある。
Social norm is defined as a shared standard of acceptable behavior in a society. The emergence of social norms fosters coordination among agents without any hard-coded rules, which is crucial for the large-scale deployment of AVs in an intelligent transportation system. This paper explores the application of LLMs in understanding and modeling social norms in autonomous driving games. We introduce LLMs into autonomous driving games as intelligent agents who make decisions according to text prompts. These agents are referred to as LLM-based agents. Our framework involves LLM-based agents playing Markov games in a multi-agent system (MAS), allowing us to investigate the emergence of social norms among individual agents. We aim to identify social norms by designing prompts and utilizing LLMs on textual information related to the environment setup and the observations of LLM-based agents. Using the OpenAI Chat API powered by GPT-4.0, we conduct experiments to simulate interactions and evaluate the performance of LLM-based agents in two driving scenarios: unsignalized intersection and highway platoon. The results show that LLM-based agents can handle dynamically changing environments in Markov games, and social norms evolve among LLM-based agents in both scenarios. In the intersection game, LLM-based agents tend to adopt a conservative driving policy when facing a potential car crash. The advantage of LLM-based agents in games lies in their strong operability and analyzability, which facilitate experimental design. | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# MultiMed: マルチモーダルとマルチタスクの医療理解
MultiMed: Massively Multimodal and Multitask Medical Understanding ( http://arxiv.org/abs/2408.12682v1 ) ライセンス: Link先を確認 | Shentong Mo, Paul Pu Liang, | (参考訳) バイオメディカルデータは本質的にマルチモーダルであり、電子健康記録、医療画像、デジタル病理、ゲノムシークエンシング、ウェアラブルセンサーなどで構成されている。
これらの多面的センシング技術への人工知能ツールの応用は、ヒトの健康と病気の予後、診断、管理に革命をもたらす可能性がある。
しかし、現在のバイオメディカルAIへのアプローチは、通常、1つまたは少数の医療モダリティとタスクでトレーニングと評価のみを行う。
この制限は、多くの異種生物医学センサーにまたがる豊富な相互接続情報を活用できる包括的ツールの開発を妨げている。
この課題に対処するため,MultiMedを提案する。MultiMedは,広範囲にわたる医学的モダリティとタスクを対象とした大規模学習の評価と実現を目的としたベンチマークである。
MultiMedは、医療報告、病理学、ゲノム学、タンパク質データなど10種類の医療モダリティにまたがる256万のサンプルで構成され、疾患予後、タンパク質構造予測、および医療質問応答を含む11の課題タスクに構成されている。
我々はMultiMedを用いて、最先端のユニモーダル、マルチモーダル、マルチタスクモデルのベンチマークを行う。
本分析では, 大規模医療モデルを多くの関連項目や課題にまたがって訓練することの利点を強調した。
さらに、MultiMedは、関連する医療概念の一般化、実世界のノイズデータや分布シフトに対する堅牢性、予測性能を改善するための新しいモダリティの組み合わせの研究を可能にする。
MultiMedは公開され、定期的に更新され、コミュニティからのインプットを歓迎する。
Biomedical data is inherently multimodal, consisting of electronic health records, medical imaging, digital pathology, genome sequencing, wearable sensors, and more. The application of artificial intelligence tools to these multifaceted sensing technologies has the potential to revolutionize the prognosis, diagnosis, and management of human health and disease. However, current approaches to biomedical AI typically only train and evaluate with one or a small set of medical modalities and tasks. This limitation hampers the development of comprehensive tools that can leverage the rich interconnected information across many heterogeneous biomedical sensors. To address this challenge, we present MultiMed, a benchmark designed to evaluate and enable large-scale learning across a wide spectrum of medical modalities and tasks. MultiMed consists of 2.56 million samples across ten medical modalities such as medical reports, pathology, genomics, and protein data, and is structured into eleven challenging tasks, including disease prognosis, protein structure prediction, and medical question answering. Using MultiMed, we conduct comprehensive experiments benchmarking state-of-the-art unimodal, multimodal, and multitask models. Our analysis highlights the advantages of training large-scale medical models across many related modalities and tasks. Moreover, MultiMed enables studies of generalization across related medical concepts, robustness to real-world noisy data and distribution shifts, and novel modality combinations to improve prediction performance. MultiMed will be publicly available and regularly updated and welcomes inputs from the community. | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# 測定クラスの量子サンプル複雑度に関する新しい知見
New Bounds on Quantum Sample Complexity of Measurement Classes ( http://arxiv.org/abs/2408.12683v1 ) ライセンス: Link先を確認 | Mohsen Heidari, Wojciech Szpankowski, | (参考訳) 本稿では量子状態からの古典的推論のための量子教師あり学習について研究する。
このモデルでは、学習者はトレーニングセットとしてラベル付き量子サンプルのセットにアクセスすることができる。
目的は、目に見えないサンプルのラベルを予測する量子測度を見つけることである。
学習の難易度は、よく知られたほぼ正しい(PAC)量子対のサンプル複雑性によって測定される。
量子サンプルの複雑さは、測定の不整合性と状態崩壊のため、古典的なものよりも高いと期待されている。
最近の研究により、有限量子概念クラス $\mathcal{C}$ を学ぶ際のサンプルの複雑さが$O(|\mathcal{C}|)$としてスケールされることが示されている。
これは、クラスサイズと対数的に増加する古典的なサンプルの複雑さよりもはるかに高い。
この研究は、サンプル複雑性を$O(V_{\mathcal{C}^*} \log |\mathcal{C}^*|)$に限定し、$\mathcal{C}^*$は、凸閉包の極点の集合である$\mathcal{C}$と$V_{\mathcal{C}^*}$は、この集合の影ノルムである。
我々は、有界ヒルベルト・シュミットノルムのクラスに対する境界の厳密性を示し、$O(\log |\mathcal{C}^*|)$としてスケールする。
提案手法は,シャドウトモグラフィー法を用いた新しい量子経験的リスク最小化(ERM)アルゴリズムに基づいている。
This paper studies quantum supervised learning for classical inference from quantum states. In this model, a learner has access to a set of labeled quantum samples as the training set. The objective is to find a quantum measurement that predicts the label of the unseen samples. The hardness of learning is measured via sample complexity under a quantum counterpart of the well-known probably approximately correct (PAC). Quantum sample complexity is expected to be higher than classical one, because of the measurement incompatibility and state collapse. Recent efforts showed that the sample complexity of learning a finite quantum concept class $\mathcal{C}$ scales as $O(|\mathcal{C}|)$. This is significantly higher than the classical sample complexity that grows logarithmically with the class size. This work improves the sample complexity bound to $O(V_{\mathcal{C}^*} \log |\mathcal{C}^*|)$, where $\mathcal{C}^*$ is the set of extreme points of the convex closure of $\mathcal{C}$ and $V_{\mathcal{C}^*}$ is the shadow-norm of this set. We show the tightness of our bound for the class of bounded Hilbert-Schmidt norm, scaling as $O(\log |\mathcal{C}^*|)$. Our approach is based on a new quantum empirical risk minimization (ERM) algorithm equipped with a shadow tomography method. | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# 多体局在のフォック空間の風景
The Fock-space landscape of many-body localisation ( http://arxiv.org/abs/2408.12685v1 ) ライセンス: Link先を確認 | Sthitadhi Roy, David E. Logan, | (参考訳) 本稿では、量子多体系における多体局在(MBL)の物理の理解の最近の進歩を、関連するフォック空間におけるエルゴディディティの破れの観点から概観する。
この MBL へのアプローチは、多体系の力学を高次元、相関的、不規則なフォック空間グラフ上の架空の単一粒子の力学にマッピングすることによるものであるが、より詳しく言うと、この問題は高次元または階層グラフ上の従来のアンダーソン局所化と根本的に異なる。
我々は,Fock空間上の固有状態相関の性質,静的および動的およびエルゴードおよび多体局在相およびMBL遷移近傍について詳細に論じる。
後者は遷移の性質に光を当て、フォック空間に基づく量の観点からスケーリング理論を動機付けている。
また、これらの量を実空間観測器に具体的に接続する方法についても説明する。
総合的な図を作成する上で重要な解析的・数値的手法について概説する。
最後に、Fock-space アプローチが洞察に富むであろう MBL の分野におけるいくつかのオープンな質問についてコメントする。
This article reviews recent progress in understanding the physics of many-body localisation (MBL) in disordered and interacting quantum many-body systems, from the perspective of ergodicity breaking on the associated Fock space. This approach to MBL is underpinned by mapping the dynamics of the many-body system onto that of a fictitious single particle on the high-dimensional, correlated and disordered Fock-space graph; yet, as we elaborate, the problem is fundamentally different from that of conventional Anderson localisation on high-dimensional or hierarchical graphs. We discuss in detail the nature of eigenstate correlations on the Fock space, both static and dynamic, and in the ergodic and many-body localised phases as well as in the vicinity of the MBL transition. The latter in turn sheds light on the nature of the transition, and motivates a scaling theory for it in terms of Fock-space based quantities. We also illustrate how these quantities can be concretely connected to real-space observables. An overview is given of several analytical and numerical techniques which have proven important in developing a comprehensive picture. Finally, we comment on some open questions in the field of MBL where the Fock-space approach is likely to prove insightful. | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# 論理ロックの1つの重要な前提について(動画あり)
Late Breaking Results: On the One-Key Premise of Logic Locking ( http://arxiv.org/abs/2408.12690v1 ) ライセンス: Link先を確認 | Yinghua Hu, Hari Cherupalli, Mike Borza, Deepak Sherlekar, | (参考訳) 論理ロック法の評価は、正しい鍵だけが保護回路の真の機能を明らかにすることができるという暗黙の仮定に基づいて、長い間予測されてきた。
その結果、ロック技術は、この正しいキーを見つけるための優れた攻撃に抵抗した場合、安全であると判断される。
本稿では, より効率的な攻撃手法を導入し, 1つの正しい鍵を特定することではなく, 保護回路から正しい機能を生成できる複数の誤鍵を見つけることに焦点を当てた。
これらのキーを見つけるタスクは並列化可能であり、マルチコアコンピューティング環境に適している。
実験の結果,1つの正しいキーを見つけようとする従来の攻撃と比較して,攻撃が最大99.6%のランタイム削減を達成することが示された。
The evaluation of logic locking methods has long been predicated on an implicit assumption that only the correct key can unveil the true functionality of a protected circuit. Consequently, a locking technique is deemed secure if it resists a good array of attacks aimed at finding this correct key. This paper challenges this one-key premise by introducing a more efficient attack methodology, focused not on identifying that one correct key, but on finding multiple, potentially incorrect keys that can collectively produce correct functionality from the protected circuit. The tasks of finding these keys can be parallelized, which is well suited for multi-core computing environments. Empirical results show our attack achieves a runtime reduction of up to 99.6% compared to the conventional attack that tries to find a single correct key. | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# Integer Matrix Factorization を用いた無量子ロシー画像圧縮
Quantization-free Lossy Image Compression Using Integer Matrix Factorization ( http://arxiv.org/abs/2408.12691v1 ) ライセンス: Link先を確認 | Pooya Ashtari, Pourya Behmandpoor, Fateme Nateghi Haredasht, Jonathan H. Chen, Panagiotis Patrinos, Sabine Van Huffel, | (参考訳) 画像圧縮は効率的な伝送と保存に不可欠である。
従来の圧縮法は主に離散コサイン変換(DCT)や特異値分解(SVD)に依存しており、どちらも連続的な領域における画像データを表すため、慎重に設計された量化器を必要とする。
特にSVDベースの手法はJPEGのようなDCTベースの手法よりも量子化誤差に敏感である。
この問題に対処するために、新しい量子化自由損失画像圧縮法を開発するために、整数行列分解(IMF)の変種を導入する。
IMFは、画像データの低ランク表現を、有界整数要素を持つ2つの小さな因子行列の積として提供し、量子化の必要性を排除する。
本稿では,ブロック座標降下法 (BCD) を用いて, 閉形式解を持つサブプロブレムを用いて, IMF の効率的かつ確実に収束する反復的アルゴリズムを提案する。
Kodak と CLIC 2024 データセットに関する実験により、IMF の圧縮法は1ピクセル当たり 0.25 ビット (bpp) 以下の低ビットレートでJPEG を一貫して上回り、高いビットレートで比較できることを示した。
また,圧縮画像上でのImageNet事前学習型分類器の評価により,視覚的セマンティクスの保存能力も評価した。
また,0.25bpp以下のビットレートではJPEGに比べてトップ1の精度が5ポイント以上向上した。
プロジェクトはhttps://github.com/pashtari/lrf で公開されている。
Lossy image compression is essential for efficient transmission and storage. Traditional compression methods mainly rely on discrete cosine transform (DCT) or singular value decomposition (SVD), both of which represent image data in continuous domains and therefore necessitate carefully designed quantizers. Notably, SVD-based methods are more sensitive to quantization errors than DCT-based methods like JPEG. To address this issue, we introduce a variant of integer matrix factorization (IMF) to develop a novel quantization-free lossy image compression method. IMF provides a low-rank representation of the image data as a product of two smaller factor matrices with bounded integer elements, thereby eliminating the need for quantization. We propose an efficient, provably convergent iterative algorithm for IMF using a block coordinate descent (BCD) scheme, with subproblems having closed-form solutions. Our experiments on the Kodak and CLIC 2024 datasets demonstrate that our IMF compression method consistently outperforms JPEG at low bit rates below 0.25 bits per pixel (bpp) and remains comparable at higher bit rates. We also assessed our method's capability to preserve visual semantics by evaluating an ImageNet pre-trained classifier on compressed images. Remarkably, our method improved top-1 accuracy by over 5 percentage points compared to JPEG at bit rates under 0.25 bpp. The project is available at https://github.com/pashtari/lrf . | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# 安定拡散における固有値のアンロック
Unlocking Intrinsic Fairness in Stable Diffusion ( http://arxiv.org/abs/2408.12692v1 ) ライセンス: Link先を確認 | Eunji Kim, Siwon Kim, Rahim Entezari, Sungroh Yoon, | (参考訳) 近年のStable Diffusionのようなテキストと画像のモデルでは、フォトリアリスティックなイメージを生成するが、しばしば人口統計学的バイアスを示す。
以前のデバイアス法はトレーニングベースのアプローチに重点を置いていたが、バイアスの根本原因を探索できず、安定拡散の非バイアス画像生成の可能性を見落としていた。
本稿では,安定拡散が本質的に公平性を持っていることを実証する。
慎重に設計された実験を通して、テキストプロンプトと拡散過程との過剰な結合をバイアスの鍵源として同定する。
そこで本研究では,安定拡散の本質的公正性を解き放つために,テキスト条件を乱す新しい手法を提案する。
本手法は,画像テキストのアライメントと画質を保ちながら,追加チューニングなしでバイアスを効果的に軽減する。
Recent text-to-image models like Stable Diffusion produce photo-realistic images but often show demographic biases. Previous debiasing methods focused on training-based approaches, failing to explore the root causes of bias and overlooking Stable Diffusion's potential for unbiased image generation. In this paper, we demonstrate that Stable Diffusion inherently possesses fairness, which can be unlocked to achieve debiased outputs. Through carefully designed experiments, we identify the excessive bonding between text prompts and the diffusion process as a key source of bias. To address this, we propose a novel approach that perturbs text conditions to unleash Stable Diffusion's intrinsic fairness. Our method effectively mitigates bias without additional tuning, while preserving image-text alignment and image quality. | 翻訳日:2024-08-26 16:48:16 公開日:2024-08-22 |
# 歌詞の個性評価に向けて
Towards Estimating Personal Values in Song Lyrics ( http://arxiv.org/abs/2408.12694v1 ) ライセンス: Link先を確認 | Andrew M. Demetriou, Jaehun Kim, Sandy Manolios, Cynthia C. S. Liem, | (参考訳) 西洋諸国で広く消費されている音楽は、歌詞が含まれており、アメリカのサンプルでは、彼らの楽曲ライブラリのほとんどすべてが歌詞を含んでいると報告している。
同時に、社会科学理論は、個人的価値(意思決定や行動のガイドとなる抽象的な目標)がコミュニケーションにおいて重要な役割を担っていることを示唆している。
このように、歌詞で伝達される値はリスナーのそれと似ているか、あるいは異なる場合があり、拡張によってリスナーの歌に対する反応に影響を与える。
これは、歌詞中の値の自動推定に向けた作業は、下流のMIRタスク、特にパーソナライズを支援する可能性があることを示唆している。
しかし、高主観的なテキストとして、注釈付けすべき歌のサンプリングやアノテーションの方法、アグリゲーションの方法の選択などにおいて、歌詞の歌詞は課題を呈している。
本稿では,社会科学理論に導かれたパースペクティビズム的アプローチを用いて,アノテーションの収集,品質評価,集約を行う。
次に、評価値辞書を用いて、事前学習した文/単語の埋め込みモデルに基づく評価値と比較する。
本稿では,サンプル化とアノテーションの課題に対する「ファジィ」な解決策,アノテーションの品質と自動推定における初期結果,今後の方向性について論じる。
Most music widely consumed in Western Countries contains song lyrics, with U.S. samples reporting almost all of their song libraries contain lyrics. In parallel, social science theory suggests that personal values - the abstract goals that guide our decisions and behaviors - play an important role in communication: we share what is important to us to coordinate efforts, solve problems and meet challenges. Thus, the values communicated in song lyrics may be similar or different to those of the listener, and by extension affect the listener's reaction to the song. This suggests that working towards automated estimation of values in lyrics may assist in downstream MIR tasks, in particular, personalization. However, as highly subjective text, song lyrics present a challenge in terms of sampling songs to be annotated, annotation methods, and in choosing a method for aggregation. In this project, we take a perspectivist approach, guided by social science theory, to gathering annotations, estimating their quality, and aggregating them. We then compare aggregated ratings to estimates based on pre-trained sentence/word embedding models by employing a validated value dictionary. We discuss conceptually 'fuzzy' solutions to sampling and annotation challenges, promising initial results in annotation quality and in automated estimations, and future directions. | 翻訳日:2024-08-26 16:48:15 公開日:2024-08-22 |
# 制約プログラミングにおける有意な双対境界の学習:自己監督型学習によるラグランジアン分解の促進
Learning Valid Dual Bounds in Constraint Programming: Boosted Lagrangian Decomposition with Self-Supervised Learning ( http://arxiv.org/abs/2408.12695v1 ) ライセンス: Link先を確認 | Swann Bessa, Darius Dabert, Max Bourgeat, Louis-Martin Rousseau, Quentin Cappart, | (参考訳) ラグランジアン分解(LD)は、より管理可能なサブプロブレムに分解することで、制約付き最適化問題の二重境界を提供する緩和法である。
このバウンダリは、分岐とバウンダリのアルゴリズムで検索空間を効果的にプルークするために使用することができる。
簡単に言えば、ラグランジュ乗算のベクトルは各部分確率に関連付けられ、反復手順(例えば、部分次最適化)はこれらの乗算を調整して最も厳密な境界を求める。
当初、整数プログラミングに適用されたラグランジアン分解は、その汎用性と大域的制約が自然なサブプロブレムを提供するという事実により、制約プログラミングにも成功した。
しかし、制約プログラミングにおけるサブプロブレムの非線形および組合せ的性質は、木探索の各ノードにおける下位次法を用いてラグランジアン乗算器を最適化する計算集約性をもたらす。
これは、制約プログラミングの一般的なバウンディングメカニズムとしてのLDの実用性を制限している。
この課題に対処するために,ニューラルネットワークを利用して直接乗算器を生成する自己教師付き学習手法を提案する。
このアプローチは、必要となる下位段階の最適化ステップの数を大幅に削減し、プルーニング効率を向上し、制約プログラミングソルバの実行時間を短縮する。
この貢献は、組合せ解法の設計において重要な要素である双対側の境界機構の強化に学習を活用する数少ない要素の1つである。
我々の知る限り、この研究は制約プログラミングにおいて有効な双対境界を学習するための最初の一般的な方法である。
Lagrangian decomposition (LD) is a relaxation method that provides a dual bound for constrained optimization problems by decomposing them into more manageable sub-problems. This bound can be used in branch-and-bound algorithms to prune the search space effectively. In brief, a vector of Lagrangian multipliers is associated with each sub-problem, and an iterative procedure (e.g., a sub-gradient optimization) adjusts these multipliers to find the tightest bound. Initially applied to integer programming, Lagrangian decomposition also had success in constraint programming due to its versatility and the fact that global constraints provide natural sub-problems. However, the non-linear and combinatorial nature of sub-problems in constraint programming makes it computationally intensive to optimize the Lagrangian multipliers with sub-gradient methods at each node of the tree search. This currently limits the practicality of LD as a general bounding mechanism for constraint programming. To address this challenge, we propose a self-supervised learning approach that leverages neural networks to generate multipliers directly, yielding tight bounds. This approach significantly reduces the number of sub-gradient optimization steps required, enhancing the pruning efficiency and reducing the execution time of constraint programming solvers. This contribution is one of the few that leverage learning to enhance bounding mechanisms on the dual side, a critical element in the design of combinatorial solvers. To our knowledge, this work presents the first generic method for learning valid dual bounds in constraint programming. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# 自然発光の時空間スペクトル制御
Spatio-spectral control of spontaneous emission ( http://arxiv.org/abs/2408.12700v1 ) ライセンス: Link先を確認 | Seyyed Hossein Asadpour, Muqaddar Abbas, Hamid R. Hamedi, Julius Ruseckas, Emmanuel Paspalakis, Reza Asgari, | (参考訳) 軌道角運動量(OAM)を持つ光学渦と相互作用する4レベル原子-光結合系において、自発放射の時空間スペクトル制御を実現するための手法を提案する。
原子は基底レベルと2つの励起状態とを2つのレーザー場と結合し、Vサブシステムを形成する。
原子の様々な初期状態を調査し,自然放出チャネルにおける量子干渉の有無を考慮し,OAMを担持する渦ビームの特性が放射スペクトルにどのように印加されているかを分析する。
環境モードを含む光渦と量子系の相互作用は、空間方位平面における2次元のスペクトルピーク狭め、スペクトルピークの増大、スペクトルピークの抑制、自然発光の低減またはクエンチなど、幅広い空間スペクトル挙動を誘導する。
我々の発見は原子-渦光相互作用のダイナミクスに光を当て、量子レベルでの放出特性の操作に関する洞察を与えてくれた。
We propose a scheme aimed at achieving spatio-spectral control over spontaneous emission within a four-level atom-light coupling system interacting with optical vortices carrying orbital angular momentum (OAM). The atom comprises a ground level and two excited states coupled with two laser fields, forming a V subsystem where the upper states exclusively decay to a common fourth state via two channels. By investigating various initial states of the atom and considering the presence or absence of quantum interference in spontaneous emission channels, we analyze how the characteristics of the OAM-carrying vortex beam imprint onto the emission spectrum. The interplay between the optical vortex and the quantum system, including its environment modes, induces a wide variety of spatio-spectral behaviour, including two-dimensional spectral-peak narrowing, spectralpeak enhancement, spectral-peak suppression, and spontaneous emission reduction or quenching in the spatial azimuthal plane. Our findings shed light on the dynamics of atom-vortex beam light interactions and offer insights into the manipulation of emission properties at the quantum level. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# Qubit Discovery を用いた超伝導量子回路の勾配最適化のための一般フレームワーク
A General Framework for Gradient-Based Optimization of Superconducting Quantum Circuits using Qubit Discovery as a Case Study ( http://arxiv.org/abs/2408.12704v1 ) ライセンス: Link先を確認 | Taha Rajabzadeh, Alex Boulton-McKeehan, Sam Bonkowsky, David I. Schuster, Amir H. Safavi-Naeini, | (参考訳) 量子系のハミルトニアンの工学は、量子系の設計の基本である。
勾配に基づく最適化によるハミルトン設計の自動化は、この過程を劇的に加速させることができる。
しかし、ハミルトニアンの固有値と固有ベクトルの勾配を計算し、特に任意の系において、系の性質に関連する大きなスパース行列が大きな課題となる。
超伝導量子回路はハミルトニアン設計においてかなりの柔軟性を提供しており、この課題に理想的なプラットフォームとなっている。
本稿では,SQcircuitソフトウェアパッケージを利用した超伝導量子回路の勾配に基づく最適化のための包括的なフレームワークを提案する。
大規模で疎度なハミルトン系の勾配を計算し、SQcircuit内で自動微分を統合するという課題に対処することにより、様々な回路特性やカスタム定義メトリクスの勾配の効率的な高精度な計算を可能にし、最適化プロセスの合理化を実現している。
この枠組みをキュービット発見問題に適用し、優れた性能指標を持つキュービット設計の同定の有効性を実証する。
最適化回路は,既存のキュービットと比較して,ゲート数,ゲート速度上界,デコヒーレンス時間,耐雑音性,加工誤差の改善を示す。
この手法は量子ビット最適化と発見によって実証されるが、汎用性があり、超伝導量子ハードウェア設計における他の最適化課題に取り組むために拡張することができる。
Engineering the Hamiltonian of a quantum system is fundamental to the design of quantum systems. Automating Hamiltonian design through gradient-based optimization can dramatically accelerate this process. However, computing the gradients of eigenvalues and eigenvectors of a Hamiltonian--a large, sparse matrix--relative to system properties poses a significant challenge, especially for arbitrary systems. Superconducting quantum circuits offer substantial flexibility in Hamiltonian design, making them an ideal platform for this task. In this work, we present a comprehensive framework for the gradient-based optimization of superconducting quantum circuits, leveraging the SQcircuit software package. By addressing the challenge of calculating the gradient of the eigensystem for large, sparse Hamiltonians and integrating automatic differentiation within SQcircuit, our framework enables efficient and precise computation of gradients for various circuit properties or custom-defined metrics, streamlining the optimization process. We apply this framework to the qubit discovery problem, demonstrating its effectiveness in identifying qubit designs with superior performance metrics. The optimized circuits show improvements in a heuristic measure of gate count, upper bounds on gate speed, decoherence time, and resilience to noise and fabrication errors compared to existing qubits. While this methodology is showcased through qubit optimization and discovery, it is versatile and can be extended to tackle other optimization challenges in superconducting quantum hardware design. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# LiDARを用いた3次元物体検出におけるクロスドメイン問題の再検討
Revisiting Cross-Domain Problem for LiDAR-based 3D Object Detection ( http://arxiv.org/abs/2408.12708v1 ) ライセンス: Link先を確認 | Ruixiao Zhang, Juheon Lee, Xiaohao Cai, Adam Prugel-Bennett, | (参考訳) 畳み込みニューラルネットワークやトランスフォーマーなどのディープラーニングモデルは、自律運転の領域における3次元物体検出問題を解決するために広く応用されている。
既存のモデルは、ほとんどのオープンベンチマークで優れた性能を達成しているが、これらのディープネットワークの一般化能力はまだ疑わしい。
異なる都市、国、天候を含む他のドメインにモデルを適応させるためには、現在ターゲットドメインデータで再トレーニングする必要がある。
本稿では,最先端モデルのドメイン間性能を深く分析する。
ほとんどのモデルはトレーニングドメインに過度に適合し、それを他のドメインに直接適用することは困難である。
既存の3次元オブジェクト検出問題に対するドメイン適応手法は、一般化能力を改善するのではなく、実際にモデルの知識領域をシフトさせている。
次に、評価指標(サイドビューとフロントビューAP)を提案し、精度レベルにおけるメソッドの重低下の中核的な問題をよりよく分析します。
提案手法を用いて各次元におけるクロスドメイン性能を更に評価することにより, オーバーフィッティング問題は, センサに面し, 周囲により多くの3次元点を有する前面面および幅次元において明らかに発生すると結論付けた。
一方,本実験では,点雲データの密度がモデルのクロスドメイン性能に大きく影響していることが示唆された。
Deep learning models such as convolutional neural networks and transformers have been widely applied to solve 3D object detection problems in the domain of autonomous driving. While existing models have achieved outstanding performance on most open benchmarks, the generalization ability of these deep networks is still in doubt. To adapt models to other domains including different cities, countries, and weather, retraining with the target domain data is currently necessary, which hinders the wide application of autonomous driving. In this paper, we deeply analyze the cross-domain performance of the state-of-the-art models. We observe that most models will overfit the training domains and it is challenging to adapt them to other domains directly. Existing domain adaptation methods for 3D object detection problems are actually shifting the models' knowledge domain instead of improving their generalization ability. We then propose additional evaluation metrics -- the side-view and front-view AP -- to better analyze the core issues of the methods' heavy drops in accuracy levels. By using the proposed metrics and further evaluating the cross-domain performance in each dimension, we conclude that the overfitting problem happens more obviously on the front-view surface and the width dimension which usually faces the sensor and has more 3D points surrounding it. Meanwhile, our experiments indicate that the density of the point cloud data also significantly influences the models' cross-domain performance. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# 安定拡散とHuman-in-the-loopアノテーションを用いた実写X線散乱画像の生成
Generating Realistic X-ray Scattering Images Using Stable Diffusion and Human-in-the-loop Annotations ( http://arxiv.org/abs/2408.12720v1 ) ライセンス: Link先を確認 | Zhuowen Zhao, Xiaoya Chong, Tanny Chavez, Alexander Hexemer, | (参考訳) 我々は、X線散乱画像とその対応する記述を用いて基礎的な安定拡散モデルを微調整し、与えられたプロンプトから新しい科学的画像を生成する。
しかし、生成された画像のいくつかは重要な非現実的な人工物を示しており、一般に「幻覚」として知られている。
この問題に対処するために、人間の承認した画像の60%と実験画像の40%からなるデータセットを用いて様々なコンピュータビジョンモデルを訓練し、非現実的な画像を検出する。
分類された画像は、人間の専門家によってレビューされ、修正され、次に訓練と推論のラウンドで分類器をさらに洗練するために使用された。
本評価は,細調整拡散モデルを用いて高忠実な領域固有画像を生成する可能性を示す。
我々は、生成AIが、データ強化と、科学研究施設におけるデジタルツインの開発を促進する上で、重要な役割を果たすことを期待する。
We fine-tuned a foundational stable diffusion model using X-ray scattering images and their corresponding descriptions to generate new scientific images from given prompts. However, some of the generated images exhibit significant unrealistic artifacts, commonly known as "hallucinations". To address this issue, we trained various computer vision models on a dataset composed of 60% human-approved generated images and 40% experimental images to detect unrealistic images. The classified images were then reviewed and corrected by human experts, and subsequently used to further refine the classifiers in next rounds of training and inference. Our evaluations demonstrate the feasibility of generating high-fidelity, domain-specific images using a fine-tuned diffusion model. We anticipate that generative AI will play a crucial role in enhancing data augmentation and driving the development of digital twins in scientific research facilities. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# 半古典的方法によるレーザー誘起電子回折における量子経路干渉
Quantum pathways interference in laser-induced electron diffraction revealed by a semiclassical method ( http://arxiv.org/abs/2408.12721v1 ) ライセンス: Link先を確認 | Phi-Hung Tran, Van-Hung Hoang, Anh-Thu Le, | (参考訳) 半古典的ヘルマン・クルクプロパゲータと強磁場近似を組み合わせた新しい強レーザー場物理学法を開発し、強レーザー中の原子および分子の光電子運動量分布(PMD)の計算精度を示す。
再散乱電子の場合、電子が連続体にトンネルする時間には通常、高エネルギー領域で同じ最終運動量をもたらす複数の軌道が存在することを示す。
これらの軌道は、わずかに異なる初期逆モーメントから始まり、異なる位相を持ち、PMD内の干渉構造を生じさせる。
これは、よく知られた長い軌道と短い軌道とは対照的であり、異なる干渉パターンをもたらす。
この結果は、レーザー誘起電子回折および他の超高速イメージングおよび強磁場分光技術の現在の機能拡張に利用することができる。
We develop a novel method for strong-laser-field physics based on the combination of the semiclassical Herman-Kluk propagator and the strong-field approximation and demonstrate its high accuracy on the calculations of photoelectron momentum distribution (PMD) for atoms and molecules in intense lasers. For rescattered electrons, we show that for a given time that electron tunnels to the continuum, there are typically multiple trajectories that lead to the same final momentum in the high-energy region. These trajectories start with slightly different initial transverse momenta and carry different phases giving rise to the interference structures in the PMD, which can also be associated with the laser-free electron-ion differential cross section. This is in contrast to the well-known long and short trajectories, which result in different interference patterns. Our results can be used to extend current capabilities of the laser-induced electron diffraction and other ultrafast imaging and strong-field spectroscopic techniques. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# 電気量子ウォークと関連するCMV行列のスペクトルについて
On the spectrum of electric quantum walk and related CMV matrices ( http://arxiv.org/abs/2408.12724v1 ) ライセンス: Link先を確認 | Fan Yang, | (参考訳) ここでは、電場を持つ量子ウォークモデルの族に対して、スペクトルは任意の不合理体に対する単位円であることを示す。
この結果は、スキューシフトによって定義される関連するCMV行列についても成り立つ。
また、高次元トーラス上のスキューシフトを有するCMV行列への一般化も得られた。
In this note, we show that for a family of quantum walk models with electric fields, the spectrum is the unit circle for any irrational field. The result also holds for the associated CMV matrices defined by skew-shifts. Generalizations to CMV matrices with skew-shifts on higher dimensional torus are also obtained. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# Macro-Queries: ハイレベルプラットからのガイド付きチャート生成の探索
Macro-Queries: An Exploration into Guided Chart Generation from High Level Prompts ( http://arxiv.org/abs/2408.12726v1 ) ライセンス: Link先を確認 | Christopher J. Lee, Giorgio Tran, Roderick Tabalba, Jason Leigh, Ryan Longman, | (参考訳) 本稿では,データビジュアライゼーションとLarge Language Models(LLM)の共通点について考察する。
初心者ユーザに対して幅広いデータ視覚化タイプをアクセス可能にする必要性から,高レベルのユーザ質問(マクロクエリとして参照)によってガイドされるデータ変換用に設計された,ガイド付きLLMベースのパイプラインを,さまざまな有用な視覚化セットとして提示する。
このアプローチでは、さまざまなプロンプト技術、AbelaのChart Taxonomyにインスパイアされた微調整、SQLツールの統合などを活用している。
This paper explores the intersection of data visualization and Large Language Models (LLMs). Driven by the need to make a broader range of data visualization types accessible for novice users, we present a guided LLM-based pipeline designed to transform data, guided by high-level user questions (referred to as macro-queries), into a diverse set of useful visualizations. This approach leverages various prompting techniques, fine-tuning inspired by Abela's Chart Taxonomy, and integrated SQL tool usage. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# BankTweak: フィーチャーバンクを操作するマルチオブジェクトトラッカーに対する敵対的攻撃
BankTweak: Adversarial Attack against Multi-Object Trackers by Manipulating Feature Banks ( http://arxiv.org/abs/2408.12727v1 ) ライセンス: Link先を確認 | Woojin Shin, Donghwa Kang, Daejin Choi, Brent Kang, Jinkyu Lee, Hyeongboo Baek, | (参考訳) マルチオブジェクトトラッキング(MOT)はオブジェクトの移動軌跡を構築することを目的としており、現代のマルチオブジェクトトラッカーは主にトラッキング・バイ・検出手法を利用している。
MOTアタックに対する最初のアプローチは、主に攻撃中のフレームの検出品質を低下させることを目的としており、それによって特定のフレームのみの精度が低下し、‘textit{efficiency} の欠如が強調された。
効率を改善するために、最近の進歩は、攻撃が数フレーム以内で終了した後でも、アソシエーションフェーズ中にオブジェクト位置を操作して永続的アイデンティティ(ID)スイッチを発生させる。
しかし、これらの位置操作攻撃には固有の制限があり、結合相における距離関連パラメータを調整することで容易に対応できるため、‘textit{robustness} の欠如が明らかになる。
本稿では,MOTトラッカーを対象とした新たな攻撃手法であるtextsf{BankTweak}について述べる。
\textsf{BankTweak} は、アソシエーションフェーズにおける特徴抽出器に焦点を当て、特徴ベースのMOTシステムで使用されるハンガリーのマッチング手法の脆弱性を明らかにする。
脆弱性をエクスプロイトした \textsf{BankTweak} は、オブジェクト位置を変更することなく機能バンクに変化した機能を戦略的に注入することで、攻撃終了後も永続的なIDスイッチ(addressing \textit{efficiency} を誘導する(addressing \textit{robustness} を指定)。
適用性を示すために,1段,2段,アンカーフリー,変圧器検出器を備えた3つの多対象トラッカー(DeepSORT,StrongSORT,MOTDT)に \textsf{BankTweak} を適用した。
MOT17とMOT20データセットの大規模な実験は、我々の手法が既存の攻撃を大幅に上回り、トラッキング・バイ・検出フレームワークの脆弱性をtextsf{BankTweak} に公開していることを示している。
Multi-object tracking (MOT) aims to construct moving trajectories for objects, and modern multi-object trackers mainly utilize the tracking-by-detection methodology. Initial approaches to MOT attacks primarily aimed to degrade the detection quality of the frames under attack, thereby reducing accuracy only in those specific frames, highlighting a lack of \textit{efficiency}. To improve efficiency, recent advancements manipulate object positions to cause persistent identity (ID) switches during the association phase, even after the attack ends within a few frames. However, these position-manipulating attacks have inherent limitations, as they can be easily counteracted by adjusting distance-related parameters in the association phase, revealing a lack of \textit{robustness}. In this paper, we present \textsf{BankTweak}, a novel adversarial attack designed for MOT trackers, which features efficiency and robustness. \textsf{BankTweak} focuses on the feature extractor in the association phase and reveals vulnerability in the Hungarian matching method used by feature-based MOT systems. Exploiting the vulnerability, \textsf{BankTweak} induces persistent ID switches (addressing \textit{efficiency}) even after the attack ends by strategically injecting altered features into the feature banks without modifying object positions (addressing \textit{robustness}). To demonstrate the applicability, we apply \textsf{BankTweak} to three multi-object trackers (DeepSORT, StrongSORT, and MOTDT) with one-stage, two-stage, anchor-free, and transformer detectors. Extensive experiments on the MOT17 and MOT20 datasets show that our method substantially surpasses existing attacks, exposing the vulnerability of the tracking-by-detection framework to \textsf{BankTweak}. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# ポストパンデミック作業環境における開発者とテスターの遠隔コミュニケーションの動向
Remote Communication Trends Among Developers and Testers in Post-Pandemic Work Environments ( http://arxiv.org/abs/2408.12728v1 ) ライセンス: Link先を確認 | Felipe Jansen, Ronnie de Souza Santos, | (参考訳) 新型コロナウイルス(COVID-19)パンデミックへの対応として、リモートとハイブリッドの作業モデルが急速に採用され、ソフトウェア開発チーム内のコミュニケーションとコーディネーションに大きな変化をもたらし、さまざまなアクティビティの実行方法に影響を与えている。
現在、これらの変更はパンデミック後の新しい環境を形成し、ソフトウェアチームに影響を与え続けている。
本稿では,ソフトウェア開発者とソフトウェアテスタの遠隔コミュニケーションの特徴と課題について考察する。
これらのプロフェッショナルが、特にソフトウェア業界で現在恒久的になっているため、COVID-19が課しているユニークな状況にどのように適応しているかを調査した。
このプロセスでは,コミュニケーションの実践とインタラクションのダイナミクスについて検討し,ソフトウェアの発展と品質にどのように影響するかを検討した。
遠隔作業とハイブリッド作業への移行がコミュニケーションパターンやタスクコーディネートに顕著な変化をもたらし,プロジェクトの納品物全体の品質に影響を及ぼす可能性が示唆された。
さらに、既存のワークフローへの適応、新しいマネジメントプラクティスの導入、開発者とテスタ間のリモートインタラクションを促進するテクノロジへの投資の重要性も強調します。
The rapid adoption of remote and hybrid work models in response to the COVID-19 pandemic has brought significant changes to communication and coordination within software development teams, affecting how various activities are executed. Nowadays, these changes are shaping the new post-pandemic environments and continue to impact software teams. In this context, our study explores the characteristics and challenges of remote communication between software developers and software testers. We investigated how these professionals have adapted to the unique circumstances imposed by COVID-19, especially because many of them have now become permanent in the software industry. In this process, we explored their communication practices and interaction dynamics and how they potentially affect software evolution and quality. Our findings reveal that the transition to remote and hybrid work has resulted in notable changes in communication patterns and task coordination, which could potentially affect the overall quality of project deliverables. Additionally, we highlight the importance of adapting existing workflows, introducing new management practices, and investing in technology to facilitate remote interaction among developers and testers. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# ハードドライブ設計における粒度評価のためのセグメンテーションモデル
Segment Anything Model for Grain Characterization in Hard Drive Design ( http://arxiv.org/abs/2408.12732v1 ) ライセンス: Link先を確認 | Kai Nichols, Matthew Hauwiller, Nicholas Propes, Shaowei Wu, Stephanie Hernandez, Mike Kautzky, | (参考訳) ハードドライブ設計における新しい材料開発には, 粒分別によるナノスケール材料のキャラクタリゼーションが必要である。
高スループットで急速に変化する研究環境は、ゼロショットの一般化を信じられないほど望ましい特徴にします。
このため,MetaのSegment Anything Model (SAM) のこの問題への適用について検討する。
まず、SAMのアウト・オブ・ボックス使用について分析する。
次に、最小ラベル付きデータ可用性を前提として、改善の機会と戦略について議論する。
Out-of-the-box SAMは特性分布抽出において有望な精度を示す。
改善のための4つの潜在的な領域を特定でき、4つの領域のうち2つで予備的な利得を示すことができる。
Development of new materials in hard drive designs requires characterization of nanoscale materials through grain segmentation. The high-throughput quickly changing research environment makes zero-shot generalization an incredibly desirable feature. For this reason, we explore the application of Meta's Segment Anything Model (SAM) to this problem. We first analyze the out-of-the-box use of SAM. Then we discuss opportunities and strategies for improvement under the assumption of minimal labeled data availability. Out-of-the-box SAM shows promising accuracy at property distribution extraction. We are able to identify four potential areas for improvement and show preliminary gains in two of the four areas. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# SQL-GEN: 合成データとモデルマージによるテキストからSQLへの変換ギャップのブリッジ
SQL-GEN: Bridging the Dialect Gap for Text-to-SQL Via Synthetic Data And Model Merging ( http://arxiv.org/abs/2408.12733v1 ) ライセンス: Link先を確認 | Mohammadreza Pourreza, Ruoxi Sun, Hailong Li, Lesly Miculicich, Tomas Pfister, Sercan O. Arik, | (参考訳) 自然言語クエリをSQLコマンドに変換するText-to-SQLシステムは、主にSQLite方言で大きく進歩している。
しかし、これらのシステムをBigQueryやPostgreSQLといった他のSQL方言に適応させることは、SQLの構文や関数の多様性のため、依然として課題である。
SQL-GENは、方言固有のチュートリアルでガイドされた高品質な方言特化合成データを生成するためのフレームワークであり、複数の方言のための訓練データセットを作成する上での有効性を実証する。
提案手法は,従来の手法に比べて最大20倍の性能向上を実現し,大規模な人文注釈データセットとのギャップを小さくする。
さらに、我々の合成データと人間の注釈データを組み合わせることで、3.3\%から5.6\%のさらなる性能向上が得られる。
我々はまた、方言固有のモデルを統合システムに統合し、方言固有のキーワードでゲートを初期化し、異なるSQL方言間での性能をさらに向上させることにより、新しいMixture of Experts(MoE)初期化手法も導入する。
Text-to-SQL systems, which convert natural language queries into SQL commands, have seen significant progress primarily for the SQLite dialect. However, adapting these systems to other SQL dialects like BigQuery and PostgreSQL remains a challenge due to the diversity in SQL syntax and functions. We introduce SQL-GEN, a framework for generating high-quality dialect-specific synthetic data guided by dialect-specific tutorials, and demonstrate its effectiveness in creating training datasets for multiple dialects. Our approach significantly improves performance, by up to 20\%, over previous methods and reduces the gap with large-scale human-annotated datasets. Moreover, combining our synthetic data with human-annotated data provides additional performance boosts of 3.3\% to 5.6\%. We also introduce a novel Mixture of Experts (MoE) initialization method that integrates dialect-specific models into a unified system by merging self-attention layers and initializing the gates with dialect-specific keywords, further enhancing performance across different SQL dialects. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# 音声認識における公正度測定に向けて:Fair-Speech データセット
Towards measuring fairness in speech recognition: Fair-Speech dataset ( http://arxiv.org/abs/2408.12734v1 ) ライセンス: Link先を確認 | Irina-Elena Veliche, Zhuangqun Huang, Vineeth Ayyat Kochaniyan, Fuchun Peng, Ozlem Kalinli, Michael L. Seltzer, | (参考訳) 音声認識のための現在のパブリックデータセット(ASR)は、異なる人口集団間でのパフォーマンスなど、公平性に特に焦点を絞らない傾向にある。
本論文では, 年齢, 性別, 民族性, 地理的変動, 参加者が母国英語話者とみなすか否かなどの, 多様な自己申告された人口統計情報に対して, 研究者がASRモデルを精度良く評価するのを支援するための, 公開コーパスであるFair-Speechを紹介する。
私たちのデータセットには、米国593人による録音された音声で約26.5Kの発声が含まれています。
ASRのベースラインも提供しています。その中には、書き起こされたり書き起こされたりしていないソーシャルメディアビデオやオープンソースモデルでトレーニングされたモデルも含まれています。
The current public datasets for speech recognition (ASR) tend not to focus specifically on the fairness aspect, such as performance across different demographic groups. This paper introduces a novel dataset, Fair-Speech, a publicly released corpus to help researchers evaluate their ASR models for accuracy across a diverse set of self-reported demographic information, such as age, gender, ethnicity, geographic variation and whether the participants consider themselves native English speakers. Our dataset includes approximately 26.5K utterances in recorded speech by 593 people in the United States, who were paid to record and submit audios of themselves saying voice commands. We also provide ASR baselines, including on models trained on transcribed and untranscribed social media videos and open source models. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# ユーザビリティメカニズムの影響: 有効性,有効性,ユーザ満足度に対する実験の家族
Impact of Usability Mechanisms: A Family of Experiments on Efficiency, Effectiveness and User Satisfaction ( http://arxiv.org/abs/2408.12736v1 ) ライセンス: Link先を確認 | Juan M. Ferreira, Francy Rodríguez, Adrián Santos, Silvia T. Acuña, Natalia Juristo, | (参考訳) コンテキスト: ユーザビリティソフトウェアの品質属性は、システムユーザパフォーマンスを改善することを目的としています。
前報では, ユーザの視点から, ユーザビリティ特性の集合が, 効率, 有効性, 満足度に与える影響の証拠を見出した。
しかし、影響レベルはユーザビリティ機能に依存しているようで、ユーザパフォーマンスの促進方法に応じて、実装に関する優先順位を推奨している。
目的: 本実験では, 3つの実験のファミリーを用いて, ベースライン実験における結果の精度の向上と一般化を行い, 中止操作, プログレッシブフィードバック, およびユーザビリティ機構のユーザパフォーマンスへの影響に関する知見を提供する。
方法: 学術的な環境下で, ベースライン実験の2つの再現を行う。
367名の被験者のデータを分析し,アグリゲーション法(メタ分析)を適用した。
結果:Abort Operation and Preferencesのユーザビリティメカニズムは,効率,有効性,ユーザ満足度に関して,システムユーザビリティを大幅に向上させると考えられる。
結論: 実験のファミリは, ベースライン実験の結果をさらに裏付けるものであることが判明した。
結果の多くは統計的に有意であり、多くの実験対象のため、我々が複製に集めた証拠は他の実験を上回るほどに十分である。
Context: The usability software quality attribute aims to improve system user performance. In a previous study, we found evidence of the impact of a set of usability characteristics from the viewpoint of users in terms of efficiency, effectiveness and satisfaction. However, the impact level appears to depend on the usability feature and suggest priorities with respect to their implementation depending on how they promote user performance. Objectives: We use a family of three experiments to increase the precision and generalization of the results in the baseline experiment and provide findings on the impact on user performance of the Abort Operation, Progress Feedback and Preferences usability mechanisms. Method: We conduct two replications of the baseline experiment in academic settings. We analyse the data of 367 experimental subjects and apply aggregation (meta-analysis) procedures. Results: We find that the Abort Operation and Preferences usability mechanisms appear to improve system usability a great deal with respect to efficiency, effectiveness and user satisfaction. Conclusions: We find that the family of experiments further corroborates the results of the baseline experiment. Most of the results are statistically significant, and, because of the large number of experimental subjects, the evidence that we gathered in the replications is sufficient to outweigh other experiments. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# 量子畳み込みニューラルネットワークは(効果的に)古典的にシミュレートできる
Quantum Convolutional Neural Networks are (Effectively) Classically Simulable ( http://arxiv.org/abs/2408.12739v1 ) ライセンス: Link先を確認 | Pablo Bermejo, Paolo Braccia, Manuel S. Rudolph, Zoë Holmes, Lukasz Cincio, M. Cerezo, | (参考訳) 量子畳み込みニューラルネットワーク(QCNN)は量子機械学習(QML)の有望なモデルとして広く見なされている。
この作業では、彼らのヒューリスティックな成功を2つの事実に結びつける。
まず、ランダムに初期化されると、入力状態の低身長測定で符号化された情報のみを操作することができる。
第二に、これらの低体温観測可能空間に符号化された情報によって、状態が正確に分類できる「ローカル・イージー」データセットでベンチマークされることが一般的である。
さらに、この部分空間に対するQCNNの作用は、データセット上のパウリ影を備えた古典的アルゴリズムによって、効率的に古典的にシミュレートできることを示す。
実際、物質分類のフェーズに対して、最大1024ドルキュービットのQCNNのシャドーベースシミュレーションを提示する。
モデルは、古典的にシミュレートできる単純な問題に基づいてベンチマークされているため、ヒューリスティックな成功を示すことができる。
この洞察は、非自明なデータセットがQMLを前進させるのに本当に必要な要素であるという事実を指摘する。
結論として、他のアーキテクチャを古典的にシミュレートするために、我々の結果をどのように外挿するかについて議論する。
Quantum Convolutional Neural Networks (QCNNs) are widely regarded as a promising model for Quantum Machine Learning (QML). In this work we tie their heuristic success to two facts. First, that when randomly initialized, they can only operate on the information encoded in low-bodyness measurements of their input states. And second, that they are commonly benchmarked on "locally-easy'' datasets whose states are precisely classifiable by the information encoded in these low-bodyness observables subspace. We further show that the QCNN's action on this subspace can be efficiently classically simulated by a classical algorithm equipped with Pauli shadows on the dataset. Indeed, we present a shadow-based simulation of QCNNs on up-to $1024$ qubits for phases of matter classification. Our results can then be understood as highlighting a deeper symptom of QML: Models could only be showing heuristic success because they are benchmarked on simple problems, for which their action can be classically simulated. This insight points to the fact that non-trivial datasets are a truly necessary ingredient for moving forward with QML. To finish, we discuss how our results can be extrapolated to classically simulate other architectures. | 翻訳日:2024-08-26 16:38:31 公開日:2024-08-22 |
# ベル実験における因果仮定違反のコストの比較--局所性、自由選択、矢印時間
Comparing the cost of violating causal assumptions in Bell experiments: locality, free choice and arrow-of-time ( http://arxiv.org/abs/2408.12740v1 ) ライセンス: Link先を確認 | Pawel Blasiak, Christoph Gallus, | (参考訳) ベル実験の因果モデリングは、局所性、選択の自由、矢印の3つの基本的な仮定に依存している。
自然はベルの不等式に反し、これらの仮定の少なくとも1つが失敗する。
それらのいずれかを(部分的にさえも)拒絶することは、観測された相関関係を説明するのに十分であることを証明しているので、それぞれのケースのコストについて尋ねるのは当然です。
本稿では, PNAS 118 e2020569118 (2021) の結果を追従し, 局所性と自由選択仮定の等価性を示し, 観測された相関関係を説明する画像レトロ因果モデルに付加する。
ここでは、与えられた仮定の単一矢印型違反のみを許容する、より困難な因果シナリオについて考察する。
因果コストの比較のために選択されたメリットの数字は、観測された実験統計のシミュレーションに必要な各仮定の違反の最小頻度として定義される。
The causal modelling of Bell experiments relies on three fundamental assumptions: locality, freedom of choice, and arrow-of-time. It turns out that nature violates Bell inequalities, which entails the failure of at least one of those assumptions. Since rejecting any of them - even partially - proves to be enough to explain the observed correlations, it is natural to ask about the cost in each case. This paper follows up on the results in PNAS 118 e2020569118 (2021), showing the equivalence between the locality and free choice assumptions, adding to the picture retro-causal models explaining the observed correlations. Here, we consider more challenging causal scenarios which allow only single-arrow type violations of a given assumption. The figure of merit chosen for the comparison of the causal cost is defined as the minimal frequency of violation of the respective assumption required for a simulation of the observed experimental statistics. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# TReX-Reusing Vision Transformer's Attention for Efficient Xbar-based Computing
TReX- Reusing Vision Transformer's Attention for Efficient Xbar-based Computing ( http://arxiv.org/abs/2408.12742v1 ) ライセンス: Link先を確認 | Abhishek Moitra, Abhiroop Bhattacharjee, Youngeun Kim, Priyadarshini Panda, | (参考訳) ビジョントランスフォーマー(ViT)の計算オーバーヘッドが大きいため、エッジコンピューティングシナリオにおけるエネルギー効率の高いデプロイに向けて、インメモリコンピューティングアーキテクチャが研究されている。
従来の研究では、IMC実装されたViTのエネルギー効率を改善するために、効率的なアルゴリズム・ハードウェアの共同設計とIMCアーキテクチャの改善が提案されていた。
しかし、これまでのすべての研究は、ICCで実装されたViTの精度-遅延平均に対する注意ブロックのオーバーヘッドと共依存性を無視してきた。
そこで本研究では,ViTモデルにおけるアテンション再利用を効果的に実現し,最適精度・遅延領域トレードオフを実現するための,アテンションリユース駆動型ViT最適化フレームワークであるTReXを提案する。
TReXは、ユーザが指定した遅延要件を満たしながら、アテンション再利用のためのトランスフォーマーエンコーダを最適に選択し、ほぼ等精度の性能を実現する。
Imagenet-1kデータセットの解析から、DiT-S (LV-ViT-S) ViTモデルの場合、TReXは2.3x (2.19x) EDAPと1.86x (1.79x) TOPS/mm2の改善を実現し、精度は1%低下した。
さらに、TReXは、最先端のトークンプルーニングやウェイトシェアリングアプローチと比較して、EDAPの高精度な削減を実現している。
CoLAのようなNLPタスクでは、TReXは、基準線が1.6倍低いEDAPよりも2%高い非理想的精度をもたらす。
Due to the high computation overhead of Vision Transformers (ViTs), In-memory Computing architectures are being researched towards energy-efficient deployment in edge-computing scenarios. Prior works have proposed efficient algorithm-hardware co-design and IMC-architectural improvements to improve the energy-efficiency of IMC-implemented ViTs. However, all prior works have neglected the overhead and co-depencence of attention blocks on the accuracy-energy-delay-area of IMC-implemented ViTs. To this end, we propose TReX- an attention-reuse-driven ViT optimization framework that effectively performs attention reuse in ViT models to achieve optimal accuracy-energy-delay-area tradeoffs. TReX optimally chooses the transformer encoders for attention reuse to achieve near iso-accuracy performance while meeting the user-specified delay requirement. Based on our analysis on the Imagenet-1k dataset, we find that TReX achieves 2.3x (2.19x) EDAP reduction and 1.86x (1.79x) TOPS/mm2 improvement with ~1% accuracy drop in case of DeiT-S (LV-ViT-S) ViT models. Additionally, TReX achieves high accuracy at high EDAP reduction compared to state-of-the-art token pruning and weight sharing approaches. On NLP tasks such as CoLA, TReX leads to 2% higher non-ideal accuracy compared to baseline at 1.6x lower EDAP. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# マトリックス暗号プロトコルスイートの形式的シンボリック解析
A Formal, Symbolic Analysis of the Matrix Cryptographic Protocol Suite ( http://arxiv.org/abs/2408.12743v1 ) ライセンス: Link先を確認 | Jacob Ginesin, Cristina Nita-Rotaru, | (参考訳) WhatsApp、Facebook Messenger、Matrix、Signal Applicationといったセキュアなインスタントグループメッセージングアプリケーションは、今日のインターネットに広く浸透し、数十億のユーザに累積的なサービスを提供している。
例えばWhatsAppとは異なり、Matrixは連携した方法でデプロイでき、ユーザーはどのサーバーがチャットを管理するかを選択できる。
このアーキテクチャの違いを説明するため、MatrixはOlmと、Olmに依存してグループ通信をセキュアにするMegolmという2つの新しい暗号プロトコルを採用している。
OlmとMegolmはSignalとSender Keysと同様のセキュリティ目標を共有している。
Olm、Megolm、Sender Keysは計算モデルで手動で分析されているが、記号解析や機械化による正しさの証明は存在しない。
機械的証明とコンピュータ支援分析は、手書きの証明と分析がエラーを起こし、しばしば微妙な誤りを犯すため、暗号プロトコルにとって重要である。
Verifpal を用いて、Olm と Megolm の形式モデルとそれらの構成を構築します。
我々はOlmとMegolmに関する様々な特性を証明し、認証、機密性、フォワード・シークレット、およびポスト・コンプロミズ・セキュリティを含む。
また、既知の制限を機械化し、以前発見された攻撃と、明快な攻撃者が仕様と以前の文献から勝利する。
最後に、Sender KeysとSignal with Sender Keysの合成をモデル化し、Olm、Megolm、およびそれらの構成と比較する。
我々の分析から、Olm と Megolm の合成は、Olm プリキーが署名された場合、Signal と Sender Keys の合成と同等のセキュリティを持ち、Olm プリキーが署名されていなければ、明らかに、コンパイル後のセキュリティが悪化する。
Secure instant group messaging applications such as WhatsApp, Facebook Messenger, Matrix, and the Signal Application have become ubiquitous in today's internet, cumulatively serving billions of users. Unlike WhatsApp, for example, Matrix can be deployed in a federated manner, allowing users to choose which server manages their chats. To account for this difference in architecture, Matrix employs two novel cryptographic protocols: Olm, which secures pairwise communications, and Megolm, which relies on Olm and secures group communications. Olm and Megolm are similar to and share security goals with Signal and Sender Keys, which are widely deployed in practice to secure group communications. While Olm, Megolm, and Sender Keys have been manually analyzed in the computational model, no symbolic analysis nor mechanized proofs of correctness exist. Using mechanized proofs and computer-aided analysis is important for cryptographic protocols, as hand-written proofs and analysis are error-prone and often carry subtle mistakes. Using Verifpal, we construct formal models of Olm and Megolm, as well as their composition. We prove various properties of interest about Olm and Megolm, including authentication, confidentiality, forward secrecy, and post-compromise security. We also mechanize known limitations, previously discovered attacks, and trivial attacker wins from the specifications and previous literature. Finally, we model Sender Keys and the composition of Signal with Sender Keys in order to draw a comparison with Olm, Megolm, and their composition. From our analysis we conclude the composition of Olm and Megolm has comparable security to the composition of Signal and Sender Keys if Olm pre-keys are signed, and provably worse post-compromise security if Olm pre-keys are not signed. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# CatFree3D:拡散によるカテゴリー非依存3次元物体検出
CatFree3D: Category-agnostic 3D Object Detection with Diffusion ( http://arxiv.org/abs/2408.12747v1 ) ライセンス: Link先を確認 | Wenjing Bian, Zirui Wang, Andrea Vedaldi, | (参考訳) 画像に基づく3Dオブジェクト検出は、自動運転車やロボット工学などのアプリケーションで広く使われているが、現在のシステムは複雑な問題設定と限られた訓練データのために一般化に苦慮している。
本稿では,2次元検出と深度予測から3次元検出を分離するパイプラインを提案する。
さらに,従来のIoUおよびGIoU測定値の限界に対処し,3次元検出結果の正確な評価を行うために,正規化ハンガリー距離(NHD)測定基準を導入する。
実験結果から,本手法は様々な対象カテゴリやデータセットにまたがる最先端の精度と強力な一般化を実現することが示された。
Image-based 3D object detection is widely employed in applications such as autonomous vehicles and robotics, yet current systems struggle with generalisation due to complex problem setup and limited training data. We introduce a novel pipeline that decouples 3D detection from 2D detection and depth prediction, using a diffusion-based approach to improve accuracy and support category-agnostic detection. Additionally, we introduce the Normalised Hungarian Distance (NHD) metric for an accurate evaluation of 3D detection results, addressing the limitations of traditional IoU and GIoU metrics. Experimental results demonstrate that our method achieves state-of-the-art accuracy and strong generalisation across various object categories and datasets. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# SLM と LLM: 幻覚検出におけるレイテンシ,解釈可能性,一貫性のバランス
SLM Meets LLM: Balancing Latency, Interpretability and Consistency in Hallucination Detection ( http://arxiv.org/abs/2408.12748v1 ) ライセンス: Link先を確認 | Mengya Hu, Rui Xu, Deren Lei, Yaxi Li, Mingyu Wang, Emily Ching, Eslam Kamal, Alex Deng, | (参考訳) 大規模言語モデル(LLM)は高い能力を持つが、オンライン幻覚検出などのリアルタイムアプリケーションではレイテンシの問題に直面している。
そこで本研究では,初期検出に小型言語モデル(SLM)分類器を使用し,次に制約付き推論器としてLLMを用いて,検出した幻覚コンテンツに関する詳細な説明を生成する新しいフレームワークを提案する。
本研究では,LLM生成した説明とSLM決定を一致させる効果的なプロンプト技術を導入することにより,リアルタイムの解釈可能な幻覚検出を最適化する。
実証実験の結果,その効果が示され,ユーザエクスペリエンスの全般的向上が図られた。
Large language models (LLMs) are highly capable but face latency challenges in real-time applications, such as conducting online hallucination detection. To overcome this issue, we propose a novel framework that leverages a small language model (SLM) classifier for initial detection, followed by a LLM as constrained reasoner to generate detailed explanations for detected hallucinated content. This study optimizes the real-time interpretable hallucination detection by introducing effective prompting techniques that align LLM-generated explanations with SLM decisions. Empirical experiment results demonstrate its effectiveness, thereby enhancing the overall user experience. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# ADRS-CNet:DNAストレージクラスタリングアルゴリズムにおける次元削減手法の適応モデル
ADRS-CNet: An adaptive models of dimensionality reduction methods for DNA storage clustering algorithms ( http://arxiv.org/abs/2408.12751v1 ) ライセンス: Link先を確認 | Bowen Liu, Jiankun Li, | (参考訳) DNAストレージ技術は、密度が高く、長期保存能力が高く、メンテナンス要件が低く、物理的サイズも小さく、大規模データストレージにとって有望な選択肢として浮上している。
しかし、様々な長さのDNA配列から特徴を抽出することは、対処すべき次元の問題につながる可能性がある。
PCA、UMAP、t-SNEといった技術は、高次元データを低次元空間に投影するのに一般的に使用されるが、それらの効果は異なるデータセットによって異なる。
そこで本研究では,DNA配列の特徴を分類し,最適次元縮小法をインテリジェントに選択し,その後のクラスタリング性能を向上させる多層パーセプトロン(MLP)に基づくモデルを提案する。
オープンソースのデータセットで検証し、複数のベンチマーク手法と比較した結果、我々のモデルは分類性能に優れるだけでなく、クラスタリング精度も大幅に向上し、クラスタリングモデルにおける高次元特徴による課題を効果的に軽減することを示した。
DNA storage technology, with its high density, long-term preservation capability, low maintenance requirements, and compact physical size, is emerging as a promising option for large-scale data storage. However, extracting features from DNA sequences of varying lengths can lead to the problem of dimensionality, which needs to be addressed. Techniques such as PCA, UMAP, and t-SNE are commonly used to project high-dimensional data into a lower-dimensional space, but their effectiveness varies across different datasets. To address this challenge, this paper proposes a model based on a multilayer perceptron (MLP) that classifies DNA sequence features and intelligently selects the optimal dimensionality reduction method, thereby enhancing subsequent clustering performance. Experimental results, tested on open-source datasets and compared with multiple benchmark methods, demonstrate that our model not only excels in classification performance but also significantly improves clustering accuracy, indicating that this approach effectively mitigates the challenges posed by high-dimensional features in clustering models. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# Transversal Clifford と $T$-gates を用いた高距離符号
High-distance codes with transversal Clifford and $T$-gates ( http://arxiv.org/abs/2408.12752v1 ) ライセンス: Link先を確認 | Shubham P. Jain, Victor V. Albert, | (参考訳) いくつかの量子デバイスにおける非局所的な相互作用は、よりコンパクトな量子符号化の実現を可能にし、ノイズに対する同じレベルの保護を維持している。
短長から中短長の符号がすぐに実現されることを期待して、与えられたコード距離に対して、最小数の物理量子ビットを持つ論理ゲートのフォールトトレラントな実装を認めるような安定化器符号を構築することが重要である。
我々は、単一量子ビットクリフォード群の超越的実装を許容する量子二次残差符号群から、高距離2倍符号を抽出する。
二重化手順 [arXiv:1509.03239] をそのような符号に適用すると、論理的 $\texttt{T}$-gate の超越的な実装を許容する高距離の3重符号の族が得られる。
我々の知る限り、どちらの符号族も同じ距離の他の量子ビット安定化符号よりも低い量子ビットオーバーヘッドを必要とし、それぞれのゲートを実現できる。
The non-local interactions in several quantum devices allow for the realization of more compact quantum encodings while retaining the same degree of protection against noise. Anticipating that short to medium-length codes will soon be realizable, it is important to construct stabilizer codes that, for a given code distance, admit fault-tolerant implementations of logical gates with the fewest number of physical qubits. We extract high-distance doubly even codes from the quantum quadratic-residue code family that admit a transversal implementation of the single-qubit Clifford group. Applying a doubling procedure [arXiv:1509.03239] to such codes yields a family of high-distance triply even codes which admit a transversal implementation of the logical $\texttt{T}$-gate. To our knowledge, both code families require a lower qubit overhead than any other qubit stabilizer code of the same distance which can realize their respective gates. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# 時間ネットワークにおける動的リンク予測のためのコントラスト表現学習
Contrastive Representation Learning for Dynamic Link Prediction in Temporal Networks ( http://arxiv.org/abs/2408.12753v1 ) ライセンス: Link先を確認 | Amirhossein Nouranizadeh, Fatemeh Tabatabaei Far, Mohammad Rahmati, | (参考訳) 進化するネットワークは、科学と工学の幅広いシステムに現れる複雑なデータ構造である。
このようなネットワークの構造的接続性と時間的進化を符号化した表現表現を学習することは、下流のデータ分析や機械学習アプリケーションに不可欠である。
本研究では,時間ネットワークの表現を学習するための自己教師型手法を導入し,これらの表現を動的リンク予測タスクに応用する。
時間ネットワークは通常、連続時間領域上の相互作用のシーケンスとして特徴づけられるが、本研究では、その離散時間バージョンに焦点を当てる。
これにより、計算複雑性と相互作用の正確なモデリングのトレードオフをバランスさせることができる。
本稿では、時間的ネットワークの時間的参照経路を介して情報の流れをモデル化するための、繰り返しメッセージパッシングニューラルネットワークアーキテクチャを提案する。
提案手法の主な特徴は,リンク予測,グラフ再構成,およびコントラッシブ予測符号損失の3つの損失関数を組み合わせた,モデルの対照的な学習目標である。
入力グラフの局所スケールと大域スケールの両方でインフォNCE損失を用いて、対照的な予測符号化の目的を実装した。
動的リンク予測タスクにおいて,追加の自己監督的損失がトレーニングを促進し,モデルの性能を向上させることを実証的に示す。
提案手法は、Enron、COLAB、Facebookのデータセットでテストされ、既存のモデルよりも優れた結果を示す。
Evolving networks are complex data structures that emerge in a wide range of systems in science and engineering. Learning expressive representations for such networks that encode their structural connectivity and temporal evolution is essential for downstream data analytics and machine learning applications. In this study, we introduce a self-supervised method for learning representations of temporal networks and employ these representations in the dynamic link prediction task. While temporal networks are typically characterized as a sequence of interactions over the continuous time domain, our study focuses on their discrete-time versions. This enables us to balance the trade-off between computational complexity and precise modeling of the interactions. We propose a recurrent message-passing neural network architecture for modeling the information flow over time-respecting paths of temporal networks. The key feature of our method is the contrastive training objective of the model, which is a combination of three loss functions: link prediction, graph reconstruction, and contrastive predictive coding losses. The contrastive predictive coding objective is implemented using infoNCE losses at both local and global scales of the input graphs. We empirically show that the additional self-supervised losses enhance the training and improve the model's performance in the dynamic link prediction task. The proposed method is tested on Enron, COLAB, and Facebook datasets and exhibits superior results compared to existing models. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# 人工知能(AI)オントノームとジェンダー平等:アフリカにおけるAI生態系における見えないジェンダーノームの発見
Artificial Intelligence (AI) Onto-norms and Gender Equality: Unveiling the Invisible Gender Norms in AI Ecosystems in the Context of Africa ( http://arxiv.org/abs/2408.12754v1 ) ライセンス: Link先を確認 | Angella Ndaka, Harriet Ratemo, Abigail Oppong, Eucabeth Majiwa, | (参考訳) この研究は、オンノームがデジタル空間における特定のジェンダーの実践を、AI設計、トレーニング、使用を形作る空間の規範と性格を通してどのように伝播するかを検討する。
さらに、この研究は、異なる性別グループがAI駆動の空間と関わるかどうか、いつ、どのように、なぜ、といった異なるユーザー行動とプラクティスについても調査している。
この研究は、データとコンテンツが、AIエコシステムの特定の社会的規範を促進するために、故意または無意識にどのように使われるかを調べることによって、オンノームは、AIが女性に関連するコンテンツとどのように関わるかを形作っている、と論じている。
オントノルムは、画像、行動、その他のメディアを特に形作っている。例えば、ジェンダーのアイデンティティや視点が、AIシステムの構築とトレーニングにおいて、意図的、その他の方法で、どのように含まれ、欠落し、あるいは誤って表現されるかである。
The study examines how ontonorms propagate certain gender practices in digital spaces through character and the norms of spaces that shape AI design, training and use. Additionally the study explores the different user behaviours and practices regarding whether, how, when, and why different gender groups engage in and with AI driven spaces. By examining how data and content can knowingly or unknowingly be used to drive certain social norms in the AI ecosystems, this study argues that ontonorms shape how AI engages with the content that relates to women. Ontonorms specifically shape the image, behaviour, and other media, including how gender identities and perspectives are intentionally or otherwise, included, missed, or misrepresented in building and training AI systems. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# ミリケルビン温度におけるエルビウムドープシェライト結晶中の1ヶ月長寿命マイクロ波スペクトル孔
Month-long-lifetime microwave spectral holes in an erbium-doped scheelite crystal at millikelvin temperature ( http://arxiv.org/abs/2408.12758v1 ) ライセンス: Link先を確認 | Zhiren Wang, Sen Lin, Marianne Le Dantec, Miloš Rančić, Philippe Goldner, Sylvain Bertaina, Thierry Chanelière, Ren-Bao Liu, Daniel Esteve, Denis Vion, Emmanuel Flurin, Patrice Bertet, | (参考訳) 結晶中の希土類イオン(REI)アンサンブルは、不均一アンサンブル拡大に対する細い均一な直線幅を特徴とする顕著な光学的およびスピン的特性を有する。
これにより、アンサンブルスペクトル密度と吸収プロファイルを正確に調整することができ、スペクトルホールバーニング(SHB)と呼ばれるプロセスが広く知られている。
REIドープ結晶は、古典的(パターン認識、フィルタリング、スペクトル分析)と量子的(光子ストレージ)の両方で情報処理に応用できる。
Er$^{3+}$ドープ材料では、最も長い穴寿命は1分であり、長い穴寿命が望ましい。
本稿では,Er$^{3+}$イオンの電子スピン遷移をマイクロ波およびミリケルビン温度で励起することにより,CaWO$_4$のシェライト結晶中のSHBおよび蓄積エコー測定を報告する。
ホールと蓄積されたエコーの寿命は、サンプル温度が低下するにつれて急上昇し、10mKで1ヶ月を超える。
以上の結果から,ミリケルビン温度は長いスペクトルホール寿命を必要とする信号処理に有用であることが示唆された。
Rare-earth-ion (REI) ensembles in crystals have remarkable optical and spin properties characterized by narrow homogeneous linewidths relative to the inhomogeneous ensemble broadening. This makes it possible to precisely tailor the ensemble spectral density and therefore the absorption profile by applying narrow-linewidth radiation to transfer population into auxiliary levels, a process broadly known as spectral hole burning (SHB). REI-doped crystals find applications in information processing, both classical (pattern recognition, filtering, spectral analysis) and quantum (photon storage), all protocols requiring suitable ensemble preparation by SHB as a first step. In Er$^{3+}$-doped materials, the longest reported hole lifetime is one minute, and longer lifetimes are desirable. Here, we report SHB and accumulated echo measurements in a scheelite crystal of CaWO$_4$ by pumping the electron spin transition of Er$^{3+}$ ions at microwave frequencies and millikelvin temperatures, with nuclear spin states of neighboring $^{183}$W atoms serving as the auxiliary levels. The lifetime of the holes and accumulated echoes rises steeply as the sample temperature is decreased, exceeding a month at 10 mK. Our results demonstrate that millikelvin temperatures can be beneficial for signal processing applications requiring long spectral hole lifetimes. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# マルチソースデータ分類のための階層的注意と並列フィルタ融合ネットワーク
Hierarchical Attention and Parallel Filter Fusion Network for Multi-Source Data Classification ( http://arxiv.org/abs/2408.12760v1 ) ライセンス: Link先を確認 | Han Luo, Feng Gao, Junyu Dong, Lin Qi, | (参考訳) ハイパースペクトル画像(HSI)と合成開口レーダ(SAR)データジョイント分類(SAR)は,リモートセンシング画像解釈分野において重要かつ困難な課題である。
しかし,既存手法の特徴モデリングでは,多量のグローバル,スペクトル,局所的特徴を同時に活用できないため,準最適分類性能が得られる。
そこで本研究では,マルチソースデータ分類のための階層型アテンションと並列フィルタ融合ネットワークを提案する。
具体的には,高スペクトル特徴抽出のための階層型アテンションモジュールを設計する。
このモジュールはグローバル、スペクトル、ローカルの機能を同時に統合し、より包括的な特徴表現を提供する。
さらに,周波数領域内の異なる空間位置間の相互特性相互作用を強化する並列フィルタ融合モジュールを開発した。
2つのマルチソースリモートセンシングデータ分類データセットの大規模な実験により、提案手法が最先端の分類手法よりも優れていることを検証した。
具体的には、提案手法は、各データセットの総合精度(OA)の91.44%と80.51%を達成し、その優れた性能を強調した。
Hyperspectral image (HSI) and synthetic aperture radar (SAR) data joint classification is a crucial and yet challenging task in the field of remote sensing image interpretation. However, feature modeling in existing methods is deficient to exploit the abundant global, spectral, and local features simultaneously, leading to sub-optimal classification performance. To solve the problem, we propose a hierarchical attention and parallel filter fusion network for multi-source data classification. Concretely, we design a hierarchical attention module for hyperspectral feature extraction. This module integrates global, spectral, and local features simultaneously to provide more comprehensive feature representation. In addition, we develop parallel filter fusion module which enhances cross-modal feature interactions among different spatial locations in the frequency domain. Extensive experiments on two multi-source remote sensing data classification datasets verify the superiority of our proposed method over current state-of-the-art classification approaches. Specifically, our proposed method achieves 91.44% and 80.51% of overall accuracy (OA) on the respective datasets, highlighting its superior performance. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# AI生成画像における可視性:計算量と人間中心解析
Visual Verity in AI-Generated Imagery: Computational Metrics and Human-Centric Analysis ( http://arxiv.org/abs/2408.12762v1 ) ライセンス: Link先を確認 | Memoona Aziz, Umair Rahman, Syed Ali Safi, Amir Zaib Abbasi, | (参考訳) AI技術の急速な進歩は、エンターテイメント、広告、eコマースなど、さまざまな分野におけるグラフィカルコンテンツの制作に革命をもたらした。
これらの開発により、AI生成画像の品質とリアリズムを評価するための堅牢な評価手法の必要性が高まった。
そこで我々は3つの研究を行った。
まず,フォトリアリズム,画質,テキスト画像のアライメントを計測する「ビジュアル・バーティ」という質問紙を導入,検証した。
次に,このアンケートを用いて,AIモデル(DALL-E2,DALL-E3,GLIDE,Stable Diffusion)とカメラ生成画像から画像を評価する。
また, 色調, 彩度, 明度において, カメラ生成画像が低い値を示した。
第3に,MS-SSIMとCLIPを人間の判断と最も整合した指標として,人間の判断と計算メトリクスの整合性を評価した。
さらに,画像品質評価のためのニューラル特徴類似度スコア(NFSS)を提案する。
我々の研究は、人間の視覚的知覚をよりよく捉え、AIによるコンテンツ評価を向上させるために、計算メトリクスの精細化の必要性を強調した。
The rapid advancements in AI technologies have revolutionized the production of graphical content across various sectors, including entertainment, advertising, and e-commerce. These developments have spurred the need for robust evaluation methods to assess the quality and realism of AI-generated images. To address this, we conducted three studies. First, we introduced and validated a questionnaire called Visual Verity, which measures photorealism, image quality, and text-image alignment. Second, we applied this questionnaire to assess images from AI models (DALL-E2, DALL-E3, GLIDE, Stable Diffusion) and camera-generated images, revealing that camera-generated images excelled in photorealism and text-image alignment, while AI models led in image quality. We also analyzed statistical properties, finding that camera-generated images scored lower in hue, saturation, and brightness. Third, we evaluated computational metrics' alignment with human judgments, identifying MS-SSIM and CLIP as the most consistent with human assessments. Additionally, we proposed the Neural Feature Similarity Score (NFSS) for assessing image quality. Our findings highlight the need for refining computational metrics to better capture human visual perception, thereby enhancing AI-generated content evaluation. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# マルチモーダル大言語モデルを用いたビデオ質問応答におけるモダリティバイアスの評価
Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models ( http://arxiv.org/abs/2408.12763v1 ) ライセンス: Link先を確認 | Jean Park, Kuk Jin Jang, Basam Alasaly, Sriharsha Mopidevi, Andrew Zolensky, Eric Eaton, Insup Lee, Kevin Johnson, | (参考訳) MLLM(Multimodal large language model)は、視覚、テキスト、聴覚データを同時に処理し、人間の分析を補完する洞察を捉える。
しかしながら、既存のビデオ質問回答(VidQA)ベンチマークとデータセットは、クエリに応答するために多様なモダリティを統合する高度な推論スキルを必要とするにもかかわらず、単一のモダリティに対するバイアスを示すことが多い。
本研究では,そのようなバイアスを特定するために,モダリティ重要度スコア(MIS)を導入する。
質問に答えるためにどのモダリティが必要な情報を埋め込むかを評価するように設計されている。
さらに,モーダリティの重要度を推定するために,最新のMLLMを用いた革新的な手法を提案する。
このMISを用いて、既存のデータセットにおける一助バイアスの存在と、真に多モーダルな質問の欠如を実証する。
さらに,多変量特徴集合上でのMLLMの性能を評価するために,複数のアブレーション研究によるモダリティ重要度スコアを検証した。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
提案したMLLMから派生したMISは,マルチモーダル学習を推進し,モーダル間の相乗関係を理解し,活用するMLLMの能力を向上するモダリティバランスデータセットのキュレーションを導出することができる。
Multimodal large language models (MLLMs) can simultaneously process visual, textual, and auditory data, capturing insights that complement human analysis. However, existing video question-answering (VidQA) benchmarks and datasets often exhibit a bias toward a single modality, despite the goal of requiring advanced reasoning skills that integrate diverse modalities to answer the queries. In this work, we introduce the modality importance score (MIS) to identify such bias. It is designed to assess which modality embeds the necessary information to answer the question. Additionally, we propose an innovative method using state-of-the-art MLLMs to estimate the modality importance, which can serve as a proxy for human judgments of modality perception. With this MIS, we demonstrate the presence of unimodal bias and the scarcity of genuinely multimodal questions in existing datasets. We further validate the modality importance score with multiple ablation studies to evaluate the performance of MLLMs on permuted feature sets. Our results indicate that current models do not effectively integrate information due to modality imbalance in existing datasets. Our proposed MLLM-derived MIS can guide the curation of modality-balanced datasets that advance multimodal learning and enhance MLLMs' capabilities to understand and utilize synergistic relations across modalities. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# インメモリコンピューティングがスパイクニューラルネットワークに遭遇する時 - デバイス・回路・システム・アルゴリズムの共同設計の展望-
When In-memory Computing Meets Spiking Neural Networks -- A Perspective on Device-Circuit-System-and-Algorithm Co-design ( http://arxiv.org/abs/2408.12767v1 ) ライセンス: Link先を確認 | Abhishek Moitra, Abhiroop Bhattacharjee, Yuhang Li, Youngeun Kim, Priyadarshini Panda, | (参考訳) このレビューでは、スパイキングニューラルネットワーク(SNN)とアナログインメモリコンピューティング(IMC)ドメインという形で、バイオプレースブルな人工知能の交差点について検討し、低消費電力エッジコンピューティング環境に対する彼らの全体的な可能性を強調した。
デバイス,回路,システムレベルでの詳細な調査を通じて,SNNとIMCアーキテクチャの主な相乗効果を強調した。
さらに,アルゴリズム,デバイス,回路,システムパラメータ間の依存性を考慮した総合的なシステムレベルの分析の必要性を強調し,最適な性能を実現する。
詳細な分析により、SNN固有のアルゴリズムハードウェアの共同設計技術を用いて対処できるデバイス制限から生じる重要なシステムレベルのボトルネックが特定される。
本総説は,低消費電力ニューロモルフィックソリューションにおけるハードウェアおよびアルゴリズム研究の重要側面を浮き彫りにして,システム設計空間の共同探索への包括的デバイスの必要性を強調するものである。
This review explores the intersection of bio-plausible artificial intelligence in the form of Spiking Neural Networks (SNNs) with the analog In-Memory Computing (IMC) domain, highlighting their collective potential for low-power edge computing environments. Through detailed investigation at the device, circuit, and system levels, we highlight the pivotal synergies between SNNs and IMC architectures. Additionally, we emphasize the critical need for comprehensive system-level analyses, considering the inter-dependencies between algorithms, devices, circuit & system parameters, crucial for optimal performance. An in-depth analysis leads to identification of key system-level bottlenecks arising from device limitations which can be addressed using SNN-specific algorithm-hardware co-design techniques. This review underscores the imperative for holistic device to system design space co-exploration, highlighting the critical aspects of hardware and algorithm research endeavors for low-power neuromorphic solutions. | 翻訳日:2024-08-26 16:28:47 公開日:2024-08-22 |
# チャットボットとゼロセールス抵抗
Chatbots and Zero Sales Resistance ( http://arxiv.org/abs/2408.10291v2 ) ライセンス: Link先を確認 | Sauro Succi, | (参考訳) 大規模機械学習アプリケーションにおけるますます多くの重量の追求は、エネルギッシュに持続不可能なだけでなく、経済・金融力の試行錯誤として科学が容易に役立てられるような操作戦略にも結びついている、と論じられている。
機械学習がビジネス上の利益に先立って科学に役立てることを意図しているなら、より多くの重みと少ない洞察から、より多くの洞察と少ない重みへと、パラダイムシフトが必要である。
It is argued that the pursuit of an ever increasing number of weights in large-scale machine learning applications, besides being energetically unsustainable, is also conducive to manipulative strategies whereby Science is easily served as a strawman for economic and financial power. If machine learning is meant to serve science ahead of vested business interests, a paradigm shift is needed: from more weights and little insight to more insight and less weights. | 翻訳日:2024-08-26 10:23:46 公開日:2024-08-22 |
# 埋め込みモデルによる生成AIコンテンツ理解
Understanding Generative AI Content with Embedding Models ( http://arxiv.org/abs/2408.10437v2 ) ライセンス: Link先を確認 | Max Vargas, Reilly Cannon, Andrew Engel, Anand D. Sarwate, Tony Chiang, | (参考訳) 高品質な数値的特徴の構築は、いかなる定量的データ分析にも不可欠である。
機能エンジニアリングは歴史的にドメインの専門知識に基づいたデータ表現を慎重に手作りすることで対処されてきた。
この研究は、組み込みと呼ばれる現代のディープニューラルネットワーク(DNN)の内部表現を、従来の機能エンジニアリングの自動化形式として捉えている。
トレーニングされたDNNに対して、これらの埋め込みは非構造化サンプルデータに解釈可能で高レベルな概念を明らかにすることができることを示す。
自然言語とコンピュータビジョンのタスクにこれらの埋め込みを用いて、基礎となるデータに固有の不均一性と、それに対する人間の理解可能な説明の両方を明らかにする。
特に、実データとAIモデルから生成されたデータに固有の分離性が存在するという実証的な証拠が見つかる。
The construction of high-quality numerical features is critical to any quantitative data analysis. Feature engineering has been historically addressed by carefully hand-crafting data representations based on domain expertise. This work views the internal representations of modern deep neural networks (DNNs), called embeddings, as an automated form of traditional feature engineering. For trained DNNs, we show that these embeddings can reveal interpretable, high-level concepts in unstructured sample data. We use these embeddings in natural language and computer vision tasks to uncover both inherent heterogeneity in the underlying data and human-understandable explanations for it. In particular, we find empirical evidence that there is inherent separability between real data and that generated from AI models. | 翻訳日:2024-08-26 10:23:46 公開日:2024-08-22 |
# DH-Bench:大規模視覚言語モデルの深さと高さ知覚
DH-Bench: Probing Depth and Height Perception of Large Visual-Language Models ( http://arxiv.org/abs/2408.11748v2 ) ライセンス: Link先を確認 | Shehreen Azad, Yash Jain, Rishit Garg, Yogesh S Rawat, Vibhav Vineet, | (参考訳) 幾何学的理解は、我々の環境をナビゲートし、相互作用するために不可欠である。
大きな視覚言語モデル(VLM)は印象的な能力を示しているが、現実のシナリオにそれらをデプロイするには、視覚知覚における同等の幾何学的理解が必要である。
本研究では、これらのモデルの幾何学的理解に焦点を当て、特にシーン内の物体の深さと高さを対象とする。
我々の観察では、VLMは形状や大きさなどの基本的な幾何学的性質の知覚に優れていますが、物体の深さや高さを推測する上で大きな課題に直面しています。
これを解決するために,Synthetic 2D,Synthetic 3D,Real-Worldシナリオを含むベンチマークデータセットスイートを導入し,これらの側面を厳格に評価する。
これらのデータセットを用いて17の最先端のVLMをベンチマークし、深さと高さの両方の知覚に一貫して苦労していることを発見した。
我々の重要な洞察は、VLMの深さと高さの推論能力の欠点と、これらのモデルに存在する固有のバイアスを詳細に分析することである。
本研究は, 実世界の応用において重要な, 幾何的理解の高度化によるVLMの開発方法を明らかにすることを目的としている。
ベンチマークのコードとデータセットは、 \url{https://github.com/sacrcv/DH-Bench}で公開されます。
Geometric understanding is crucial for navigating and interacting with our environment. While large Vision Language Models (VLMs) demonstrate impressive capabilities, deploying them in real-world scenarios necessitates a comparable geometric understanding in visual perception. In this work, we focus on the geometric comprehension of these models; specifically targeting the depths and heights of objects within a scene. Our observations reveal that, although VLMs excel in basic geometric properties perception such as shape and size, they encounter significant challenges in reasoning about the depth and height of objects. To address this, we introduce a suite of benchmark datasets encompassing Synthetic 2D, Synthetic 3D, and Real-World scenarios to rigorously evaluate these aspects. We benchmark 17 state-of-the-art VLMs using these datasets and find that they consistently struggle with both depth and height perception. Our key insights include detailed analyses of the shortcomings in depth and height reasoning capabilities of VLMs and the inherent bias present in these models. This study aims to pave the way for the development of VLMs with enhanced geometric understanding, crucial for real-world applications. The code and datasets for our benchmarks will be available at \url{https://github.com/sacrcv/DH-Bench}. | 翻訳日:2024-08-26 10:14:02 公開日:2024-08-22 |
# 複数のサロゲートを用いた治療効果の推定:サロゲートスコアとサロゲート指標の役割
Estimating Treatment Effects using Multiple Surrogates: The Role of the Surrogate Score and the Surrogate Index ( http://arxiv.org/abs/1603.09326v5 ) ライセンス: Link先を確認 | Susan Athey, Raj Chetty, Guido Imbens, Hyunseung Kang, | (参考訳) 治療の長期的な効果を見積もるのは、多くの分野において興味深いことである。
このような治療効果を推定する一般的な課題は、政策決定に必要な時間枠で長期的な成果が守られないことである。
この欠落したデータ問題を解決する1つのアプローチは、治療と結果が統計的代理の独立条件である条件を満たす場合、しばしば統計代理と呼ばれる中間結果に対する治療効果を分析することである。
代理状態の妥当性はしばしば議論の余地がある。
ここでは、現代のデータセットにおいて、研究者は治療と長期の利益の間の因果関係にかかわると考えられる中間的な結果の数十から数千の多数を観察することが多いという事実を活用する。
個々のプロキシが統計的代理基準を満足していないとしても、複数のプロキシを使用することは因果推論に有用である。
本研究は, 主に, 治療指標とサロゲートに関するデータを含む実験試料と, サロゲートに関する情報を含む観察試料と, 一次結果を含む2つの試料のセットに焦点を当てた。
平均処理効果をサロゲイト仮定を総合的に満足するプロキシの高次元ベクトルで同定・推定し、サロゲイト仮定の違反からバイアスを導出し、実験例でも一次結果が観察されたとしても、サロゲイトの使用から得られる情報が存在することを示す。
Estimating the long-term effects of treatments is of interest in many fields. A common challenge in estimating such treatment effects is that long-term outcomes are unobserved in the time frame needed to make policy decisions. One approach to overcome this missing data problem is to analyze treatments effects on an intermediate outcome, often called a statistical surrogate, if it satisfies the condition that treatment and outcome are independent conditional on the statistical surrogate. The validity of the surrogacy condition is often controversial. Here we exploit that fact that in modern datasets, researchers often observe a large number, possibly hundreds or thousands, of intermediate outcomes, thought to lie on or close to the causal chain between the treatment and the long-term outcome of interest. Even if none of the individual proxies satisfies the statistical surrogacy criterion by itself, using multiple proxies can be useful in causal inference. We focus primarily on a setting with two samples, an experimental sample containing data about the treatment indicator and the surrogates and an observational sample containing information about the surrogates and the primary outcome. We state assumptions under which the average treatment effect be identified and estimated with a high-dimensional vector of proxies that collectively satisfy the surrogacy assumption, and derive the bias from violations of the surrogacy assumption, and show that even if the primary outcome is also observed in the experimental sample, there is still information to be gained from using surrogates. | 翻訳日:2024-08-25 14:35:18 公開日:2024-08-22 |
# バイアスデータから回復する - 公正制約は正確性を改善するか?
Recovering from Biased Data: Can Fairness Constraints Improve Accuracy? ( http://arxiv.org/abs/1912.01094v2 ) ライセンス: Link先を確認 | Avrim Blum, Kevin Stangl, | (参考訳) この文献では、人口集団が機械学習分類器によって不公平に扱われるかという様々な懸念から、複数の公正性制約が提案されている。
この作業では、偏りのあるトレーニングデータから学ぶという、別のモチベーションを考えます。
例えば、不利なグループのメンバに対して、より騒々しい、あるいは負に偏ったラベル付けプロセスや、不利なグループからの肯定的、否定的なサンプルの頻度の低下などである。
このようなバイアスのあるトレーニングデータを考えると、経験的リスク最小化(ERM)はバイアスを受けるだけでなく、真のデータ分布に最適な精度を持つ分類器を生成する可能性がある。
本研究では, 公平性に制約されたERMによるこの問題の是正能力について検討する。
特に、Equal Opportunity Fairness constraint (Hardt, Price, and Srebro 2016) とEMMを組み合わせることで、ベイズ最適分類器を様々なバイアスモデルで確実に回復することがわかった。
また、トレーニングデータの再重み付け、等化オッド、復号化パリティなど、他のリカバリ手法についても検討する。
これらの理論的結果は、俳優が主に正確性に気を配ったとしても、公平な介入を検討するための追加の動機を与える。
Multiple fairness constraints have been proposed in the literature, motivated by a range of concerns about how demographic groups might be treated unfairly by machine learning classifiers. In this work we consider a different motivation; learning from biased training data. We posit several ways in which training data may be biased, including having a more noisy or negatively biased labeling process on members of a disadvantaged group, or a decreased prevalence of positive or negative examples from the disadvantaged group, or both. Given such biased training data, Empirical Risk Minimization (ERM) may produce a classifier that not only is biased but also has suboptimal accuracy on the true data distribution. We examine the ability of fairness-constrained ERM to correct this problem. In particular, we find that the Equal Opportunity fairness constraint (Hardt, Price, and Srebro 2016) combined with ERM will provably recover the Bayes Optimal Classifier under a range of bias models. We also consider other recovery methods including reweighting the training data, Equalized Odds, and Demographic Parity. These theoretical results provide additional motivation for considering fairness interventions even if an actor cares primarily about accuracy. | 翻訳日:2024-08-25 14:30:57 公開日:2024-08-22 |
# 正規分散確率変数を用いたチャンス制約最適化問題に対する単目的・多目的進化アルゴリズムの実行時解析
Runtime Analysis of Single- and Multi-Objective Evolutionary Algorithms for Chance Constrained Optimization Problems with Normally Distributed Random Variables ( http://arxiv.org/abs/2109.05799v3 ) ライセンス: Link先を確認 | Frank Neumann, Carsten Witt, | (参考訳) チャンス制約最適化問題により、確率的成分を含む制約が小さな確率でのみ破られるような問題をモデル化することができる。
進化的アルゴリズムがこのシナリオに適用され、高品質な結果が得られることが示されている。
本稿では,確率制約最適化のための進化的アルゴリズムの理論的理解に寄与する。
独立で通常分散している確率成分のシナリオについて検討する。
単純な単目的 (1+1) EA を考えると、追加の一様制約を課すことで、非常に制限されたシナリオに対する局所最適化と指数最適化時間が得られることが示されている。
したがって、期待されるコストとその分散をトレードオフする問題の多目的定式化を導入する。
この定式化を利用する際には,多目的進化的アルゴリズムが極めて有効であることを示し,制約に課される任意の信頼度に対する最適解を含む解の集合を求める。
さらに,本手法は,最小分散木問題に対する最適解集合の計算にも有効であることを示す。
多目的の定式化において、潜在的に指数関数的に多くのトレードオフに対処するために、改良された凸多目的のアプローチを提案し、分析する。
NP-ハード確率的最小重み決定セット問題の事例に関する実験的研究は、実際、多目的の利点と改善された凸多目的のアプローチの利点を裏付けるものである。
Chance constrained optimization problems allow to model problems where constraints involving stochastic components should only be violated with a small probability. Evolutionary algorithms have been applied to this scenario and shown to achieve high quality results. With this paper, we contribute to the theoretical understanding of evolutionary algorithms for chance constrained optimization. We study the scenario of stochastic components that are independent and normally distributed. Considering the simple single-objective (1+1) EA, we show that imposing an additional uniform constraint already leads to local optima for very restricted scenarios and an exponential optimization time. We therefore introduce a multi-objective formulation of the problem which trades off the expected cost and its variance. We show that multi-objective evolutionary algorithms are highly effective when using this formulation and obtain a set of solutions that contains an optimal solution for any possible confidence level imposed on the constraint. Furthermore, we prove that this approach can also be used to compute a set of optimal solutions for the chance constrained minimum spanning tree problem. In order to deal with potentially exponentially many trade-offs in the multi-objective formulation, we propose and analyze improved convex multi-objective approaches. Experimental investigations on instances of the NP-hard stochastic minimum weight dominating set problem confirm the benefit of the multi-objective and the improved convex multi-objective approach in practice. | 翻訳日:2024-08-25 14:30:57 公開日:2024-08-22 |
# リチウムイオン電池の物理モデルと機械学習の統合
Integrating Physics-Based Modeling with Machine Learning for Lithium-Ion Batteries ( http://arxiv.org/abs/2112.12979v3 ) ライセンス: Link先を確認 | Hao Tu, Scott Moura, Yebin Wang, Huazhen Fang, | (参考訳) リチウムイオン電池(LiBs)の数学的モデリングは、高度な電池管理において大きな課題である。
本稿では,LiBの高精度モデリングを実現するために,物理モデルと機械学習を統合する2つの新しいフレームワークを提案する。
これらのフレームワークは、物理モデルの状態情報の機械学習モデルに通知することで、物理と機械学習の深い統合を可能にする。
これらのフレームワークに基づいて、電気化学モデルと等価回路モデルを組み合わせた一連のハイブリッドモデルと、フィードフォワードニューラルネットワークを構築した。
ハイブリッドモデルは構造的に比較的類似しており、広範なシミュレーションや実験で示されているように、幅広いCレートで相当な電圧予測精度を提供できる。
この研究はさらに、老化を意識したハイブリッドモデリングの実施へと拡張され、予測を行うために健康状態に意識したハイブリッドモデルの設計につながった。
実験の結果,LiBのサイクル寿命を通して高い電圧予測精度が得られた。
Mathematical modeling of lithium-ion batteries (LiBs) is a primary challenge in advanced battery management. This paper proposes two new frameworks to integrate physics-based models with machine learning to achieve high-precision modeling for LiBs. The frameworks are characterized by informing the machine learning model of the state information of the physical model, enabling a deep integration between physics and machine learning. Based on the frameworks, a series of hybrid models are constructed, through combining an electrochemical model and an equivalent circuit model, respectively, with a feedforward neural network. The hybrid models are relatively parsimonious in structure and can provide considerable voltage predictive accuracy under a broad range of C-rates, as shown by extensive simulations and experiments. The study further expands to conduct aging-aware hybrid modeling, leading to the design of a hybrid model conscious of the state-of-health to make prediction. The experiments show that the model has high voltage predictive accuracy throughout a LiB's cycle life. | 翻訳日:2024-08-23 20:22:50 公開日:2024-08-22 |
# ロバスト量子回路テストのための自動テストパターン生成
Automatic Test Pattern Generation for Robust Quantum Circuit Testing ( http://arxiv.org/abs/2202.10697v3 ) ライセンス: Link先を確認 | Kean Chen, Mingsheng Ying, | (参考訳) 量子回路テストは、現実的な量子デバイスにおける潜在的な欠陥を検出するのに不可欠であるが、テストプロセス自体も、量子演算の不正確さと信頼性に悩まされている。
本稿では、論理量子回路のロバストなテストのための新しいテストパターン生成フレームワーク(ATPG)を提案することにより、この問題を軽減する。
本稿では, 量子テストパターンを表す安定型プロジェクタ分解(SPD)を導入し, クリフォードのみの回路を用いて, 耐故障性量子計算で証明されたように, 比較的堅牢で効率的なテストアプリケーション(状態準備と測定)を構築した。
しかし、安定プロジェクタの指数的な増加により、一般的にSPDを生成することは困難である。
この難しさを回避するため,SPD生成アルゴリズムと,SPD生成における局所性と疎性の両方を活用できる加速度技術を開発した。
アルゴリズムの有効性を検証した。
1) 合理的条件下での理論的保証
2) IBM QiskitのQuantum Fourier Transform(QFT)、Quantum Volume(QV)、Bernstein-Vazirani(BV)などの一般的なベンチマーク回路の実験結果。
Quantum circuit testing is essential for detecting potential faults in realistic quantum devices, while the testing process itself also suffers from the inexactness and unreliability of quantum operations. This paper alleviates the issue by proposing a novel framework of automatic test pattern generation (ATPG) for robust testing of logical quantum circuits. We introduce the stabilizer projector decomposition (SPD) for representing the quantum test pattern, and construct the test application (i.e., state preparation and measurement) using Clifford-only circuits, which are rather robust and efficient as evidenced in the fault-tolerant quantum computation. However, it is generally hard to generate SPDs due to the exponentially growing number of the stabilizer projectors. To circumvent this difficulty, we develop an SPD generation algorithm, as well as several acceleration techniques which can exploit both locality and sparsity in generating SPDs. The effectiveness of our algorithms are validated by 1) theoretical guarantees under reasonable conditions, 2) experimental results on commonly used benchmark circuits, such as Quantum Fourier Transform (QFT), Quantum Volume (QV) and Bernstein-Vazirani (BV) in IBM Qiskit. | 翻訳日:2024-08-23 20:22:50 公開日:2024-08-22 |
# 特徴選択によるニューラルインターバル感覚生存の回帰
Neural interval-censored survival regression with feature selection ( http://arxiv.org/abs/2206.06885v3 ) ライセンス: Link先を確認 | Carlos García Meixide, Marcos Matabuena, Louis Abraham, Michael R. Kosorok, | (参考訳) 生存分析は、特にパーソナライズされた医療の文脈において、生物医学研究における基本的な分野である。
この優位性は、オミクスや医用画像データなど、大規模で高次元のデータセットの普及によるものである。
しかしながら、非線形回帰アルゴリズムと区間知覚のための変数選択技術に関する文献は、特にニューラルネットワークの文脈において、限定的または存在しない。
我々の目標は、加速故障時間(AFT)モデルに根ざした、インターバルセンセーテッド回帰タスクに適した、新しい予測フレームワークを導入することである。
私たちの戦略は2つの重要な要素から構成されます。
一 スパースニューラルネットワークアーキテクチャの最近の進歩を生かした可変選択相
二 間隔感応答の予測を目的とした回帰モデル
提案アルゴリズムの性能を評価するため,糖尿病や身体活動に関連するシナリオを含む数値実験と実世界のアプリケーションによる総合的な評価を行った。
この結果は,特に非線形関係を特徴とするシナリオにおいて,従来のAFTアルゴリズムよりも優れていた。
Survival analysis is a fundamental area of focus in biomedical research, particularly in the context of personalized medicine. This prominence is due to the increasing prevalence of large and high-dimensional datasets, such as omics and medical image data. However, the literature on non-linear regression algorithms and variable selection techniques for interval-censoring is either limited or non-existent, particularly in the context of neural networks. Our objective is to introduce a novel predictive framework tailored for interval-censored regression tasks, rooted in Accelerated Failure Time (AFT) models. Our strategy comprises two key components: i) a variable selection phase leveraging recent advances on sparse neural network architectures, ii) a regression model targeting prediction of the interval-censored response. To assess the performance of our novel algorithm, we conducted a comprehensive evaluation through both numerical experiments and real-world applications that encompass scenarios related to diabetes and physical activity. Our results outperform traditional AFT algorithms, particularly in scenarios featuring non-linear relationships. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# パーソナライズされたゼロショット心電図不整脈モニタリングシステム:スパース表現に基づく領域適応からエネルギー効率の良い異常ビート検出まで
A Personalized Zero-Shot ECG Arrhythmia Monitoring System: From Sparse Representation Based Domain Adaption to Energy Efficient Abnormal Beat Detection for Practical ECG Surveillance ( http://arxiv.org/abs/2207.07089v2 ) ライセンス: Link先を確認 | Mehmet Yamaç, Mert Duman, İlke Adalıoğlu, Serkan Kiranyaz, Moncef Gabbouj, | (参考訳) 本稿では,ウェアラブルモバイルセンサにおける早期不整脈検出のための低コストで高精度なECGモニタリングシステムを提案する。
パーソナライズされた心電図モニタリングのための従来型のアプローチでは、専用分類器のトレーニングには異常な心拍と正常な心拍の両方が必要となる。
しかし、パーソナライズされたアルゴリズムがウェアラブルデバイスに埋め込まれている現実のシナリオでは、そのようなトレーニングデータは、心疾患歴のない健康な人には利用できない。
本研究では,
一 スパース辞書学習により得られる健全な信号空間に関するヌル空間解析を提案し、スパース表現に基づく分類と比較して、より単純なヌル空間投影や、より規則化された最小二乗の分類法が、検出精度を犠牲にすることなく、どのように計算複雑性を低減するかを検討する。
(2)既存のユーザの異常信号と正常信号とを新規ユーザの信号空間に投影するために,疎表現に基づくドメイン適応手法を導入し,新規ユーザの異常な心拍を伴わずに専用分類器を訓練できるようにした。
したがって、合成異常心拍発生を必要とせずにゼロショット学習を実現することができる。
ベンチマークMIT-BIH ECGデータセットで実施された広範な実験により、このドメイン適応ベースのトレーニングデータジェネレータが単純な1-D CNN分類器で使用される場合、この手法は以前の処理よりも大幅に向上することが示された。
(三)その後、組み合わさって
(i)および
(ii) より高性能なアンサンブル分類器を提案する。
ゼロショット不整脈検出のアプローチでは、平均精度は98.2%、F1スコアは92.8%となる。
最後に、上記のイノベーションを用いて、エネルギー効率の高いECGモニタリング手法を提案する。
This paper proposes a low-cost and highly accurate ECG-monitoring system intended for personalized early arrhythmia detection for wearable mobile sensors. Earlier supervised approaches for personalized ECG monitoring require both abnormal and normal heartbeats for the training of the dedicated classifier. However, in a real-world scenario where the personalized algorithm is embedded in a wearable device, such training data is not available for healthy people with no cardiac disorder history. In this study, (i) we propose a null space analysis on the healthy signal space obtained via sparse dictionary learning, and investigate how a simple null space projection or alternatively regularized least squares-based classification methods can reduce the computational complexity, without sacrificing the detection accuracy, when compared to sparse representation-based classification. (ii) Then we introduce a sparse representation-based domain adaptation technique in order to project other existing users' abnormal and normal signals onto the new user's signal space, enabling us to train the dedicated classifier without having any abnormal heartbeat of the new user. Therefore, zero-shot learning can be achieved without the need for synthetic abnormal heartbeat generation. An extensive set of experiments performed on the benchmark MIT-BIH ECG dataset shows that when this domain adaptation-based training data generator is used with a simple 1-D CNN classifier, the method outperforms the prior work by a significant margin. (iii) Then, by combining (i) and (ii), we propose an ensemble classifier that further improves the performance. This approach for zero-shot arrhythmia detection achieves an average accuracy level of 98.2% and an F1-Score of 92.8%. Finally, a personalized energy-efficient ECG monitoring scheme is proposed using the above-mentioned innovations. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# Fuzzing Microservices: EvoMasterを使った産業システムに関する一連のユーザスタディ
Fuzzing Microservices: A Series of User Studies in Industry on Industrial Systems with EvoMaster ( http://arxiv.org/abs/2208.03988v2 ) ライセンス: Link先を確認 | Man Zhang, Andrea Arcuri, Yonggang Li, Yang Liu, Kaiming Xue, Zhao Wang, Jian Huo, Weiwei Huang, | (参考訳) 6億3000万の顧客にサービスを提供していた数千のWebサービスで構成されるマイクロサービスアーキテクチャでは、Meituanのような企業は、ソフトウェアの検証と検証においていくつかの課題に直面している。
本稿では,Meituanにおける2年近くにわたるテストプロセスにEvoMaster(検索ベースのホワイトボックスファザ)を統合する経験について報告する。
2021年と2023年に2つのユーザスタディを行い、EvoMasterの2つのバージョンを評価し、大規模なEコマースマイクロサービスシステムの一部である産業Webサービスのテスト生成に対処した。
2つのユーザスタディは、Meituanの5つのAPIと27の産業参加者から合計321,131行のコードを含んでいる。
Meituanの従業員とのユーザスタディにおいて,アンケート調査およびインタビューを行った。
2つのユーザスタディは、EvoMaster(コードカバレッジと障害検出)の明確なメリットと、産業用マイクロサービステストにおいてこのようなファジィザを緊急に必要とすることのメリットを示している。
これらの結果をどのように一般化するかを研究するために、2024年に5つの異なる企業で5人のエンジニアによるフォローアップユーザースタディが実施された。
本研究の結果は,その有用性に加えて,研究コミュニティがさらなるパフォーマンス向上のために調査する必要がある重要な課題がまだ多数存在することを示唆している。
With several microservice architectures comprising of thousands of web services, used to serve 630 million customers, companies like Meituan face several challenges in the verification and validation of their software. This paper reports on our experience of integrating EvoMaster (a search-based white-box fuzzer) in the testing processes at Meituan over almost 2 years. Two user studies were carried out in 2021 and in 2023 to evaluate two versions of EvoMaster, respectively, in tackling the test generation for industrial web services which are parts of a large e-commerce microservice system. The two user studies involve in total 321,131 lines of code from five APIs and 27 industrial participants at Meituan. Questionnaires and interviews were carried out in both user studies with employees at Meituan. The two user studies demonstrate clear advantages of EvoMaster (i.e., code coverage and fault detection) and the urgent need to have such a fuzzer in industrial microservices testing. To study how these results could generalize, a follow up user study was done in 2024 with five engineers in the five different companies. Our results show that, besides their clear usefulness, there are still many critical challenges that the research community needs to investigate to improve performance further. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# Internet-of-Things Enabled Chair を用いた下肢強度の評価
Assessing Lower Limb Strength using Internet-of-Things Enabled Chair ( http://arxiv.org/abs/2209.04042v2 ) ライセンス: Link先を確認 | Hudson Kaleb Dy, Chelsea Yeh, Hanna Kaitlin Dy, Phillip Schodinger, | (参考訳) 本研究は、リハビリテーションやセラピーを行う個人の下肢強度を評価するために、機械学習とInternet-of-Thingsの技術の適用について述べる。
具体的には、椅子に取り付けられたセンサーで個人の進捗を測定して評価し、Google GPU Tensorflow CoLabを通じてデータを処理する。
圧力センサーは椅子の様々な場所に装着されるが、座席、背もたれ、手足、脚に限らない。
立位から立位への遷移と立位への遷移の両方を行う個人からのセンサデータは、椅子の圧力分布と振動運動に関する時系列データセットを提供する。
そして、データセットとタイミング情報を機械学習モデルに入力して、動きのさまざまなフェーズにおける相対的な強度と弱さを推定する。
This project describes the application of the technologies of Machine Learning and Internet-of-Things to assess the lower limb strength of individuals undergoing rehabilitation or therapy. Specifically, it seeks to measure and assess the progress of individuals by sensors attached to chairs and processing the data through Google GPU Tensorflow CoLab. Pressure sensors are attached to various locations on a chair, including but not limited to the seating area, backrest, hand rests, and legs. Sensor data from the individual performing both sit-to-stand transition and stand-to-sit transition provides a time series dataset regarding the pressure distribution and vibratory motion on the chair. The dataset and timing information can then be fed into a machine learning model to estimate the relative strength and weakness during various phases of the movement. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# $ρ$-GNF:正規化フローを用いた非観測コンバウンディングに対するコピュラ型感度解析
$ρ$-GNF: A Copula-based Sensitivity Analysis to Unobserved Confounding Using Normalizing Flows ( http://arxiv.org/abs/2209.07111v2 ) ライセンス: Link先を確認 | Sourabh Balgi, Jose M. Peña, Adel Daoud, | (参考訳) 本研究では,コプラと正規化流を用いた観測研究において,観測不能なコンファウンディングに対する新しい感度解析法を提案する。
構造因果モデルの干渉等価性の概念を用いて、$\rho$-GNF ("\rho$-graphical normalizing flow") を開発し、$\rho{\in}[-1,+1]$ は有界感度パラメータである。
このパラメータは、観測されていないコンバウンディングによるバックドア非因果関係を表し、ガウスコプラで符号化される。
言い換えれば、$\rho$-GNFは、学者が平均因果効果(ACE)を$\rho$の関数として見積もることを可能にする。
$\rho$-GNF の出力は $\rho_{curve}$ と表されるもので、仮定された $\rho$ の値の間隔を与えられた ACE のバウンダリを提供する。
特に$\rho_{curve}$は、他の感度解析法(例えば、E値)と同様に、ACEを無効化するのに要する共起強度を学者が特定できるようにする。
シミュレーションおよび実世界のデータから実験を利用すれば、$\rho$-GNFの利点が示される。
1つの利点は、$\rho$-GNFがガウスのコプラを使って、観測されていない原因の分布を符号化することである。
この分布仮定は、他の一般的な感度解析法と比較して、より狭いACE境界を生成する。
We propose a novel sensitivity analysis to unobserved confounding in observational studies using copulas and normalizing flows. Using the idea of interventional equivalence of structural causal models, we develop $\rho$-GNF ($\rho$-graphical normalizing flow), where $\rho{\in}[-1,+1]$ is a bounded sensitivity parameter. This parameter represents the back-door non-causal association due to unobserved confounding, and which is encoded with a Gaussian copula. In other words, the $\rho$-GNF enables scholars to estimate the average causal effect (ACE) as a function of $\rho$, while accounting for various assumed strengths of the unobserved confounding. The output of the $\rho$-GNF is what we denote as the $\rho_{curve}$ that provides the bounds for the ACE given an interval of assumed $\rho$ values. In particular, the $\rho_{curve}$ enables scholars to identify the confounding strength required to nullify the ACE, similar to other sensitivity analysis methods (e.g., the E-value). Leveraging on experiments from simulated and real-world data, we show the benefits of $\rho$-GNF. One benefit is that the $\rho$-GNF uses a Gaussian copula to encode the distribution of the unobserved causes, which is commonly used in many applied settings. This distributional assumption produces narrower ACE bounds compared to other popular sensitivity analysis methods. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# 駆動量子ビット上の2レベル系欠陥による動的位相
Dynamic phases induced by two-level system defects on driven qubits ( http://arxiv.org/abs/2209.07677v2 ) ライセンス: Link先を確認 | Yanxiang Wang, Ziyang You, Hou Ian, | (参考訳) 最近の実験的証拠は、超伝導量子ビットにおけるデコヒーレンスの主要な構成要素として、酸化物とジョセフソン接合の界面にある2段階の欠陥を示している。
これらの欠陥が外部駆動の存在下でのキュービットの進化にどのように影響するかは、半古典的なキュービット場結合は、キュービット-欠陥結合が対角化不可能なJaynes-Cummingsモデルを生成するため、よく理解されていない。
駆動によって引き起こされる連続コヒーレント状態空間におけるデコヒーレンスダイナミクスを解析し、フォッカー・プランク方程式を介して余分な減衰クラッド駆動項を持つマスター方程式を解く。
ガウス分布としての拡散プロパゲータの解は、4つの異なる動的相を示す: 分布平均によって異なる半径のサイクルを制限する4種類の収束経路は、競合する外部駆動と欠陥崩壊によって決定される。
これらの溶液から生じるクォービット軌道は、崩壊したフォック状態の超ポアソニアンであり、これは欠陥によって決定される有効温度のギブス状態に還元される。
さらに、ポインケア写像は初期状態への収束率の依存性を示す。
言い換えれば、クォービットの進化は、駆動強度の変動をパラメータとして、欠陥結合強度の指標として機能することができる。
Recent experimental evidences point to two-level defects, located in the oxides and on the interfaces of the Josephson junctions, as the major constituents of decoherence in superconducting qubits. How these defects affect the qubit evolution with the presence of external driving is less well understood since the semiclassical qubit-field coupling renders the Jaynes-Cummings model for qubit-defect coupling undiagonalizable. We analyze the decoherence dynamics in the continuous coherent state space induced by the driving and solve the master equation endowed with an extra decay-cladded driving term via a Fokker-Planck equation. The solutions for diffusion propagators as Gaussian distributions show four distinct dynamic phases: four types of convergence paths to limit cycles of varying radius by the distribution mean, which are determined by the competing external driving and the defect decays. The qubit trajectory resulted from these solutions is a super-Poissonian over displac ed Fock states, which reduces to a Gibbs state of effective temperature decided by the defect at zero driving limit. Further, the Poincare map shows the dependence of the rate of convergence on the initial state. In other words, the qubit evolution can serve as an indicator of the defect coupling strength through the variation of the driving strength as a parameter. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# 無線スペクトルのクラスタリングのための自己教師付き学習
Self-supervised Learning for Clustering of Wireless Spectrum Activity ( http://arxiv.org/abs/2210.02899v3 ) ライセンス: Link先を確認 | Ljupcho Milosheski, Gregor Cerar, Blaž Bertalanič, Carolina Fortuna, Mihael Mohorčič, | (参考訳) 近年, 異常検出, 変調分類, 技術分類, デバイスフィンガープリントなど, 認知無線ネットワークにおける領域関連問題における機械学習技術を含む無線スペクトルデータの処理に関する研究が盛んに行われている。
ほとんどのソリューションはラベル付きデータに基づいており、制御された方法で作成され、教師付き学習アプローチで処理される。
しかし、実世界の環境で測定されたスペクトルデータは、非常に非決定論的であり、そのラベル付けは退屈で高価なプロセスであり、ドメインの専門知識を必要とするため、この領域で教師付き学習アプローチを使用することの主な欠点の1つである。
本稿では,実世界の未ラベルデータにおけるスペクトル活動の探索に自己教師付き学習(SSL)を用いることを検討する。
特に、参照DeepClusterアーキテクチャに基づくSSLモデルと、スペクトル活動の識別とクラスタリングに適応したSSLモデルと、K平均クラスタリングアルゴリズムに基づくベースラインモデルの比較を行った。
抽出した特徴量やクラスタリング性能に関して,SSLモデルにより優れた性能が得られることを示す。
SSLモデルでは、特徴ベクトルのサイズを2桁に縮小するとともに、視覚的評価によって支援された評価指標の2~2.5倍の性能向上を実現しています。
さらに,参照SSLアーキテクチャのドメインデータへの適応により,クラスタリング性能の維持や改善を図りながら,モデルの複雑性を1桁のスケールで低減できることを示す。
In recent years, much work has been done on processing of wireless spectrum data involving machine learning techniques in domain-related problems for cognitive radio networks, such as anomaly detection, modulation classification, technology classification and device fingerprinting. Most of the solutions are based on labeled data, created in a controlled manner and processed with supervised learning approaches. However, spectrum data measured in real-world environment is highly nondeterministic, making its labeling a laborious and expensive process, requiring domain expertise, thus being one of the main drawbacks of using supervised learning approaches in this domain. In this paper, we investigate the use of self-supervised learning (SSL) for exploring spectrum activities in a real-world unlabeled data. In particular, we compare the performance of two SSL models, one based on a reference DeepCluster architecture and one adapted for spectrum activity identification and clustering, and a baseline model based on K-means clustering algorithm. We show that SSL models achieve superior performance regarding the quality of extracted features and clustering performance. With SSL models we achieve reduction of the feature vectors size by two orders of magnitude, while improving the performance by a factor of 2 to 2.5 across the evaluation metrics, supported by visual assessment. Additionally we show that adaptation of the reference SSL architecture to the domain data provides reduction of model complexity by one order of magnitude, while preserving or even improving the clustering performance. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# 量子集合反転のための計算機実験のベイズ的逐次設計
Bayesian sequential design of computer experiments for quantile set inversion ( http://arxiv.org/abs/2211.01008v6 ) ライセンス: Link先を確認 | Romain Ait Abdelmalek-Lomenech, Julien Bect, Vincent Chabridon, Emmanuel Vazquez, | (参考訳) 本稿では,システムを表す未知の多変量関数について考察する。
我々の目的は、与えられた集合に属する確率(不確実な入力の分布に関する)が与えられた閾値未満である出力につながる決定論的入力の集合を推定することである。
この問題はQuantile Set Inversion (QSI)と呼ばれ、例えば十分に大きな確率で制約を満たす解の集合を探す際に、堅牢な(信頼性に基づく)最適化問題の文脈で発生する。
QSI問題を解決するために,ガウス過程モデリングとステップワイド不確実性低減(SUR)原理に基づくベイズ戦略を提案する。
本稿では,いくつかの数値実験を通じて提案したSUR戦略の性能と関心について述べる。
We consider an unknown multivariate function representing a system-such as a complex numerical simulator-taking both deterministic and uncertain inputs. Our objective is to estimate the set of deterministic inputs leading to outputs whose probability (with respect to the distribution of the uncertain inputs) of belonging to a given set is less than a given threshold. This problem, which we call Quantile Set Inversion (QSI), occurs for instance in the context of robust (reliability-based) optimization problems, when looking for the set of solutions that satisfy the constraints with sufficiently large probability. To solve the QSI problem we propose a Bayesian strategy, based on Gaussian process modeling and the Stepwise Uncertainty Reduction (SUR) principle, to sequentially choose the points at which the function should be evaluated to efficiently approximate the set of interest. We illustrate the performance and interest of the proposed SUR strategy through several numerical experiments. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# エンティティクラスタとしてのトピック: 大規模言語モデルとグラフニューラルネットワークによるエンティティベースのトピック
Topics as Entity Clusters: Entity-based Topics from Large Language Models and Graph Neural Networks ( http://arxiv.org/abs/2301.02458v2 ) ライセンス: Link先を確認 | Manuel V. Loureiro, Steven Derby, Tri Kurniawan Wijaya, | (参考訳) トピックモデルは、テキストのコーパス内の潜伏構造を明らかにすることを目的としており、典型的には、文書のバグ・オブ・ワード表現に関する項周波数統計を用いている。
近年では、言語に依存しない言語に依存しない概念的実体が、単語レベルのトークンの代わりに使われてきた。
しかし、純粋にエンティティ駆動のニューラル・トピック・モデリングを考える場合、現在の文献は限られている。
例えば、システマティック構造を引き出すためにエンティティを使用する利点があるにもかかわらず、現在の技術がこれらの疎結合で情報密度の高い概念単位と互換性があるかどうかは不明である。
本研究では,エンティティに基づくニューラルトピックモデリングについて検討し,エンティティのバイモーダルベクトル表現を用いた新しいトピッククラスタリング手法を提案する。
具体的には、これらの概念単位の最も健全な側面を導出するために、大きな言語モデルと記号関係の知識ベースに基づいて訓練されたグラフニューラルネットワークからこれらの潜在表現を抽出する。
特に知識ベースでトレーニングされたグラフベースの埋め込みを使用する場合、コヒーレンシーメトリクスの分析により、我々のアプローチは最先端のモデルと比較してエンティティを扱うのに適していることを確認した。
Topic models aim to reveal latent structures within a corpus of text, typically through the use of term-frequency statistics over bag-of-words representations from documents. In recent years, conceptual entities -- interpretable, language-independent features linked to external knowledge resources -- have been used in place of word-level tokens, as words typically require extensive language processing with a minimal assurance of interpretability. However, current literature is limited when it comes to exploring purely entity-driven neural topic modeling. For instance, despite the advantages of using entities for eliciting thematic structure, it is unclear whether current techniques are compatible with these sparsely organised, information-dense conceptual units. In this work, we explore entity-based neural topic modeling and propose a novel topic clustering approach using bimodal vector representations of entities. Concretely, we extract these latent representations from large language models and graph neural networks trained on a knowledge base of symbolic relations, in order to derive the most salient aspects of these conceptual units. Analysis of coherency metrics confirms that our approach is better suited to working with entities in comparison to state-of-the-art models, particularly when using graph-based embeddings trained on a knowledge base. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# 量子チャネルの最小出力レニイpエントロピーの付加性に対する新しい構成的反例
New constructive counterexamples to additivity of minimum output Rényi p-entropy of quantum channels ( http://arxiv.org/abs/2301.07428v2 ) ライセンス: Link先を確認 | Krzysztof Szczygielski, Michał Studziński, | (参考訳) 本稿では、対応する最小出力 R\'enyi $p$-entropy が加法的でない量子チャネルの新しい族を示す。
我々の写本はGrudka et al , J. Physの成果によって動機付けられている。
A: 数学。
Theor
43 425304 であり、$\mathbb{C}^d \otimes \mathbb{C}^d$ の反対称部分空間の拡張と部分空間によって特徴づけられるチャネルに焦点をあてる。
In this paper, we present new families of quantum channels for which corresponding minimum output R\'enyi $p$-entropy is not additive. Our manuscript is motivated by the results of Grudka et al., J. Phys. A: Math. Theor. 43 425304 and we focus on channels characterized by both extensions and subspaces of the antisymmetric subspace in $\mathbb{C}^d \otimes \mathbb{C}^d$, which exhibit additivity breaking for $p>2$. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# HyperNeRFGAN:3D NeRF GANへのハイパーネットワークアプローチ
HyperNeRFGAN: Hypernetwork approach to 3D NeRF GAN ( http://arxiv.org/abs/2301.11631v2 ) ライセンス: Link先を確認 | Adam Kania, Artur Kasymov, Jakub Kościukiewicz, Artur Górak, Marcin Mazur, Maciej Zięba, Przemysław Spurek, | (参考訳) 最近の3Dオブジェクトの深層生成モデルの普及は、特にボクセルや点雲といった従来の3D表現によるトレーニングの難しさから、より効率的なトレーニング方法の必要性を浮き彫りにした。
ニューラルネットワーク(Neural Radiance Fields、NeRF)は、2D画像の限られたセットから複雑な3Dシーンの新たなビューを生成するための、現在のベンチマークを提供する。
しかし、これらのモデルの訓練には、画像が観察された各カメラ位置の知識が必要である。
本稿では,ガウス雑音を学習段階における視線方向を利用できないNeRFアーキテクチャの重みに変換するために,ハイパーネットワークパラダイムを用いたGAN(Generative Adversarial Network)アーキテクチャであるHyperNeRFGANを導入することにより,この制限を克服する。
その結果,提案手法は,既存の最先端の代替技術と比較して顕著な単純さにもかかわらず,カメラ位置推定が困難である様々な画像データセットにおいて,特に医療データの文脈において優れた性能を示した。
The recent surge in popularity of deep generative models for 3D objects has highlighted the need for more efficient training methods, particularly given the difficulties associated with training with conventional 3D representations, such as voxels or point clouds. Neural Radiance Fields (NeRFs), which provide the current benchmark in terms of quality for the generation of novel views of complex 3D scenes from a limited set of 2D images, represent a promising solution to this challenge. However, the training of these models requires the knowledge of the respective camera positions from which the images were viewed. In this paper, we overcome this limitation by introducing HyperNeRFGAN, a Generative Adversarial Network (GAN) architecture employing a hypernetwork paradigm to transform a Gaussian noise into the weights of a NeRF architecture that does not utilize viewing directions in its training phase. Consequently, as evidenced by the findings of our experimental study, the proposed model, despite its notable simplicity in comparison to existing state-of-the-art alternatives, demonstrates superior performance on a diverse range of image datasets where camera position estimation is challenging, particularly in the context of medical data. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# コピュラを用いた人工集団生成のための転写可能モデル
Copula-based transferable models for synthetic population generation ( http://arxiv.org/abs/2302.09193v3 ) ライセンス: Link先を確認 | Pascal Jutras-Dubé, Mohammad B. Al-Khasawneh, Zhichao Yang, Javier Bas, Fabian Bastin, Cinzia Cirillo, | (参考訳) 集団合成は、行動モデリングとシミュレーションのために、標的とするマイクロエージェントの人口の合成的かつ現実的な表現を生成する。
伝統的な手法は、国勢調査データや旅行調査のような対象の人口サンプルに依存することが多く、特に小さな地理的規模で、高いコストと小さなサンプルサイズのために制限に直面している。
本研究では,実験的辺縁分布のみが知られている対象個体群を対象とした合成データを生成するためのコプラに基づく新しい枠組みを提案する。
本手法は, 異なる個体群からのサンプルを類似の限界依存性で利用し, 空間成分を集団合成に導入し, より現実的な生成物として様々な情報源を検討する。
具体的には、このプロセスはデータを正規化し、与えられたコプラの実現として扱い、ターゲットの人口の限界に関する情報を組み込む前に生成モデルを訓練する。
American Community Surveyのデータを利用して、標準ルート平均二乗誤差(SRMSE)といわゆるサンプルゼロを用いて、我々のフレームワークの性能を評価する。
我々は、ある個体群から別の個体群へ学習したモデルを移す能力に焦点をあてる。
実験では,同じ地理的レベルの地域間での移動試験や,地理的レベルの低い地域間での移動試験を含め,様々な空間的文脈におけるフレームワークの適応性を評価する。
我々は,ベイジアンネットワーク,変分オートエンコーダ,ジェネレーティブ・アドバーサリアル・ネットワーク,およびコーパス・フレームワークを個別に組み合わせて比較した。
その結果,コプラは参照データの限界値にマッチする機械学習手法を強化することがわかった。
さらに、トランスファービリティ実験におけるSRMSEの観点では反復的比例フィッティングを一貫して上回り、元のトレーニングサンプルでは見つからないユニークな観察を導入した。
Population synthesis involves generating synthetic yet realistic representations of a target population of micro-agents for behavioral modeling and simulation. Traditional methods, often reliant on target population samples, such as census data or travel surveys, face limitations due to high costs and small sample sizes, particularly at smaller geographical scales. We propose a novel framework based on copulas to generate synthetic data for target populations where only empirical marginal distributions are known. This method utilizes samples from different populations with similar marginal dependencies, introduces a spatial component into population synthesis, and considers various information sources for more realistic generators. Concretely, the process involves normalizing the data and treating it as realizations of a given copula, and then training a generative model before incorporating the information on the marginals of the target population. Utilizing American Community Survey data, we assess our framework's performance through standardized root mean squared error (SRMSE) and so-called sampled zeros. We focus on its capacity to transfer a model learned from one population to another. Our experiments include transfer tests between regions at the same geographical level as well as to lower geographical levels, hence evaluating the framework's adaptability in varied spatial contexts. We compare Bayesian Networks, Variational Autoencoders, and Generative Adversarial Networks, both individually and combined with our copula framework. Results show that the copula enhances machine learning methods in matching the marginals of the reference data. Furthermore, it consistently surpasses Iterative Proportional Fitting in terms of SRMSE in the transferability experiments, while introducing unique observations not found in the original training sample. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# 連続および離散空間における疎ガウス過程による回帰からの効率的なセンサ配置
Efficient Sensor Placement from Regression with Sparse Gaussian Processes in Continuous and Discrete Spaces ( http://arxiv.org/abs/2303.00028v7 ) ライセンス: Link先を確認 | Kalvik Jakkala, Srinivas Akella, | (参考訳) センサ配置問題は、温度、降水量、塩分濃度などの相関現象を監視するときに発生する一般的な問題である。
既存のアプローチでは、相互情報~(MI)のような情報メトリクスの最大化としてこれを定式化し、離散領域におけるグリードアルゴリズムのような最適化手法や、連続領域における遺伝的アルゴリズムのようなデリバティブな最適化手法を用いるのが一般的である。
しかし、センサ配置のためのMI計算には環境の離散化が必要であり、その計算コストは離散化された環境の大きさに依存する。
これらの制限は、これらのアプローチをスケーリングから大きな問題に制限する。
本稿では, 勾配降下法を用いて最適化し, 連続領域における解を効率的に見つけることができる変分近似に基づくSP問題に対する新しい定式化を提案する。
我々は,離散環境にも対処する手法を一般化した。
実世界の4つのデータセットに対する実験結果から,MIと復元品質の両面において,従来の最先端手法と同等以上の精度でセンサ配置を生成することができた。
我々の計算効率の良いアプローチは、情報経路計画アルゴリズムのための大規模センサー配置と高速ロボットセンサ配置の両方を可能にする。
The sensor placement problem is a common problem that arises when monitoring correlated phenomena, such as temperature, precipitation, and salinity. Existing approaches to this problem typically formulate it as the maximization of information metrics, such as mutual information~(MI), and use optimization methods such as greedy algorithms in discrete domains, and derivative-free optimization methods such as genetic algorithms in continuous domains. However, computing MI for sensor placement requires discretizing the environment, and its computation cost depends on the size of the discretized environment. These limitations restrict these approaches from scaling to large problems. We present a novel formulation to the SP problem based on variational approximation that can be optimized using gradient descent, allowing us to efficiently find solutions in continuous domains. We generalize our method to also handle discrete environments. Our experimental results on four real-world datasets demonstrate that our approach generates sensor placements consistently on par with or better than the prior state-of-the-art approaches in terms of both MI and reconstruction quality, all while being significantly faster. Our computationally efficient approach enables both large-scale sensor placement and fast robotic sensor placement for informative path planning algorithms. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# グラフ上のランダム逆問題に対する分散オンライン学習
Decentralized Online Learning for Random Inverse Problems Over Graphs ( http://arxiv.org/abs/2303.11789v7 ) ライセンス: Link先を確認 | Tao Li, Xiwei Zhang, Yan Chen, | (参考訳) 本稿では,ネットワークグラフ上の分散ランダム逆問題に対する分散化オンライン学習アルゴリズムを提案し,Hilbert空間における分散パラメータ推定とカーネルHilbert空間再現における最小二乗問題(RKHS-LMS)を統一する。
我々は、アルゴリズムの収束を、$L_{2}$-bounded martingale difference terms を持つヒルベルト空間における不均一なランダム差分方程式のクラスにおける漸近安定性に変換し、ヒルベルト空間における $L2$-asymptotic stability theory を開発する。
ネットワークグラフが連結され、フォワード演算子の列が励起条件の無限次元時空間持続性を満たすならば、全てのノードの推定は平均二乗であり、ほぼ確実に一致していることを示す。
さらに,RKHSにおける非定常オンラインデータストリームに基づく分散オンライン学習アルゴリズムを提案し,ランダム入力データによって誘導される演算子が励振条件の無限次元時空間持続性を満たす場合,そのアルゴリズムが平均二乗でほぼ確実に整合であることを証明した。
We propose a decentralized online learning algorithm for distributed random inverse problems over network graphs with online measurements, and unifies the distributed parameter estimation in Hilbert spaces and the least mean square problem in reproducing kernel Hilbert spaces (RKHS-LMS). We transform the convergence of the algorithm into the asymptotic stability of a class of inhomogeneous random difference equations in Hilbert spaces with $L_{2}$-bounded martingale difference terms and develop the $L_2$-asymptotic stability theory in Hilbert spaces. We show that if the network graph is connected and the sequence of forward operators satisfies the infinite-dimensional spatio-temporal persistence of excitation condition, then the estimates of all nodes are mean square and almost surely strongly consistent. Moreover, we propose a decentralized online learning algorithm in RKHS based on non-stationary online data streams, and prove that the algorithm is mean square and almost surely strongly consistent if the operators induced by the random input data satisfy the infinite-dimensional spatio-temporal persistence of excitation condition. | 翻訳日:2024-08-23 20:17:08 公開日:2024-08-22 |
# ChatGPTの評価を信頼できますか?
Can we trust the evaluation on ChatGPT? ( http://arxiv.org/abs/2303.12767v2 ) ライセンス: Link先を確認 | Rachith Aiyappa, Jisun An, Haewoon Kwak, Yong-Yeol Ahn, | (参考訳) 大量導入した最初の大規模言語モデル(LLM)であるChatGPTは、多くの自然言語タスクにおいて顕著なパフォーマンスを示している。
明らかな有用性にもかかわらず、さまざまな問題領域におけるChatGPTの性能評価は、モデルのクローズドな性質と、Reinforcement Learning from Human Feedback (RLHF)による継続的更新により、依然として困難である。
本稿では,ChatGPT評価におけるデータ汚染の問題点を,姿勢検出の課題を事例として取り上げる。
我々は,データ汚染の防止と,閉じたモデルと継続的に訓練されたモデルの時代における公正なモデル評価の確保という課題について論じる。
ChatGPT, the first large language model (LLM) with mass adoption, has demonstrated remarkable performance in numerous natural language tasks. Despite its evident usefulness, evaluating ChatGPT's performance in diverse problem domains remains challenging due to the closed nature of the model and its continuous updates via Reinforcement Learning from Human Feedback (RLHF). We highlight the issue of data contamination in ChatGPT evaluations, with a case study of the task of stance detection. We discuss the challenge of preventing data contamination and ensuring fair model evaluation in the age of closed and continuously trained models. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# 動的処理による異種プライベートクラスタリングの有用性向上
Improving the Utility of Differentially Private Clustering through Dynamical Processing ( http://arxiv.org/abs/2304.13886v2 ) ライセンス: Link先を確認 | Junyoung Byun, Yujin Choi, Jaewook Lee, | (参考訳) 本研究では,差分プライベートクラスタリングにおけるユーティリティとプライバシのトレードオフを軽減することを目的とする。
既存の作業は、非凸クラスタのパフォーマンスが低い単純なメソッドに重点を置いている。
複雑なクラスタ分布に適合するため、モース理論に着想を得た高度な動的処理を提案し、既存の手法によって得られたガウス部分クラスタを階層的に接続する。
我々の理論的結果は、提案された動的処理は、追加のプライバシー損失をほとんど起こさないことを示唆している。
実験により,我々のフレームワークは,同一のプライバシレベルで既存のメソッドのクラスタリング性能を向上させることができることが示された。
This study aims to alleviate the trade-off between utility and privacy of differentially private clustering. Existing works focus on simple methods, which show poor performance for non-convex clusters. To fit complex cluster distributions, we propose sophisticated dynamical processing inspired by Morse theory, with which we hierarchically connect the Gaussian sub-clusters obtained through existing methods. Our theoretical results imply that the proposed dynamical processing introduces little to no additional privacy loss. Experiments show that our framework can improve the clustering performance of existing methods at the same privacy level. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# ニューラルネットワークモデルの類似性:機能的および表現的尺度の検討
Similarity of Neural Network Models: A Survey of Functional and Representational Measures ( http://arxiv.org/abs/2305.06329v3 ) ライセンス: Link先を確認 | Max Klabunde, Tobias Schumacher, Markus Strohmaier, Florian Lemmerich, | (参考訳) ニューラルネットワークの類似性を計測して、その振る舞いを理解し、改善することは、非常に重要で研究上の関心事となっている。
本稿では,ニューラルネットワークの類似性を測定するための2つの相補的視点について概説する。
(i)中間層の活性化の相違を考慮した表現的類似性、及び
(ii) 関数的類似性(英語版)は、モデルが出力でどのように異なるかを考える。
既存の対策の詳細な説明に加えて、これらの対策の諸性質と関係に関する結果を要約し、議論し、オープンな研究課題を指摘する。
私たちの研究が、ニューラルネットワークモデルに対する類似度測定の特性と適用性に関するより体系的な研究の基盤となることを願っています。
Measuring similarity of neural networks to understand and improve their behavior has become an issue of great importance and research interest. In this survey, we provide a comprehensive overview of two complementary perspectives of measuring neural network similarity: (i) representational similarity, which considers how activations of intermediate layers differ, and (ii) functional similarity, which considers how models differ in their outputs. In addition to providing detailed descriptions of existing measures, we summarize and discuss results on the properties of and relationships between these measures, and point to open research problems. We hope our work lays a foundation for more systematic research on the properties and applicability of similarity measures for neural network models. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# テンポトロンに基づくパルス形状の識別--GPUを用いた強力な分類器
Pulse shape discrimination based on the Tempotron: a powerful classifier on GPU ( http://arxiv.org/abs/2305.18205v2 ) ライセンス: Link先を確認 | Haoran Liu, Peng Li, Ming-Zhe Liu, Kai-Ming Wang, Zhuo Zuo, Bing-Qi Liu, | (参考訳) 本研究では,第3世代ニューラルネットワークモデルに基づく頑健な分類器であるテンポトロンを用いてパルス形状の識別を行った。
手動の特徴抽出を不要にすることで、テンポトロンモデルはパルス信号を直接処理し、事前の知識に基づいて識別結果を生成することができる。
この研究はGPUアクセラレーションを用いた実験を行い、CPUベースモデルと比較して500倍以上高速となり、テンポトロン性能に対するノイズ増大の影響を調査した。
実験結果から、TempotronはAmBeデータセットと飛行時間PuBeデータセットの両方で高い識別精度を達成するために、強い分類器として機能することが確認された。
さらに、トレーニング中のテンポトロンの神経活動を分析し、学習特性に光を当て、ハイパーパラメータの選択を支援した。
さらに, パルス形状の識別にテンポトロンを用いることで, 今後の発展への制約と可能性について検討した。
この研究で使用されるデータセットとGPUベースのTempotronはGitHubでhttps://github.com/HaoranLiu507/TempotronGPUで公開されている。
This study utilized the Tempotron, a robust classifier based on a third-generation neural network model, for pulse shape discrimination. By eliminating the need for manual feature extraction, the Tempotron model can process pulse signals directly, generating discrimination results based on prior knowledge. The study performed experiments using GPU acceleration, resulting in over 500 times faster compared to the CPU-based model, and investigated the impact of noise augmentation on the Tempotron performance. Experimental results substantiated that Tempotron serves as a formidable classifier, adept at accomplishing high discrimination accuracy on both AmBe and time-of-flight PuBe datasets. Furthermore, analyzing the neural activity of Tempotron during training shed light on its learning characteristics and aided in selecting its hyperparameters. Moreover, the study addressed the constraints and potential avenues for future development in utilizing the Tempotron for pulse shape discrimination. The dataset used in this study and the GPU-based Tempotron are publicly available on GitHub at https://github.com/HaoranLiu507/TempotronGPU. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# 物理学者のための量子コンピューティング入門
A Short Introduction to Quantum Computing for Physicists ( http://arxiv.org/abs/2306.09388v2 ) ライセンス: Link先を確認 | Oswaldo Zapata, | (参考訳) これらのノートは、既に量子力学の基礎知識を持っている人のために、量子計算と通信に関する標準的なトピックを紹介している。
主な対象はプロの物理学者と物理学の上級学生であるが、技術者や計算機科学者もその恩恵を受けるかもしれない。
These notes provide an introduction to standard topics on quantum computation and communication for those who already have a basic knowledge of quantum mechanics. The main target audience are professional physicists as well as advanced students of physics; however, engineers and computer scientists may also benefit from them. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# 量子ボルツマン機械学習のサンプル複雑性について
On the Sample Complexity of Quantum Boltzmann Machine Learning ( http://arxiv.org/abs/2306.14969v3 ) ライセンス: Link先を確認 | Luuk Coopmans, Marcello Benedetti, | (参考訳) 量子ボルツマンマシン(Quantum Boltzmann machine、QBM)は、古典データと量子データの両方の機械学習モデルである。
我々は,データセットの多項式サイズを考慮したQBM学習の運用的定義を,モデルと対象との期待値の差の観点から提示する。
相対エントロピーを損失関数として用いることで、不毛の台地に遭遇することなくこの問題を解決できる。
解は、少なくともギブス状態の多項式数を用いて確率勾配降下で得られることを証明した。
また,QBMパラメータのサブセットで事前学習を行うことで,サンプルの複雑性境界を低くすることができることも証明した。
特に,平均場,ガウスフェルミオン,幾何学的局所ハミルトニアンに基づく事前学習戦略を提案する。
我々はこれらのモデルと理論的知見を量子および古典的データセット上で数値的に検証する。
この結果から,QBMは有望な機械学習モデルであることがわかった。
Quantum Boltzmann machines (QBMs) are machine-learning models for both classical and quantum data. We give an operational definition of QBM learning in terms of the difference in expectation values between the model and target, taking into account the polynomial size of the data set. By using the relative entropy as a loss function this problem can be solved without encountering barren plateaus. We prove that a solution can be obtained with stochastic gradient descent using at most a polynomial number of Gibbs states. We also prove that pre-training on a subset of the QBM parameters can only lower the sample complexity bounds. In particular, we give pre-training strategies based on mean-field, Gaussian Fermionic, and geometrically local Hamiltonians. We verify these models and our theoretical findings numerically on a quantum and a classical data set. Our results establish that QBMs are promising machine learning models. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# 状態依存雑音による確率近似の高速化
Accelerated stochastic approximation with state-dependent noise ( http://arxiv.org/abs/2307.01497v3 ) ライセンス: Link先を確認 | Sasila Ilandarideva, Anatoli Juditsky, Guanghui Lan, Tianjiao Li, | (参考訳) 確率勾配観測における雑音に対するより一般的な仮定の下で、確率的滑らかな凸最適化問題のクラスを考える。
ノイズの分散が一様有界であると仮定される古典的な問題設定とは対照的に、確率勾配の分散はアルゴリズムによって与えられる近似解の「準最適性」に関係していると仮定する。
このような問題は、統計学におけるよく知られた一般化された線形回帰問題において、様々な応用において自然に発生する。
しかし、我々の知る限りでは、このような問題のクラスを解くための確率近似アルゴリズムは、精度、問題パラメータ、およびミニバッチサイズに依存するため、最適性を得ることができない。
本稿では,2つの非ユークリッド加速確率近似ルーチン,-確率加速度勾配勾配(SAGD)と確率勾配外挿(SGE)について論じる。
SAGD と SGE の両者は、最適収束率を達成し、最適反復とサンプルの複雑さを同時に達成できることが示されている。
しかし、SGEアルゴリズムの対応する仮定はより一般的なものであり、例えば、重いテールノイズや不連続スコア関数の下での統計的推定問題にSGEを効率的に適用することができる。
また,2次成長条件を満たす問題に対するSGEの適用について論じ,スパース溶液の回収にどのように使用できるかを示した。
最後に,提案アルゴリズムの数値的性能を高次元設定で示すためのシミュレーション実験について報告する。
We consider a class of stochastic smooth convex optimization problems under rather general assumptions on the noise in the stochastic gradient observation. As opposed to the classical problem setting in which the variance of noise is assumed to be uniformly bounded, herein we assume that the variance of stochastic gradients is related to the "sub-optimality" of the approximate solutions delivered by the algorithm. Such problems naturally arise in a variety of applications, in particular, in the well-known generalized linear regression problem in statistics. However, to the best of our knowledge, none of the existing stochastic approximation algorithms for solving this class of problems attain optimality in terms of the dependence on accuracy, problem parameters, and mini-batch size. We discuss two non-Euclidean accelerated stochastic approximation routines--stochastic accelerated gradient descent (SAGD) and stochastic gradient extrapolation (SGE)--which carry a particular duality relationship. We show that both SAGD and SGE, under appropriate conditions, achieve the optimal convergence rate, attaining the optimal iteration and sample complexities simultaneously. However, corresponding assumptions for the SGE algorithm are more general; they allow, for instance, for efficient application of the SGE to statistical estimation problems under heavy tail noises and discontinuous score functions. We also discuss the application of the SGE to problems satisfying quadratic growth conditions, and show how it can be used to recover sparse solutions. Finally, we report on some simulation experiments to illustrate numerical performance of our proposed algorithms in high-dimensional settings. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# ラベルノイズ:前方補正
Label Noise: Correcting the Forward-Correction ( http://arxiv.org/abs/2307.13100v2 ) ライセンス: Link先を確認 | William Toner, Amos Storkey, | (参考訳) ラベルノイズのあるデータセット上でニューラルネットワーク分類器を訓練することは、ノイズのあるラベルに過度に適合するリスクをもたらす。
この問題に対処するため、研究者らはより堅牢な代替の損失関数を研究してきた。
フォワード補正」は、ノイズの多いデータに対して評価される前に、モデル出力がノイズを受けるという一般的なアプローチである。
真のノイズモデルが知られている場合、前方補正を適用することで学習アルゴリズムの一貫性が保証される。
何らかの利点を提供する一方で、この補正は有限ノイズデータセットへの過度な適合を防ぐには不十分である。
本研究では,ラベルノイズによるオーバーフィッティングに対処する手法を提案する。
ラベルノイズの存在は、雑音の一般化リスクの低い境界を示唆している。
本研究は, オーバーフィッティングを緩和するために, トレーニング損失に低い限界を課すことを提案する。
我々の主な貢献は、平均雑音率の見積だけで下界を近似できる理論的な洞察を提供することである。
このバウンダリを使用することで、様々な設定での堅牢性が著しく向上し、計算コストが実質的にゼロとなることを実証的に実証した。
Training neural network classifiers on datasets with label noise poses a risk of overfitting them to the noisy labels. To address this issue, researchers have explored alternative loss functions that aim to be more robust. The `forward-correction' is a popular approach wherein the model outputs are noised before being evaluated against noisy data. When the true noise model is known, applying the forward-correction guarantees consistency of the learning algorithm. While providing some benefit, the correction is insufficient to prevent overfitting to finite noisy datasets. In this work, we propose an approach to tackling overfitting caused by label noise. We observe that the presence of label noise implies a lower bound on the noisy generalised risk. Motivated by this observation, we propose imposing a lower bound on the training loss to mitigate overfitting. Our main contribution is providing theoretical insights that allow us to approximate the lower bound given only an estimate of the average noise rate. We empirically demonstrate that using this bound significantly enhances robustness in various settings, with virtually no additional computational cost. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# 医療資源の効率的かつ公平な配置のための深層強化学習
Deep Reinforcement Learning for Efficient and Fair Allocation of Health Care Resources ( http://arxiv.org/abs/2309.08560v2 ) ライセンス: Link先を確認 | Yikuan Li, Chengsheng Mao, Kaixuan Huang, Hanyin Wang, Zheng Yu, Mengdi Wang, Yuan Luo, | (参考訳) 医療資源の枯渇は、レーションの避けられない結果をもたらす可能性がある。
例えば、人工呼吸器は供給に制限されることが多く、特に公衆衛生の緊急事態や、新型コロナウイルス(COVID-19)のパンデミックなど、資源に制約のある医療環境においてである。
現在、医療資源割り当てプロトコルの普遍的な標準は存在せず、様々な基準やヒューリスティックベースのプロトコルに基づいて患者を優先順位付けしている。
本研究では, 要介護資源配分政策最適化における強化学習の活用について検討した。
本稿では,患者の病状進行と医療資源配分時の患者間の相互作用効果を統合するためのトランスフォーマーベースのディープQネットワークを提案する。
配分の公平さと患者の全体的な成果の両方を改善することを目的としている。
以上の結果から, 従来の重症度・包括性に基づく方法と比較して, 過度の死亡率を大幅に低減し, 異なるレベルの換気器不足下でのより公平な分布を達成できることが示唆された。
ソースコードはサプリメントに含まれており、公開時にGithubで公開される予定です。
Scarcity of health care resources could result in the unavoidable consequence of rationing. For example, ventilators are often limited in supply, especially during public health emergencies or in resource-constrained health care settings, such as amid the pandemic of COVID-19. Currently, there is no universally accepted standard for health care resource allocation protocols, resulting in different governments prioritizing patients based on various criteria and heuristic-based protocols. In this study, we investigate the use of reinforcement learning for critical care resource allocation policy optimization to fairly and effectively ration resources. We propose a transformer-based deep Q-network to integrate the disease progression of individual patients and the interaction effects among patients during the critical care resource allocation. We aim to improve both fairness of allocation and overall patient outcomes. Our experiments demonstrate that our method significantly reduces excess deaths and achieves a more equitable distribution under different levels of ventilator shortage, when compared to existing severity-based and comorbidity-based methods in use by different governments. Our source code is included in the supplement and will be released on Github upon publication. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# 事前学習型視覚変換器の適応学習による一般化顔偽造検出
Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer ( http://arxiv.org/abs/2309.11092v2 ) ライセンス: Link先を確認 | Anwei Luo, Rizhao Cai, Chenqi Kong, Yakun Ju, Xiangui Kang, Jiwu Huang, Alex C. Kot, | (参考訳) 生成モデルの急速な進歩により、顔偽造検出の現在の課題は、異なる未知の領域から現実的に操作された顔を効果的に検出する方法である。
以前の研究では、Deepfakeデータセットを完全に微調整した後、ViT(Pre-trained Vision Transformer)ベースのモデルでいくつかの有望な結果が得られることが示されているが、その一般化性能は相変わらず不満足である。
ひとつ考えられる理由は、完全に微調整されたViTベースのモデルが事前訓練された特徴[1, 2]を破壊し、データ固有のパターン[3]に過度に適合する可能性があることです。
この問題を緩和するために、適応学習パラダイムの下で、設計した適応型モジュールが偽の特徴を捉えるように最適化されている間に、事前学習されたViT内のパラメータを固定する、 \textbf{F}orgery-aware \textbf{A}daptive \textbf{Vi}sion \textbf{T}ransformer (FA-ViT)を提案する。
具体的には、グローバル適応モジュールは、入力トークン間の長距離相互作用をモデル化するために設計され、グローバルな偽の手がかりをマイニングするために自己注意機構を利用する。
局所的不整合を明らかにするために, 局所的アダプティブモジュールを提案し, 局所的アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アソシエーション(英語版)について検討した。
さらに,より粒度の高い対における関係学習を通じて,現実の顔の共通コンパクト表現を強調する適応学習モジュールを導入し,これらの適応学習モジュールを細粒度な偽情報に認識するよう促す。
我々のFA-ViTは, クロスデータセット評価の結果を達成し, 目に見えない摂動に対する堅牢性を高めることを実証した。
特にFA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセットで93.83\%と78.32\%のAUCスコアを達成している。
コードとトレーニングされたモデルは、https://github.com/LoveSiameseCat/FAViT.comでリリースされた。
With the rapid progress of generative models, the current challenge in face forgery detection is how to effectively detect realistic manipulated faces from different unseen domains. Though previous studies show that pre-trained Vision Transformer (ViT) based models can achieve some promising results after fully fine-tuning on the Deepfake dataset, their generalization performances are still unsatisfactory. One possible reason is that fully fine-tuned ViT-based models may disrupt the pre-trained features [1, 2] and overfit to some data-specific patterns [3]. To alleviate this issue, we present a \textbf{F}orgery-aware \textbf{A}daptive \textbf{Vi}sion \textbf{T}ransformer (FA-ViT) under the adaptive learning paradigm, where the parameters in the pre-trained ViT are kept fixed while the designed adaptive modules are optimized to capture forgery features. Specifically, a global adaptive module is designed to model long-range interactions among input tokens, which takes advantage of self-attention mechanism to mine global forgery clues. To further explore essential local forgery clues, a local adaptive module is proposed to expose local inconsistencies by enhancing the local contextual association. In addition, we introduce a fine-grained adaptive learning module that emphasizes the common compact representation of genuine faces through relationship learning in fine-grained pairs, driving these proposed adaptive modules to be aware of fine-grained forgery-aware information. Extensive experiments demonstrate that our FA-ViT achieves state-of-the-arts results in the cross-dataset evaluation, and enhances the robustness against unseen perturbations. Particularly, FA-ViT achieves 93.83\% and 78.32\% AUC scores on Celeb-DF and DFDC datasets in the cross-dataset evaluation. The code and trained model have been released at: https://github.com/LoveSiameseCat/FAViT. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# SPICED:複数のトピックと複雑度を持つニュース類似度検出データセット
SPICED: News Similarity Detection Dataset with Multiple Topics and Complexity Levels ( http://arxiv.org/abs/2309.13080v2 ) ライセンス: Link先を確認 | Elena Shushkevich, Long Mai, Manuel V. Loureiro, Steven Derby, Tri Kurniawan Wijaya, | (参考訳) ニュースメディアの普及により、ユーザー体験を高めるため、ニュース記事の冗長な情報を検知できるインテリジェントシステムへの需要が高まっている。
しかし、ニュースの不均一な性質は、これらのシステムで突発的な発見をもたらす可能性がある。
ニュース類似性データセットをトピックに分割することで、これらのモデルのトレーニングを改善する。
しかし、これは現在欠落しているトピック固有のデータセットの存在を必要とする。
本稿では,犯罪と法,文化とエンターテイメント,災害と事故,経済とビジネス,政治と紛争,科学技術,スポーツの7つのトピックを含む,類似ニュースの新しいデータセットSPICEDを提案する。
さらに,ニュース類似度検出タスクに特化して設計された4種類の複雑さを提示する。
MinHash、BERT、SBERT、SimCSEモデルを使用して、生成されたデータセットをベンチマークしました。
The proliferation of news media outlets has increased the demand for intelligent systems capable of detecting redundant information in news articles in order to enhance user experience. However, the heterogeneous nature of news can lead to spurious findings in these systems: Simple heuristics such as whether a pair of news are both about politics can provide strong but deceptive downstream performance. Segmenting news similarity datasets into topics improves the training of these models by forcing them to learn how to distinguish salient characteristics under more narrow domains. However, this requires the existence of topic-specific datasets, which are currently lacking. In this article, we propose a novel dataset of similar news, SPICED, which includes seven topics: Crime & Law, Culture & Entertainment, Disasters & Accidents, Economy & Business, Politics & Conflicts, Science & Technology, and Sports. Futhermore, we present four different levels of complexity, specifically designed for news similarity detection task. We benchmarked the created datasets using MinHash, BERT, SBERT, and SimCSE models. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# クビット駆動相歪みのその場評価
In-situ characterization of qubit drive-phase distortions ( http://arxiv.org/abs/2309.14703v2 ) ライセンス: Link先を確認 | M. F. Gely, J. M. Litarowicz, A. D. Leu, D. M. Lucas, | (参考訳) 量子ゲートにおけるエラーの低減は、量子コンピュータの開発に不可欠である。
そのためには、制御信号の歪みを識別する必要があるが、従来のツールでは、システムの一部が高真空下、低温下、顕微鏡下にある場合、必ずしも適用できない。
本稿では, クビット自体をプローブとして, 振幅依存性の位相変化を検出し, 補償する手法を示す。
この手法はマイクロ波駆動の捕捉されたイオン量子ビットを用いて実装され、位相歪みの補正は単一量子ゲート誤差の3倍の改善をもたらす。
Reducing errors in quantum gates is critical to the development of quantum computers. To do so, any distortions in the control signals should be identified, however, conventional tools are not always applicable when part of the system is under high vacuum, cryogenic, or microscopic. Here, we demonstrate a method to detect and compensate for amplitude-dependent phase changes, using the qubit itself as a probe. The technique is implemented using a microwave-driven trapped ion qubit, where correcting phase distortions leads to a three-fold improvement in single-qubit gate error, to attain state-of-the-art performance benchmarked at $1.6(4)\times 10^{-6}$ error per Clifford gate. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# KLoB:言語モデルにおける知識配置手法の評価ベンチマーク
KLoB: a Benchmark for Assessing Knowledge Locating Methods in Language Models ( http://arxiv.org/abs/2309.16535v2 ) ライセンス: Link先を確認 | Yiming Ju, Xingrun Xing, Zhixiong Zeng, | (参考訳) 近年、言語モデルに格納された事実知識を変更する主要なアプローチの1つとして、Locate-Then-Editパラダイムが登場している。
しかし、現在位置決め手法が、所望の知識を埋め込んだ正確なパラメータを特定できるかどうかについては、研究の欠如がある。
さらに、多くの研究者が事実知識の局所性仮説の妥当性を疑問視しているが、より深い議論と研究のための仮説をテストする方法は提供されていない。
そこで我々は,信頼度の高い知識配置法が満たすべき3つの重要な特性を検証したベンチマークであるKLoBを紹介する。
KLoBは、言語モデルにおける既存の位置決め手法を評価するためのベンチマークとして機能し、事実知識の局所性仮説の妥当性を再評価する手法に貢献することができる。
KLoBは匿名のGitHubで公開されている: \url{https://github.com/anon6662/KLoB}。
Recently, Locate-Then-Edit paradigm has emerged as one of the main approaches in changing factual knowledge stored in the Language models. However, there is a lack of research on whether present locating methods can pinpoint the exact parameters embedding the desired knowledge. Moreover, although many researchers have questioned the validity of locality hypothesis of factual knowledge, no method is provided to test the a hypothesis for more in-depth discussion and research. Therefore, we introduce KLoB, a benchmark examining three essential properties that a reliable knowledge locating method should satisfy. KLoB can serve as a benchmark for evaluating existing locating methods in language models, and can contributes a method to reassessing the validity of locality hypothesis of factual knowledge. KLoB is publicly available at an anonymous GitHub: \url{https://github.com/anon6662/KLoB}. | 翻訳日:2024-08-23 20:07:24 公開日:2024-08-22 |
# 頻度・重大度データを用いた保険価格決定のためのニューラルネットワーク:データ前処理から技術関税へのベンチマーク研究
Neural networks for insurance pricing with frequency and severity data: a benchmark study from data preprocessing to technical tariff ( http://arxiv.org/abs/2310.12671v3 ) ライセンス: Link先を確認 | Freek Holvoet, Katrien Antonio, Roel Henckaerts, | (参考訳) 保険会社は通常、クレーム頻度と重大度データをモデル化するために一般化された線形モデルに目を向ける。
他の分野での成功により、機械学習技術はアクチュエーターツールボックス内で人気を集めている。
本稿では、ディープラーニング構造を用いた機械学習による周波数重大保険料金に関する文献に貢献する。
本稿では,複数種類の入力機能が存在する場合に,頻度と重大度を目標とした4つの保険データ集合に関するベンチマーク研究を行う。
結合入力データに対する一般化線形モデル、勾配ブーストツリーモデル、フィードフォワードニューラルネットワーク(FFNN)、複合アクチュエータニューラルネットワーク(CANN)の性能を詳細に比較する。
CANNは、それぞれGLMとGBMと確立されたベースライン予測とニューラルネットワークの補正を組み合わせる。
本稿では, 郵便番号, 数値, カテゴリー共変量などの表型保険データに典型的に存在する複数の入力特徴に着目して, データ前処理のステップを説明する。
オートエンコーダは、ニューラルネットワークにカテゴリ変数を埋め込むのに使われ、周波数重大設定でその潜在的な利点を探求する。
モデル性能は、外乱だけでなく、統計的および校正性能基準と管理ツールを用いて、より微妙な洞察を得るために評価される。
最後に、ニューラルネットワークの周波数および重大度モデルに対するグローバルサロゲートモデルを構築する。
これらのサロゲートは、FFNNやCANNが捉えた重要な洞察をGLMに翻訳することを可能にする。
そのため、技術的関税表は、実際に容易に展開できるものである。
Insurers usually turn to generalized linear models for modeling claim frequency and severity data. Due to their success in other fields, machine learning techniques are gaining popularity within the actuarial toolbox. Our paper contributes to the literature on frequency-severity insurance pricing with machine learning via deep learning structures. We present a benchmark study on four insurance data sets with frequency and severity targets in the presence of multiple types of input features. We compare in detail the performance of: a generalized linear model on binned input data, a gradient-boosted tree model, a feed-forward neural network (FFNN), and the combined actuarial neural network (CANN). The CANNs combine a baseline prediction established with a GLM and GBM, respectively, with a neural network correction. We explain the data preprocessing steps with specific focus on the multiple types of input features typically present in tabular insurance data sets, such as postal codes, numeric and categorical covariates. Autoencoders are used to embed the categorical variables into the neural network, and we explore their potential advantages in a frequency-severity setting. Model performance is evaluated not only on out-of-sample deviance but also using statistical and calibration performance criteria and managerial tools to get more nuanced insights. Finally, we construct global surrogate models for the neural nets' frequency and severity models. These surrogates enable the translation of the essential insights captured by the FFNNs or CANNs to GLMs. As such, a technical tariff table results that can easily be deployed in practice. | 翻訳日:2024-08-23 19:56:46 公開日:2024-08-22 |
# 局所符号化を用いた格子フェルミオン理論のディジタル量子シミュレーション
Digital quantum simulation of lattice fermion theories with local encoding ( http://arxiv.org/abs/2310.15091v3 ) ライセンス: Link先を確認 | Marco Ballarin, Giovanni Cataldi, Giuseppe Magnifico, Daniel Jaschke, Marco Di Liberto, Ilaria Siloi, Simone Montangero, Pietro Silvi, | (参考訳) 開境界条件下でのフェルミオン格子場理論の量子シミュレーションを行うためのプラットフォームニュートラル一般戦略の有効性を数値解析的に解析する。
デジタル量子シミュレータは1ビットと2ビットのゲートのみを必要とし、ハミルトン項を統合するには有限の(スケーリングしない)コストを必要とするためスケーラブルである。
私たちが採用する正確な局所フェルミオン符号化は、トーリック・コードに似た純粋なゲージ・ハミルトン項を加えることで補助的な$\mathbb{Z}_2$格子ゲージ場に依存する。
量子シミュレータのリアルタイム力学を数値的にエミュレートすることにより、スピン-$$\frac{1}{2}$ Hubbard ladder in the $t-J$ model limit。
We numerically analyze the feasibility of a platform-neutral, general strategy to perform quantum simulations of fermionic lattice field theories under open boundary conditions. The digital quantum simulator requires solely one- and two-qubit gates and is scalable since integrating each Hamiltonian term requires a finite (non-scaling) cost. The exact local fermion encoding we adopt relies on auxiliary $\mathbb{Z}_2$ lattice gauge fields by adding a pure gauge Hamiltonian term akin to the Toric Code. By numerically emulating the quantum simulator real-time dynamics, we observe a timescale separation for spin- and charge-excitations in a spin-$\frac{1}{2}$ Hubbard ladder in the $t-J$ model limit. | 翻訳日:2024-08-23 19:56:46 公開日:2024-08-22 |
# 空洞結合量子ドットにおける量子相転移と猫状態
Quantum phase transitions and cat states in cavity-coupled quantum dots ( http://arxiv.org/abs/2310.15167v2 ) ライセンス: Link先を確認 | Valerii K. Kozin, Dmitry Miserev, Daniel Loss, Jelena Klinovaja, | (参考訳) 本研究では, 量子ドットを擬似キャビティモードに結合して高モード体積圧縮を行い, 強い光物質結合を実現する。
空洞を介する相互作用の他に、異なる二重量子ドットの電子は双極子-双極子相互作用(クーロン)を介して互いに相互作用する。
誘電性双極子相互作用のために、空洞誘起強誘電性量子相転移が出現し、秩序化された双極子モーメントが生じる。
驚いたことに、相転移はキャビティ媒介の強度とクーロン相互作用の強さの比によって連続的または不連続的である。
強い結合状態においては、二重量子ドットの配列の基底状態と最初の励起状態の両方が、Schr\"{o}dinger cat state と呼ばれる。
このような状態は量子コンピューティングのための高忠実度量子ビットとして積極的に議論されており、我々はそのような量子ビットの半導体実装のためのプラットフォームを提供する。
また、網双極子モーメント、光伝導度、半古典近似を超えた吸収スペクトルなどのゲージ不変観測値も計算する。
We study double quantum dots coupled to a quasistatic cavity mode with high mode-volume compression allowing for strong light-matter coupling. Besides the cavity-mediated interaction, electrons in different double quantum dots interact with each other via dipole-dipole (Coulomb) interaction. For attractive dipolar interaction, a cavity-induced ferroelectric quantum phase transition emerges leading to ordered dipole moments. Surprisingly, we find that the phase transition can be either continuous or discontinuous, depending on the ratio between the strengths of cavity-mediated and Coulomb interactions. We show that, in the strong coupling regime, both the ground and the first excited states of an array of double quantum dots are squeezed Schr\"{o}dinger cat states. Such states are actively discussed as high-fidelity qubits for quantum computing, and thus our proposal provides a platform for semiconductor implementation of such qubits. We also calculate gauge-invariant observables such as the net dipole moment, the optical conductivity, and the absorption spectrum beyond the semiclassical approximation. | 翻訳日:2024-08-23 19:56:46 公開日:2024-08-22 |
# FOUND:合成データを用いた表面変形に対する不確実な正規化による足の最適化
FOUND: Foot Optimization with Uncertain Normals for Surface Deformation Using Synthetic Data ( http://arxiv.org/abs/2310.18279v2 ) ライセンス: Link先を確認 | Oliver Boyne, Gwangbin Bae, James Charles, Roberto Cipolla, | (参考訳) マルチビュー画像の表面再構成は難しい課題であり、多くのサンプル画像と高い重なり合いのソリューションを必要とすることが多い。
本研究は,ヒトの足について,少数視点再構成法の開発を試みている。
この課題を解決するためには,RGB画像からリッチな幾何学的手がかりを抽出し,それらを最終3次元オブジェクトに慎重に融合させる必要がある。
当社のFOUNDアプローチでは,4つの主要なコントリビューションでこの問題に対処しています。
(i)SynFootは、5万枚のフォトリアリスティックフット画像からなる合成データセットで、地上の真理面の正常値とキーポイントとを組み合わせている。
(ii)我々の合成データセットで訓練された不確実性を考慮した表面正規化予測器
三 生成足モデルを一連の画像に適合させる最適化方法
(iv) 校正画像と高分解能基底真理幾何のベンチマークデータセット。
我々の通常の予測器は、実際の画像において、すべての既製の等価量を著しく上回り、最適化方式は、特に数ビュー設定において、最先端のフォトグラメトリパイプラインを上回ります。
合成データセットとベースライン3Dスキャンを研究コミュニティに公開します。
Surface reconstruction from multi-view images is a challenging task, with solutions often requiring a large number of sampled images with high overlap. We seek to develop a method for few-view reconstruction, for the case of the human foot. To solve this task, we must extract rich geometric cues from RGB images, before carefully fusing them into a final 3D object. Our FOUND approach tackles this, with 4 main contributions: (i) SynFoot, a synthetic dataset of 50,000 photorealistic foot images, paired with ground truth surface normals and keypoints; (ii) an uncertainty-aware surface normal predictor trained on our synthetic dataset; (iii) an optimization scheme for fitting a generative foot model to a series of images; and (iv) a benchmark dataset of calibrated images and high resolution ground truth geometry. We show that our normal predictor outperforms all off-the-shelf equivalents significantly on real images, and our optimization scheme outperforms state-of-the-art photogrammetry pipelines, especially for a few-view setting. We release our synthetic dataset and baseline 3D scans to the research community. | 翻訳日:2024-08-23 19:56:46 公開日:2024-08-22 |
# 物理界における敵対的事例--サーベイ
Adversarial Examples in the Physical World: A Survey ( http://arxiv.org/abs/2311.01473v3 ) ライセンス: Link先を確認 | Jiakai Wang, Xianglong Liu, Jin Hu, Donghua Wang, Siyang Wu, Tingsong Jiang, Yuanfang Guo, Aishan Liu, Jiantao Zhou, | (参考訳) ディープニューラルネットワーク(DNN)は、敵の例に高い脆弱性を示し、アプリケーションに対する広範なセキュリティ上の懸念を提起している。
デジタル世界における攻撃の他に、物理的世界における敵の事例の実践的意味は、重大な課題と安全上の懸念を示している。
しかし、現在のPAEの研究は、その特徴を包括的に理解していないため、限定的な重要性と理解に繋がる。
本稿では,このギャップを,トレーニング,製造,再サンプリングプロセスを含む実践的なワークフローにおいて,PAEの特性を徹底的に検討することによって解決する。
物理的攻撃の関連を解析することにより,PAEの異なる属性と特異性の主源として,製造と再サンプリングを同定する。
この知見を生かして,PAEの具体的特徴に基づく包括的分析・分類フレームワークを開発し,100以上の物理世界の敵対的事例について考察した。
さらに,PAEに対する防衛戦略について検討し,今後の研究の課題と機会を明らかにする。
我々は,PAEの新たな,徹底的で体系的な理解を提供することを目標とし,オープンワールドのシナリオにおける堅牢な敵対的学習とその応用を推進し,提案フレームワーク内での論文,コード,‘etc’を含む物理世界敵的サンプルリソースの継続的な更新リストを提供する。
Deep neural networks (DNNs) have demonstrated high vulnerability to adversarial examples, raising broad security concerns about their applications. Besides the attacks in the digital world, the practical implications of adversarial examples in the physical world present significant challenges and safety concerns. However, current research on physical adversarial examples (PAEs) lacks a comprehensive understanding of their unique characteristics, leading to limited significance and understanding. In this paper, we address this gap by thoroughly examining the characteristics of PAEs within a practical workflow encompassing training, manufacturing, and re-sampling processes. By analyzing the links between physical adversarial attacks, we identify manufacturing and re-sampling as the primary sources of distinct attributes and particularities in PAEs. Leveraging this knowledge, we develop a comprehensive analysis and classification framework for PAEs based on their specific characteristics, covering over 100 studies on physical-world adversarial examples. Furthermore, we investigate defense strategies against PAEs and identify open challenges and opportunities for future research. We aim to provide a fresh, thorough, and systematic understanding of PAEs, thereby promoting the development of robust adversarial learning and its application in open-world scenarios to provide the community with a continuously updated list of physical world adversarial sample resources, including papers, code, \etc, within the proposed framework | 翻訳日:2024-08-23 19:56:46 公開日:2024-08-22 |
# Moreau Envelopeを用いたADMMによる個人化フェデレーション学習
Personalized Federated Learning via ADMM with Moreau Envelope ( http://arxiv.org/abs/2311.06756v2 ) ライセンス: Link先を確認 | Shengkun Zhu, Jinshan Zeng, Sheng Wang, Yuan Sun, Zhiyong Peng, | (参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)は異種データに対する収束性の低い問題に対処する手法である。
しかし、既存のほとんどのPFLフレームワークは収束に強い仮定を必要とする。
本稿では, 勾配リプシッツ連続性の比較的弱い仮定に頼って, サブ線形収束率を実現するモローエンベロープ(FLAME)を用いたPFLモデルの学習用乗算器(ADMM)の交互方向法を提案する。
さらに、ADMMの勾配のない性質のため、FLAMEはハイパーパラメータチューニングの必要性を軽減し、特にグローバルモデルをトレーニングする際の学習率の調整を避ける。
さらに,PFLモデルの学習の収束を早めるため,偏りのあるクライアント選択戦略を提案する。
我々の理論的分析は、偏りのないクライアント選択戦略と偏りのないクライアント選択戦略の両方の下で、グローバル収束を確立する。
実験により、FLAMEは、異種データに基づいて訓練された場合、モデル性能の点で最先端の手法よりも優れていることが示された。
通信効率に関しては、ベースラインに比べて平均速度が3.75倍である。
さらに、偏りのあるクライアント選択戦略がパーソナライズされたモデルとグローバルモデルの両方の収束を加速することを示す実験結果が得られた。
Personalized federated learning (PFL) is an approach proposed to address the issue of poor convergence on heterogeneous data. However, most existing PFL frameworks require strong assumptions for convergence. In this paper, we propose an alternating direction method of multipliers (ADMM) for training PFL models with Moreau envelope (FLAME), which achieves a sublinear convergence rate, relying on the relatively weak assumption of gradient Lipschitz continuity. Moreover, due to the gradient-free nature of ADMM, FLAME alleviates the need for hyperparameter tuning, particularly in avoiding the adjustment of the learning rate when training the global model. In addition, we propose a biased client selection strategy to expedite the convergence of training of PFL models. Our theoretical analysis establishes the global convergence under both unbiased and biased client selection strategies. Our experiments validate that FLAME, when trained on heterogeneous data, outperforms state-of-the-art methods in terms of model performance. Regarding communication efficiency, it exhibits an average speedup of 3.75x compared to the baselines. Furthermore, experimental results validate that the biased client selection strategy speeds up the convergence of both personalized and global models. | 翻訳日:2024-08-23 19:56:46 公開日:2024-08-22 |
# 未知のものを蒸留して不確かさを解き明かす
Distilling the Unknown to Unveil Certainty ( http://arxiv.org/abs/2311.07975v2 ) ライセンス: Link先を確認 | Zhilin Zhao, Longbing Cao, Yixuan Zhang, Kun-Yu Lin, Wei-Shi Zheng, | (参考訳) オフ・オブ・ディストリビューション(OOD)検出は、標準ネットワークがトレーニングされているIDデータから逸脱するテストサンプルを識別し、ネットワークの堅牢性と信頼性を確保するために不可欠である。
本稿では,標準的なネットワークを前提として,IDデータのトレーニングが可能であるか否かを問う,先駆的な学習フレームワークであるOODナレッジ蒸留を紹介する。
このフレームワークは、標準ネットワークから未知のOOD感受性知識を利用して、IDとOODサンプルの識別に適した特定のバイナリ分類器を構築する。
そこで我々は,標準ネットワークからの予測信頼度を段階的に改善しつつ,OODサンプルをIDに変換する革新的な手法である信頼性修正(CA)を導入する。
このアプローチは, 予測信頼度を調整したIDとOODの両方のサンプルを同時合成することにより, OODに敏感なバイナリ分類器の訓練を容易にする。
理論的解析は二項分類器の一般化誤差に限界を与え、OOD感度を高める上での信頼性補正の重要な役割を証明している。
様々なデータセットやネットワークアーキテクチャにまたがる大規模な実験により,OODサンプルの検出における提案手法の有効性が確認された。
Out-of-distribution (OOD) detection is essential in identifying test samples that deviate from the in-distribution (ID) data upon which a standard network is trained, ensuring network robustness and reliability. This paper introduces OOD knowledge distillation, a pioneering learning framework applicable whether or not training ID data is available, given a standard network. This framework harnesses unknown OOD-sensitive knowledge from the standard network to craft a certain binary classifier adept at distinguishing between ID and OOD samples. To accomplish this, we introduce Confidence Amendment (CA), an innovative methodology that transforms an OOD sample into an ID one while progressively amending prediction confidence derived from the standard network. This approach enables the simultaneous synthesis of both ID and OOD samples, each accompanied by an adjusted prediction confidence, thereby facilitating the training of a binary classifier sensitive to OOD. Theoretical analysis provides bounds on the generalization error of the binary classifier, demonstrating the pivotal role of confidence amendment in enhancing OOD sensitivity. Extensive experiments spanning various datasets and network architectures confirm the efficacy of the proposed method in detecting OOD samples. | 翻訳日:2024-08-23 19:56:46 公開日:2024-08-22 |
# Sentinel-1とSentinel-2から得られた高分解能人口地図
High-resolution Population Maps Derived from Sentinel-1 and Sentinel-2 ( http://arxiv.org/abs/2311.14006v2 ) ライセンス: Link先を確認 | Nando Metzger, Rodrigo Caye Daudt, Devis Tuia, Konrad Schindler, | (参考訳) 詳細な人口地図は人道行動から都市計画まで多様な分野において重要な役割を果たしている。
このような地図をタイムリーかつスケーラブルに生成することは、特にデータスカース領域において課題となる。
そこで我々は,Sentinel-1 と Sentinel-2 の衛星画像のみを無償で利用できる人口マッピング手法であるPOPCORN を開発した。
最小限のデータ要求にもかかわらず、我々のアプローチは既存のスキームのマッピング精度を上回る。
例えば、400人未満の地域国勢調査に基づいて100m GSDでルワンダの人口地図を作成できた。
キガリでは、これらの地図は66%の66%のR^2スコアに達し、平均誤差は約10人/haである。
同時に、POPCORNは、ビルトアップエリアの明示的なマップと、ローカルなビルの占有率を検索し、マッピングプロセスを解釈可能とし、例えば、ビルトアップされたが人口の少ない地域(例えば、工業倉庫)の分布に関する追加の洞察を提供する。
さらに、一度訓練すると、人口の変化を追跡するためにモデルが繰り返し適用され、ウガンダからルワンダまで、地理的に類似した地域(例えば、ウガンダからルワンダ)に移動できることがわかった。
本研究の目的は,特に人口動態の強い地域では,費用のかかるマイクロセンサスキャンペーンの資源が不足している可能性があることを認識して,最新の高解像度人口地図へのアクセスを民主化することにある。
Detailed population maps play an important role in diverse fields ranging from humanitarian action to urban planning. Generating such maps in a timely and scalable manner presents a challenge, especially in data-scarce regions. To address it we have developed POPCORN, a population mapping method whose only inputs are free, globally available satellite images from Sentinel-1 and Sentinel-2; and a small number of aggregate population counts over coarse census districts for calibration. Despite the minimal data requirements our approach surpasses the mapping accuracy of existing schemes, including several that rely on building footprints derived from high-resolution imagery. E.g., we were able to produce population maps for Rwanda with 100m GSD based on less than 400 regional census counts. In Kigali, those maps reach an R^2 score of 66% w.r.t. a ground truth reference map, with an average error of only about 10 inhabitants/ha. Conveniently, POPCORN retrieves explicit maps of built-up areas and of local building occupancy rates, making the mapping process interpretable and offering additional insights, for instance about the distribution of built-up, but unpopulated areas, e.g., industrial warehouses. Moreover, we find that, once trained, the model can be applied repeatedly to track population changes; and that it can be transferred to geographically similar regions, e.g., from Uganda to Rwanda). With our work we aim to democratize access to up-to-date and high-resolution population maps, recognizing that some regions faced with particularly strong population dynamics may lack the resources for costly micro-census campaigns. | 翻訳日:2024-08-23 19:56:46 公開日:2024-08-22 |
# 量子時間複雑性のモデリング
Taming Quantum Time Complexity ( http://arxiv.org/abs/2311.15873v3 ) ライセンス: Link先を確認 | Aleksandrs Belovs, Stacey Jeffery, Duyal Yolcu, | (参考訳) 量子クエリの複雑さは、構成に関していくつかの優れた特性を持っています。
第一に、境界付きエラー量子クエリアルゴリズムは、エラー低減(実行性)を通じてログファクターを発生させることなく構成できる。
第二に、注意深い会計 (thriftiness) を通じて、サブルーチンがより安価な入力で実行される場合、クエリ全体の複雑さは小さくなります。
これらの性質は、以前はスパンプログラムのモデルを通して見られたが、最近の2人の著者 (Belovs, Yolcu 2023) による研究は、量子ラスベガスのクエリ複雑性を定義することによって、スパンプログラムに変換せずにこれらの利点を実現する方法を示した。
独立に、著者の1人(Jeffery 2022)を含む最近の研究は、より現実的に重要な量子時間複雑性の設定に緩和性をもたらすことに取り組んできた。
本研究では,時間的複雑性の設定において,正確さと遠心性を両立させる方法について述べる。
我々はJeffery 2022の量子サブルーチン合成結果を一般化し、特にエラーの低減は不要である。
量子クエリ複雑性のよく知られた結果の時間複雑性版である$Q(f\circ)を与える。
g)=O(Q)
(f)\cdot Q
(g)$、ログファクタなしで。
我々は、トランスデューサと呼ばれるものに基づいて、量子アルゴリズムの設計に新しいアプローチを適用することで、これを実現する。
スパンプログラムは完全に異なる計算モデルであるが、トランスデューサは量子アルゴリズムの直接的な一般化であり、透明性と制御をより大きくすることができる。
トランスデューサは、決定問題だけでなく、一般的な状態変換を自然に特徴付け、量子ウォークのような他の量子プリミティブの非常に単純な処理を提供し、時間複雑性解析によく役立てる。
Quantum query complexity has several nice properties with respect to composition. First, bounded-error quantum query algorithms can be composed without incurring log factors through error reduction (exactness). Second, through careful accounting (thriftiness), the total query complexity is smaller if subroutines are mostly run on cheaper inputs -- a property that is much less obvious in quantum algorithms than in their classical counterparts. While these properties were previously seen through the model of span programs (alternatively, the dual adversary bound), a recent work by two of the authors (Belovs, Yolcu 2023) showed how to achieve these benefits without converting to span programs, by defining quantum Las Vegas query complexity. Independently, recent works, including by one of the authors (Jeffery 2022), have worked towards bringing thriftiness to the more practically significant setting of quantum time complexity. In this work, we show how to achieve both exactness and thriftiness in the setting of time complexity. We generalize the quantum subroutine composition results of Jeffery 2022 so that, in particular, no error reduction is needed. We give a time complexity version of the well-known result in quantum query complexity, $Q(f\circ g)=O(Q(f)\cdot Q(g))$, without log factors. We achieve this by employing a novel approach to the design of quantum algorithms based on what we call transducers, and which we think is of large independent interest. While a span program is a completely different computational model, a transducer is a direct generalisation of a quantum algorithm, which allows for much greater transparency and control. Transducers naturally characterize general state conversion, rather than only decision problems; provide a very simple treatment of other quantum primitives such as quantum walks; and lend themselves well to time complexity analysis. | 翻訳日:2024-08-23 19:56:46 公開日:2024-08-22 |
# システム環境絡み合い相転移
System-environment entanglement phase transitions ( http://arxiv.org/abs/2311.16343v3 ) ライセンス: Link先を確認 | Yuto Ashida, Shunsuke Furukawa, Masaki Oshikawa, | (参考訳) 量子多体系の絡み合いは、長距離特性によって支配される普遍現象を示すことができる。
本研究では,多体系の開放に固有の絡み合いの普遍性と相転移,すなわち関心の系と環境との絡み合いについて検討する。
具体的には,局所的な測定条件下での友長・ラッティンガー液体(TLL)を考察し,その非一様進化を解析し,測定結果を平均化する。
測定後密度行列のR'enyiエントロピーによるシステム環境絡み合いの定量化を行う。
境界共形場の理論における$g$関数(英語版)と呼ばれる実効的な基底状態退化と普遍項を関連付ける場理論記述を開発し、その値を決定するために再正規化群法を用いる。
普遍的な寄与はTLLパラメータ$K$で決定され、絡み合い相転移を示す特異性を示すことができる。
驚くべきことに、ある場合において、サイズに依存しない寄与は、測定強度の関数として増加する。
我々は、この非伝統的な振る舞いは、抵抗的に曲がりくねったジョセフソン接合の研究で発見された危険な無関係な項に起因しているかもしれないと論じる。
また, これらの結果を, サイト分解測定対象のスピン=$\frac{1}{2}$ XXZ鎖の数値計算により検証した。
ポストセレクションを必要としない超低温気体の実験的実現の可能性について論じる。
Entanglement in quantum many-body systems can exhibit universal phenomena governed by long-distance properties. We study universality and phase transitions of the entanglement inherent to open many-body systems, namely, the entanglement between a system of interest and its environment. Specifically, we consider the Tomonaga-Luttinger liquid (TLL) under a local measurement and analyze its unconditioned nonunitary evolution, where the measurement outcomes are averaged over. We quantify the system-environment entanglement by the R\'enyi entropy of the post-measurement density matrix, whose size-independent term encodes the universal low-energy physics. We develop a field-theoretical description to relate the universal term to the effective ground-state degeneracy known as the $g$ function in a boundary conformal field theory, and use the renormalization group method to determine its value. We show that the universal contribution is determined by the TLL parameter $K$ and can exhibit singularity signifying an entanglement phase transition. Surprisingly, in certain cases the size-independent contribution can increase as a function of the measurement strength in contrast to what is na\"ively expected from the $g$-theorem. We argue that this unconventional behavior could be attributed to the dangerously irrelevant term which has been found in studies of the resistively shunted Josephson junction. We also check these results by numerical calculations in the spin-$\frac{1}{2}$ XXZ chain subject to a site-resolved measurement. Possible experimental realization in ultracold gases, which requires no postselections, is discussed. | 翻訳日:2024-08-23 19:56:46 公開日:2024-08-22 |
# スピンスクイーズ不等式を測定する異なるスキームの誤差推定
Error estimation of different schemes to measure spin-squeezing inequalities ( http://arxiv.org/abs/2311.17845v2 ) ライセンス: Link先を確認 | Jan Lennart Bönsel, Satoya Imai, Ye-Chao Liu, Otfried Gühne, | (参考訳) 量子状態トモグラフィーを使わずに、大規模・ノイズの多いシステムの量子相関をどうやって解析できるのか?
確立された方法は、全角モーメントを計測し、その期待と分散に基づいて、いわゆるスピンスクイーズ不等式を用いることである。
これにより、気象学的に有用な絡み合いを検出することができるが、そのような非線形量を推定するための効率的な戦略はまだ決定されていない。
本稿では、全角運動量の測定だけでなく、全てのペア相関やランダムに選択されたペア相関を含む2量子相関によってスピンスクイーズの不等式を評価することができることを示す。
次に,仮説テストの観点から,提案手法の誤差を解析する。
そこで本研究では, 非線形推定器における誤差境界の導出について検討し, 分離状態が絡み合っていることを誤検出する確率を特徴付ける。
マルチキュービット系におけるスピンスクイーズ不等式に着目する。
しかし、我々の手法は量子状態の他の非線形パラメータの統計処理にも適用できる。
How can we analyze quantum correlations in large and noisy systems without quantum state tomography? An established method is to measure total angular momenta and employ the so-called spin-squeezing inequalities based on their expectations and variances. This allows detection of metrologically useful entanglement, but efficient strategies for estimating such nonlinear quantities have yet to be determined. In this paper we show that spin-squeezing inequalities can not only be evaluated by measurements of the total angular momentum but also by two-qubit correlations, either involving all pair correlations or randomly chosen pair correlations. Then we analyze the estimation errors of our approaches in terms of a hypothesis test. For this purpose, we discuss how error bounds can be derived for nonlinear estimators with the help of their variances, characterizing the probability of falsely detecting a separable state as entangled. We focus on the spin-squeezing inequalities in multiqubit systems. Our methods, however, can also be applied to spin-squeezing inequalities for qudits or for the statistical treatment of other nonlinear parameters of quantum states. | 翻訳日:2024-08-23 19:56:46 公開日:2024-08-22 |
# ニューラルネットワークのジャコビアン正規化学習における無限幅解析
An Infinite-Width Analysis on the Jacobian-Regularised Training of a Neural Network ( http://arxiv.org/abs/2312.03386v2 ) ライセンス: Link先を確認 | Taeyoung Kim, Hongseok Yang, | (参考訳) 深層ニューラルネットワークの無限幅限界における最近の理論的分析により、これらのネットワークの初期化、特徴学習、トレーニングに対する理解が深まり、適切なハイパーパラメータを見つけ、ネットワーク重みを学習し、推論を実行するための新しい実践的テクニックがもたらされた。
本稿では、この無限幅解析がディープニューラルネットワークのヤコビアンにまで拡張可能であることを示すことにより、この研究線を広げる。
多層パーセプトロン(MLP)とその初期化時のヤコビアン(英語版)(Jacobian)は、MLPの隠蔽層の幅が無限大に近づき、このGPを特徴付けるため、ガウス過程(英語版)(GP)に合同的に収束することを示す。
また、無限幅極限において、いわゆるロバストトレーニング(すなわちヤコビアン上の正規化器によるトレーニング)の下での MLP の進化は、ニューラル・タンジェント・カーネルの変種によって決定される線形一階常微分方程式によって記述されることを示す。
我々は、広い有限ネットワークに対する理論的主張の関連性を実験的に示し、核回帰解の性質を実験的に解析し、ヤコビアン正則化の洞察を得る。
The recent theoretical analysis of deep neural networks in their infinite-width limits has deepened our understanding of initialisation, feature learning, and training of those networks, and brought new practical techniques for finding appropriate hyperparameters, learning network weights, and performing inference. In this paper, we broaden this line of research by showing that this infinite-width analysis can be extended to the Jacobian of a deep neural network. We show that a multilayer perceptron (MLP) and its Jacobian at initialisation jointly converge to a Gaussian process (GP) as the widths of the MLP's hidden layers go to infinity and characterise this GP. We also prove that in the infinite-width limit, the evolution of the MLP under the so-called robust training (i.e., training with a regulariser on the Jacobian) is described by a linear first-order ordinary differential equation that is determined by a variant of the Neural Tangent Kernel. We experimentally show the relevance of our theoretical claims to wide finite networks, and empirically analyse the properties of kernel regression solution to obtain an insight into Jacobian regularisation. | 翻訳日:2024-08-23 19:45:30 公開日:2024-08-22 |
# テキスト・画像拡散モデルにおける局所条件制御
Local Conditional Controlling for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2312.08768v3 ) ライセンス: Link先を確認 | Yibo Zhao, Liang Peng, Yang Yang, Zekai Luo, Hengjia Li, Yao Chen, Zheng Yang, Xiaofei He, Wei Zhao, qinglin lu, Boxi Wu, Wei Liu, | (参考訳) 拡散モデルは、テキスト・ツー・イメージのタスクにおいて素晴らしい成果を上げている。
近年の手法では、テキストプロンプトとともに生成プロセスを操作するために、エッジマップや深度マップなどの画像レベルの構造制御を追加し、所望の画像を取得する。
この制御プロセスは、制御領域の柔軟性を制限する全画像上でグローバルに操作される。
本稿では,新しい,実践的なタスク・セッティングであるローカル・コントロールについて検討する。
ユーザが定義した画像条件に従って特定のローカル領域を制御することに焦点を当て、残りの領域は元のテキストプロンプトによってのみ条件付けられている。
しかし、局所的な条件制御を実現することは自明ではない。
局所的な条件を直接追加するという単純な手法は、制御された領域に焦点を絞らざるを得ず、他の領域でのオブジェクト生成を無視する局所的な制御優位の問題につながる可能性がある。
この問題を軽減するために,非制御領域におけるオブジェクト生成の強化を目標として,雑音のある潜伏者を更新するための地域識別損失を提案する。
さらに,本提案手法は,被写体識別の強化と重複の低減のために,最強応答に欠ける注意スコアを抑える。
最後に,局所的な制御領域間での情報差による画質劣化を低減するために,特徴マスク制約を適用した。
提案された戦略はすべて推論段階で運用される。
局所制御条件下でのテキストプロンプトに整合した高品質な画像の合成が可能であることを示す。
Diffusion models have exhibited impressive prowess in the text-to-image task. Recent methods add image-level structure controls, e.g., edge and depth maps, to manipulate the generation process together with text prompts to obtain desired images. This controlling process is globally operated on the entire image, which limits the flexibility of control regions. In this paper, we explore a novel and practical task setting: local control. It focuses on controlling specific local region according to user-defined image conditions, while the remaining regions are only conditioned by the original text prompt. However, it is non-trivial to achieve local conditional controlling. The naive manner of directly adding local conditions may lead to the local control dominance problem, which forces the model to focus on the controlled region and neglect object generation in other regions. To mitigate this problem, we propose Regional Discriminate Loss to update the noised latents, aiming at enhanced object generation in non-control regions. Furthermore, the proposed Focused Token Response suppresses weaker attention scores which lack the strongest response to enhance object distinction and reduce duplication. Lastly, we adopt Feature Mask Constraint to reduce quality degradation in images caused by information differences across the local control region. All proposed strategies are operated at the inference stage. Extensive experiments demonstrate that our method can synthesize high-quality images aligned with the text prompt under local control conditions. | 翻訳日:2024-08-23 19:45:30 公開日:2024-08-22 |
# 具体的質問応答における幻覚の早期検出について
On Early Detection of Hallucinations in Factual Question Answering ( http://arxiv.org/abs/2312.14183v3 ) ライセンス: Link先を確認 | Ben Snyder, Marius Moisescu, Muhammad Bilal Zafar, | (参考訳) 大規模言語モデル(LLM)は、多くのタスクで人間を助けるために大きな一歩を踏み出したが、幻覚は依然として、ユーザの信頼を得るための大きな障害である。
幻覚が検出を困難にする場合でも、モデル生成の流布とコヒーレンスは困難である。
本研究では、モデル生成に関連するアーティファクトが、生成が幻覚を含むことを示すヒントを提供することができるかどうかを探索する。
具体的には LLM を探索する。
1)統合グラディエントに基づくトークン属性による入力
2)ソフトマックス確率による出力、及び
3) 自己注意と完全連結層活性化による内部状態は, オープンエンド質問応答課題に対する幻覚の兆候である。
以上の結果から,これらのアーティファクトの分布は,ハロゲン化世代と非ハロゲン化世代の違いが示唆された。
この知見に基づいて、これらのアーティファクトを入力機能として使用するバイナリ分類器を訓練し、モデル世代を幻覚と非幻覚に分類する。
これらの幻覚分類器は最大0.80$ AUROCに達する。
また,幻覚の前にあるトークンは,それが起こる前にも,それに続く幻覚を予測できることも示している。
While large language models (LLMs) have taken great strides towards helping humans with a plethora of tasks, hallucinations remain a major impediment towards gaining user trust. The fluency and coherence of model generations even when hallucinating makes detection a difficult task. In this work, we explore if the artifacts associated with the model generations can provide hints that the generation will contain hallucinations. Specifically, we probe LLMs at 1) the inputs via Integrated Gradients based token attribution, 2) the outputs via the Softmax probabilities, and 3) the internal state via self-attention and fully-connected layer activations for signs of hallucinations on open-ended question answering tasks. Our results show that the distributions of these artifacts tend to differ between hallucinated and non-hallucinated generations. Building on this insight, we train binary classifiers that use these artifacts as input features to classify model generations into hallucinations and non-hallucinations. These hallucination classifiers achieve up to $0.80$ AUROC. We also show that tokens preceding a hallucination can already predict the subsequent hallucination even before it occurs. | 翻訳日:2024-08-23 19:45:30 公開日:2024-08-22 |
# MoTCoder: プログラミングタスクの混在を考慮に入れた大規模言語モデル
MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks ( http://arxiv.org/abs/2312.15960v3 ) ライセンス: Link先を確認 | Jingyao Li, Pengguang Chen, Bin Xia, Hong Xu, Jiaya Jia, | (参考訳) 大きな言語モデル(LLM)は、単純なプログラミングタスクを扱う際、素晴らしい能力を示しています。
しかし、より困難なプログラミング問題に直面した場合、パフォーマンスは悪化する傾向にある。
従来のモデルはモノリシックなコードブロックとしてソリューションを生成することが多く、複雑な問題に対処する上での有効性を制限している。
この制限を克服するため、Modular-of-Thought Coder (MoTCoder)を提案する。
本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。
我々の調査によると、サブモジュールの栽培と利用を通じて、MoTCoderは生成したソリューションのモジュラリティと正確性の両方を大幅に改善し、APPSでは12.9%、CodeContestsでは9.43%の大幅な相対パス@1の改善を実現した。
私たちのコードはhttps://github.com/dvlab-research/MoTCoder.comで公開されています。
Large Language Models (LLMs) have showcased impressive capabilities in handling straightforward programming tasks. However, their performance tends to falter when confronted with more challenging programming problems. We observe that conventional models often generate solutions as monolithic code blocks, restricting their effectiveness in tackling intricate questions. To overcome this limitation, we present Modular-of-Thought Coder (MoTCoder). We introduce a pioneering framework for MoT instruction tuning, designed to promote the decomposition of tasks into logical sub-tasks and sub-modules. Our investigations reveal that, through the cultivation and utilization of sub-modules, MoTCoder significantly improves both the modularity and correctness of the generated solutions, leading to substantial relative pass@1 improvements of 12.9% on APPS and 9.43% on CodeContests. Our codes are available at https://github.com/dvlab-research/MoTCoder. | 翻訳日:2024-08-23 19:45:30 公開日:2024-08-22 |
# RDGCL:リコメンデーションのための反応拡散グラフコントラスト学習
RDGCL: Reaction-Diffusion Graph Contrastive Learning for Recommendation ( http://arxiv.org/abs/2312.16563v2 ) ライセンス: Link先を確認 | Jeongwhan Choi, Hyowon Wi, Chaejeong Lee, Sung-Bae Cho, Dongha Lee, Noseong Park, | (参考訳) コントラスト学習(CL)は推薦システムを改善するための有望な手法として登場し、生データからの自己教師付き信号を使用することでデータ空間の課題に対処している。
グラフ畳み込みネットワーク(GCN)に基づく協調フィルタリング(CF)とCLの統合は,レコメンデーションシステムにおいて検討されている。
しかし、現在のCLベースのレコメンデーションモデルは、ローパスフィルタとグラフ拡張に大きく依存している。
本稿では,反応拡散方程式に着想を得て,反応拡散グラフコントラスト学習モデル (RDGCL) と呼ばれるリコメンデータシステムのための新しいCL法を提案する。
我々は、拡散方程式、すなわち低域通過フィルタ、反応方程式、すなわち高域通過フィルタに基づいて、独自のGCN for CFを設計する。
提案したCLベーストレーニングは, 反応と拡散に基づく埋め込みの間に発生するため, グラフ強化は不要である。
5つのベンチマークデータセットの実験的評価により,提案手法は最先端のCLベースレコメンデーションモデルより優れていることが示された。
推薦精度と多様性を高めることにより,提案手法はレコメンダシステムにおけるCLの進歩をもたらす。
Contrastive learning (CL) has emerged as a promising technique for improving recommender systems, addressing the challenge of data sparsity by using self-supervised signals from raw data. Integration of CL with graph convolutional network (GCN)-based collaborative filterings (CFs) has been explored in recommender systems. However, current CL-based recommendation models heavily rely on low-pass filters and graph augmentations. In this paper, inspired by the reaction-diffusion equation, we propose a novel CL method for recommender systems called the reaction-diffusion graph contrastive learning model (RDGCL). We design our own GCN for CF based on the equations of diffusion, i.e., low-pass filter, and reaction, i.e., high-pass filter. Our proposed CL-based training occurs between reaction and diffusion-based embeddings, so there is no need for graph augmentations. Experimental evaluation on 5 benchmark datasets demonstrates that our proposed method outperforms state-of-the-art CL-based recommendation models. By enhancing recommendation accuracy and diversity, our method brings an advancement in CL for recommender systems. | 翻訳日:2024-08-23 19:45:30 公開日:2024-08-22 |
# 周波数非依存散乱スペクトルを用いた高スケーラブル量子ルータ
Highly Scalable Quantum Router with Frequency-Independent Scattering Spectra ( http://arxiv.org/abs/2401.01518v2 ) ライセンス: Link先を確認 | Yue Cai, Kang-Jie Ma, Jie Liu, Gang-Feng Guo, Lei Tan, Wu-Ming Liu, | (参考訳) 光量子ルータは量子ネットワークにおいて重要な役割を担い、理論と実験の両方で広く研究され、その性能に大きな進歩をもたらした。
しかし、これらのルータは、入射光子周波数が1つまたは複数の特定の周波数と厳格に共鳴している必要があるため、所望のルーティング結果を達成するための厳密な要求を課す。
この課題に対処するために、半無限結合共振器導波路(CRW)と巨大原子からなる効率的な量子ルータ方式を提案する。
単一チャネルルータ方式により、CRWの全エネルギー帯域上で100%の転送レートで安定した出力が可能となる。
この興味深い結果を生かして,高い安定性と普遍性を有しつつ,多様な機能を実現するマルチチャネルルータ方式を提案する。
この興味深い結果の基盤となるメカニズムの完全な物理的説明も提示する。
我々は、入ってくる情報キャリアの周波数に影響されない出力結果の量子ルータが、量子ネットワークの実装に対してより信頼性の高いソリューションを提供することを期待している。
Optical quantum routers play a crucial role in quantum networks and have been extensively studied in both theory and experiment, leading to significant advancements in their performance. However, these routers impose stringent requirements for achieving desired routing results, as the incident photon frequency must be in strict resonance with one or several specific frequencies. To address this challenge, we propose an efficient quantum router scheme composed of semi-infinite coupled-resonator waveguide (CRW) and a giant atom. The single-channel router scheme enables stable output with 100% transfer rate over the entire energy band of the CRW. Leveraging this intriguing result, we further propose a multi-channel router scheme that possesses high stability and universality, while also being capable of performing various functionalities. The complete physical explanation of the underlying mechanism for this intriguing result is also presented. We hope that quantum router with output results unaffected by the frequency of the incoming information carriers presents a more reliable solution for the implementation of quantum networks. | 翻訳日:2024-08-23 19:45:30 公開日:2024-08-22 |
# 医学における自然言語プログラミング: 生成型大規模言語モデルによる自律的エージェントによるエビデンスに基づく臨床ワークフローの調整
Natural Language Programming in Medicine: Administering Evidence Based Clinical Workflows with Autonomous Agents Powered by Generative Large Language Models ( http://arxiv.org/abs/2401.02851v2 ) ライセンス: Link先を確認 | Akhil Vaid, Joshua Lampert, Juhee Lee, Ashwin Sawant, Donald Apakama, Ankit Sakhuja, Ali Soroush, Sarah Bick, Ethan Abbott, Hernando Gomez, Michael Hadley, Denise Lee, Isotta Landi, Son Q Duong, Nicole Bussola, Ismail Nabeel, Silke Muehlstedt, Silke Muehlstedt, Robert Freeman, Patricia Kovatch, Brendan Carr, Fei Wang, Benjamin Glicksberg, Edgar Argulian, Stamatios Lerakis, Rohan Khera, David L. Reich, Monica Kraft, Alexander Charney, Girish Nadkarni, | (参考訳) ジェネレーティブ・大型言語モデル(LLM)は医療において大きな可能性を秘めており、医療免許試験の合格や臨床知識の提供などの能力を実証している。
しかし、現在の情報検索ツールとしての利用は、データの不安定性、リソース要求、時には誤った情報の生成といった課題によって制限されている。
本研究は、複数の専門分野にまたがる現実的な臨床症例を用いて、シミュレートされた第三次医療センターにおいて、LSMが自律的なエージェントとして機能する可能性を評価した。
プロプライエタリ LLM とオープンソース LLM の両方が評価され、Retrieval Augmented Generation (RAG) は文脈関連性を高めた。
プロプライエタリモデル、特にGPT-4は、一般的にオープンソースモデルよりも優れており、ガイドラインの適合性を改善し、RAGによるより正確な応答を示した。
専門医による手作業による評価は, LLM手術におけるヒトの監視の重要性を強調し, モデルのアウトプットを検証する上で重要であった。
さらに、モデル行動を修正するための適切なパラダイムとして自然言語プログラミング(NLP)を強調し、調整されたプロンプトや実世界の相互作用を通じて正確な調整を可能にする。
このアプローチは、LCMが臨床的意思決定を大幅に強化し、補助する可能性を強調しつつ、継続的な専門家の関与の価値とNLPの柔軟性を強調し、医療環境における信頼性と有効性を保証する。
Generative Large Language Models (LLMs) hold significant promise in healthcare, demonstrating capabilities such as passing medical licensing exams and providing clinical knowledge. However, their current use as information retrieval tools is limited by challenges like data staleness, resource demands, and occasional generation of incorrect information. This study assessed the potential of LLMs to function as autonomous agents in a simulated tertiary care medical center, using real-world clinical cases across multiple specialties. Both proprietary and open-source LLMs were evaluated, with Retrieval Augmented Generation (RAG) enhancing contextual relevance. Proprietary models, particularly GPT-4, generally outperformed open-source models, showing improved guideline adherence and more accurate responses with RAG. The manual evaluation by expert clinicians was crucial in validating models' outputs, underscoring the importance of human oversight in LLM operation. Further, the study emphasizes Natural Language Programming (NLP) as the appropriate paradigm for modifying model behavior, allowing for precise adjustments through tailored prompts and real-world interactions. This approach highlights the potential of LLMs to significantly enhance and supplement clinical decision-making, while also emphasizing the value of continuous expert involvement and the flexibility of NLP to ensure their reliability and effectiveness in healthcare settings. | 翻訳日:2024-08-23 19:45:30 公開日:2024-08-22 |
# 大規模言語モデルを用いたQAの連鎖による視覚的質問回答の合成から人文的質問への一般化
Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model ( http://arxiv.org/abs/2401.06400v3 ) ライセンス: Link先を確認 | Taehee Kim, Yeongjae Cho, Heejun Shin, Yohan Jo, Dongmyung Shin, | (参考訳) 視覚的質問応答(VQA)は、画像が与えられるタスクであり、画像について一連の質問が行われる。
効率的なVQAアルゴリズムを構築するには、非常に高価な大量のQAデータが必要である。
テンプレートに基づく合成QAペアの生成は、データを得るための実用的な方法である。
しかしながら、これらのデータに基づいてトレーニングされたVQAモデルは、複雑な人間による質問ではうまく機能しない。
この問題に対処するために,人間による質問に対するQAの連鎖という新しい手法を提案する(CoQAH)。
CoQAHは、大言語モデルと合成データに基づいて訓練されたVQAモデルの間の一連のQA相互作用を利用して、人間による質問に対して論理的回答を導出する。
我々は,3Dレンダー画像と胸部X線画像の2種類のVQAデータセットに対するCoQAHの有効性を検討した。
特に、CoQAHは一般的な視覚言語モデル、VQAモデル、そして微調整なしで医療基礎モデルより優れていた。
Visual question answering (VQA) is a task where an image is given, and a series of questions are asked about the image. To build an efficient VQA algorithm, a large amount of QA data is required which is very expensive. Generating synthetic QA pairs based on templates is a practical way to obtain data. However, VQA models trained on those data do not perform well on complex, human-written questions. To address this issue, we propose a new method called {\it chain of QA for human-written questions} (CoQAH). CoQAH utilizes a sequence of QA interactions between a large language model and a VQA model trained on synthetic data to reason and derive logical answers for human-written questions. We tested the effectiveness of CoQAH on two types of human-written VQA datasets for 3D-rendered and chest X-ray images and found that it achieved state-of-the-art accuracy in both types of data. Notably, CoQAH outperformed general vision-language models, VQA models, and medical foundation models with no finetuning. | 翻訳日:2024-08-23 19:45:30 公開日:2024-08-22 |
# マルチモーダル大言語モデルを用いた非言語的抽象推論
The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models ( http://arxiv.org/abs/2401.12117v3 ) ライセンス: Link先を確認 | Kian Ahrabian, Zhivar Sourati, Kexuan Sun, Jiarui Zhang, Yifan Jiang, Fred Morstatter, Jay Pujara, | (参考訳) 大規模言語モデル(LLM)はいまだ新しいドメインに採用され、新しいアプリケーションで利用されているが、我々は新しい世代の基盤モデル、すなわちマルチモーダルな大規模言語モデル(MLLM)の流入を経験している。
これらのモデルは、言語情報と視覚情報を統合し、2つのモダリティの交差点でより複雑な推論能力を示す新しい可能性を開く。
しかし、MLLMの革新的展望にもかかわらず、推論能力に対する私たちの理解は限られている。
本研究では,Ravenのプログレッシブ行列のバリエーションを用いて,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
本実験は,オープンソースモデルとクローズドソースモデルの間の大きなギャップを浮き彫りにしながら,MLLMにおけるそのような問題の難しさを明らかにした。
また,視覚的およびテキスト的知覚の重大な欠点を明らかにし,低性能天井へのモデルの適用について検討した。
最後に,MLLMの性能向上のために,Chain-of-Thoughtプロンプトなどの異なる手法を試行し,性能を最大100%向上させることに成功した。
コードとデータセットはhttps://github.com/usc-isi-i2/isi-mmlm-rpm.comで公開されています。
While large language models (LLMs) are still being adopted to new domains and utilized in novel applications, we are experiencing an influx of the new generation of foundation models, namely multi-modal large language models (MLLMs). These models integrate verbal and visual information, opening new possibilities to demonstrate more complex reasoning abilities at the intersection of the two modalities. However, despite the revolutionizing prospect of MLLMs, our understanding of their reasoning abilities is limited. In this study, we assess the nonverbal abstract reasoning abilities of open-source and closed-source MLLMs using variations of Raven's Progressive Matrices. Our experiments reveal the challenging nature of such problems for MLLMs while showcasing the immense gap between open-source and closed-source models. We also uncover critical shortcomings of visual and textual perceptions, subjecting the models to low-performance ceilings. Finally, to improve MLLMs' performance, we experiment with different methods, such as Chain-of-Thought prompting, leading to a significant (up to 100%) boost in performance. Our code and datasets are available at https://github.com/usc-isi-i2/isi-mmlm-rpm. | 翻訳日:2024-08-23 19:45:30 公開日:2024-08-22 |
# Vaccine: 有害な微調整に対する大規模言語モデルに対する摂動認識アライメント
Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning ( http://arxiv.org/abs/2402.01109v4 ) ライセンス: Link先を確認 | Tiansheng Huang, Sihao Hu, Ling Liu, | (参考訳) 新しいファインタニング・アズ・ア・サービスというパラダイムでは,大規模言語モデル(LLM)に対する新たな攻撃面が導入されている。
実験的な解析を行い,アライメント・ブレイク効果の可能性が示唆された「textit{harmful embedding drift}」現象を解明した。
この発見に触発されて,ユーザによる微調整のセキュリティリスクを軽減するために,摂動認識アライメント技術であるVaccineを提案する。
Vaccineの中核となる考え方は、アライメントフェーズにおいて、職人的な摂動を徐々に加えることで、不変な隠れ埋め込みを作り出すことである。
これにより、埋め込みは、微調整フェーズにおける不衛生なユーザデータからの有害な摂動に耐えることができる。
オープンソースのLLM (Llama2, Opt, Vicuna) 実験の結果,Vacineは良性プロンプトに対する推論能力を保ちながら,有害なプロンプトによる埋め込みドリフトに対するアライメントの堅牢性を高めることができることが示された。
私たちのコードは \url{https://github.com/git-disl/Vaccine} で利用可能です。
The new paradigm of finetuning-as-a-service introduces a new attack surface for Large Language Models (LLMs): a few harmful data uploaded by users can easily trick the finetuning to produce an alignment-broken model. We conduct an empirical analysis and uncover a \textit{harmful embedding drift} phenomenon, showing a probable cause of the alignment-broken effect. Inspired by our findings, we propose Vaccine, a perturbation-aware alignment technique to mitigate the security risk of users finetuning. The core idea of Vaccine is to produce invariant hidden embeddings by progressively adding crafted perturbation to them in the alignment phase. This enables the embeddings to withstand harmful perturbation from un-sanitized user data in the finetuning phase. Our results on open source mainstream LLMs (e.g., Llama2, Opt, Vicuna) demonstrate that Vaccine can boost the robustness of alignment against harmful prompts induced embedding drift while reserving reasoning ability towards benign prompts. Our code is available at \url{https://github.com/git-disl/Vaccine}. | 翻訳日:2024-08-23 19:45:30 公開日:2024-08-22 |
# Clarify: 自然言語補正によるモデルロバストネスの改善
Clarify: Improving Model Robustness With Natural Language Corrections ( http://arxiv.org/abs/2402.03715v3 ) ライセンス: Link先を確認 | Yoonho Lee, Michelle S. Lam, Helena Vasconcelos, Michael S. Bernstein, Chelsea Finn, | (参考訳) モデルを教える標準的な方法は、大量のデータを提供することです。
しかし、このアプローチはしばしば、データ内の誤解を招く信号を拾い上げるため、モデルに誤ったアイデアを教える。
このような誤解を防ぐためには、トレーニングデータ以外の追加情報を必ず提供しなければなりません。
従来の手法には、誤解を招く特徴のラベルや、偏りのあるデータのためのラベルなど、追加のインスタンスレベルの監視が含まれている。
しかし、そのような戦略は大量のラベル付け作業を必要とする。
既存の教育フレームワークでは利用できない、概念レベルでのテキストフィードバックの提供に長けている、という仮説を立てる。
モデル誤解をインタラクティブに修正するためのインターフェースと手法であるClarifyを提案する。
Clarifyを通じて、モデルの一貫性のある障害パターンを短いテキストで記述するだけでよい。
そして、完全に自動化された方法で、トレーニングプロセスを改善するためにこのような記述を使用します。
Clarifyは、ユーザーモデル修正のための最初のエンドツーエンドシステムである。
ユーザスタディでは、Clarifyを通じて、非専門家のユーザがモデル誤解をうまく記述できることが示され、2つのデータセットで最悪のパフォーマンスが向上した。
また、Clarify を用いた大規模画像データセット ImageNet のケーススタディを行い、31の新規なハードサブポピュレーションの発見と修正を行う。
The standard way to teach models is by feeding them lots of data. However, this approach often teaches models incorrect ideas because they pick up on misleading signals in the data. To prevent such misconceptions, we must necessarily provide additional information beyond the training data. Prior methods incorporate additional instance-level supervision, such as labels for misleading features or additional labels for debiased data. However, such strategies require a large amount of labeler effort. We hypothesize that people are good at providing textual feedback at the concept level, a capability that existing teaching frameworks do not leverage. We propose Clarify, a novel interface and method for interactively correcting model misconceptions. Through Clarify, users need only provide a short text description of a model's consistent failure patterns. Then, in an entirely automated way, we use such descriptions to improve the training process. Clarify is the first end-to-end system for user model correction. Our user studies show that non-expert users can successfully describe model misconceptions via Clarify, leading to increased worst-case performance in two datasets. We additionally conduct a case study on a large-scale image dataset, ImageNet, using Clarify to find and rectify 31 novel hard subpopulations. | 翻訳日:2024-08-23 19:45:30 公開日:2024-08-22 |
# 量子プライバシー増幅によるQKDの騒音限界の克服
Overcoming Noise Limitations in QKD with Quantum Privacy Amplification ( http://arxiv.org/abs/2402.05690v2 ) ライセンス: Link先を確認 | Philipp Sohr, Sebastian Ecker, Lukas Bulla, Martin Bohmann, Rupert Ursin, | (参考訳) 高品質で分散された量子絡み合いは、量子通信の独特な資源であり、量子鍵分布において保証される不平等なレベルのセキュリティの基礎を形成する。
エンタングルメントプロバイダを信頼する必要はないが、使用するエンタングルメントが騒がしい場合、セキュアなキーレートはゼロに低下する。
本稿では,分散エンタングルメントの品質を向上し,QKDの量子的優位性を高めることにより,QPAがQKDで達成可能なセキュアな鍵レートを向上できることを実験的に示す。
さらに、QPAは、以前にキー生成を妨げていたノイズレベルにおいてキー生成を可能にすることを示す。
これらの顕著な結果は、偏極化とエネルギー時間自由度における超絡み合いを利用した効率的な実装によってのみ可能となった。
雑音レベルの違いによる実証実験で達成したセキュア鍵レートの利得の詳細な特徴付けを行う。
結果は、量子プロセッサをリンクするグローバル量子ネットワークの実装と、将来的なデータセキュリティの確保に最重要である。
High-quality, distributed quantum entanglement is the distinctive resource for quantum communication and forms the foundation for the unequalled level of security that can be assured in quantum key distribution. While the entanglement provider does not need to be trusted, the secure key rate drops to zero if the entanglement used is too noisy. In this paper, we show experimentally that QPA is able to increase the secure key rate achievable with QKD by improving the quality of distributed entanglement, thus increasing the quantum advantage in QKD. Beyond that, we show that QPA enables key generation at noise levels that previously prevented key generation. These remarkable results were only made possible by the efficient implementation exploiting hyperentanglement in the polarisation and energy-time degrees of freedom. We provide a detailed characterisation of the gain in secure key rate achieved in our proof-of-principle experiment at different noise levels. The results are paramount for the implementation of a global quantum network linking quantum processors and ensuring future-proof data security. | 翻訳日:2024-08-23 19:45:30 公開日:2024-08-22 |
# 単一硬X線光子を用いた若い二重スリット干渉
Young double-slit interference with single hard x-ray photons ( http://arxiv.org/abs/2402.07377v2 ) ライセンス: Link先を確認 | T. E. Gureyev, C. Hall, B. Arhatari, D. Pelliccia, A. Aminzadeh, K. M. Pavlov, H. M. Quiney, | (参考訳) 25keVのエネルギーを持つ単色硬X線を用いた若い二重スリット実験を行った。
実験は、干渉計と検出器の間の距離110mのシンクロトロン源で行われ、75マイクロメートルの光子計で十分なサンプリングが可能な十分な期間の干渉パターンが得られた。
実験の単一粒子バージョンでは、それぞれに1つの登録された光子を持つ100万枚以上の画像フレームが集められた。
これらのフレームの総和は、干渉パターンと期待期間との明確な存在を示した。
その後の分析では、ローズ基準に従って光子干渉の有無を決定するのに必要な最小数の光子を客観的に推定した。
一般的な理論的関心とは別に、これらの研究は、最小放射線線量での光子計数モードにおける医療用X線位相コントラストイメージングの可能性を探究することを目的としていた。
Young double-slit experiments using monochromatic hard X-rays with the energy of 25 keV are presented. The experiments were performed at a synchrotron source with a distance of 110 m between the interferometer and the detector to produce an interference pattern with a sufficiently broad period that could be adequately sampled by a photon-counting detector with 75 micrometre pixels. In the single-particle version of the experiment, over one million image frames with a single registered photon in each one were collected. The sum of these frames showed a clear presence of the interference pattern with the expected period. Subsequent analysis provided an objective estimation of the minimal number of detected photons required to determine, in accordance with the Rose criterion, the presence of the photon interference. Apart from a general theoretical interest, these investigations were aimed at exploring the possibility of medical X-ray phase-contrast imaging in photon-counting mode at minimal radiation doses. | 翻訳日:2024-08-23 19:35:21 公開日:2024-08-22 |
# AIによる予測:人間の予測精度を改善するLLMアシスタント
AI-Augmented Predictions: LLM Assistants Improve Human Forecasting Accuracy ( http://arxiv.org/abs/2402.07862v2 ) ライセンス: Link先を確認 | Philipp Schoenegger, Peter S. Park, Ezra Karger, Sean Trott, Philip E. Tetlock, | (参考訳) 大規模言語モデル(LLM)は、多くのドメインで人間のパフォーマンスを上回ることがある。
本研究は, 予測課題における人的判断力を高めるLLMの可能性を探るものである。
我々は,LLMアシスタントの人間予測者に対する効果を評価する。一方は高品質な(超予測)アドバイスを提供することを意図し,他方は過信とベースレートの無視を念頭に設計し,ノイズの多い予測アドバイスを提供することである。
我々は,これらのアシスタントを用いた参加者を,数値予測を提供しなかったり,予測の明示的な議論を行なわなかった,より先進的なモデルを受けたコントロールグループと比較した。
参加者 (N = 991) は6つの予測質問に回答し、割り当てられたLLMアシスタントを全会一致で相談する選択肢を得た。
予備登録分析の結果,各フロンティアLLMアシスタントとの相互作用は,制御群と比較して24%から28%の精度で予測精度を著しく向上させることがわかった。
探索分析の結果,1つの予測項目で顕著なアウトリー効果を示し,29%のノイズに対して,超予測アシスタントの精度が41%向上したことがわかった。
さらに,LLM予測が非熟練の予測者に対して不均衡に恩恵を与えるか,予測の多様性を減らし,知恵を低下させるか,質問の難易度で効果が変化するか,についても検討する。
我々のデータはこれらの仮説を一貫して支持していない。
以上の結果から,フロンティアのLLMアシスタントへのアクセスは,特定の予測アドバイスを提供しないより強力なモデルに比べて,認知的なタスク要求に有効な判断支援となる可能性が示唆された。
しかし, 外れ値の影響は, このパターンの堅牢性に関するさらなる研究が必要であることを示唆している。
Large language models (LLMs) match and sometimes exceeding human performance in many domains. This study explores the potential of LLMs to augment human judgement in a forecasting task. We evaluate the effect on human forecasters of two LLM assistants: one designed to provide high-quality ("superforecasting") advice, and the other designed to be overconfident and base-rate neglecting, thus providing noisy forecasting advice. We compare participants using these assistants to a control group that received a less advanced model that did not provide numerical predictions or engaged in explicit discussion of predictions. Participants (N = 991) answered a set of six forecasting questions and had the option to consult their assigned LLM assistant throughout. Our preregistered analyses show that interacting with each of our frontier LLM assistants significantly enhances prediction accuracy by between 24 percent and 28 percent compared to the control group. Exploratory analyses showed a pronounced outlier effect in one forecasting item, without which we find that the superforecasting assistant increased accuracy by 41 percent, compared with 29 percent for the noisy assistant. We further examine whether LLM forecasting augmentation disproportionately benefits less skilled forecasters, degrades the wisdom-of-the-crowd by reducing prediction diversity, or varies in effectiveness with question difficulty. Our data do not consistently support these hypotheses. Our results suggest that access to a frontier LLM assistant, even a noisy one, can be a helpful decision aid in cognitively demanding tasks compared to a less powerful model that does not provide specific forecasting advice. However, the effects of outliers suggest that further research into the robustness of this pattern is needed. | 翻訳日:2024-08-23 19:35:21 公開日:2024-08-22 |
# 多言語BERTによるトルコ語の係り受けアノテーション
Dependency Annotation of Ottoman Turkish with Multilingual BERT ( http://arxiv.org/abs/2402.14743v2 ) ライセンス: Link先を確認 | Şaziye Betül Özateş, Tarık Emre Tıraş, Efe Eren Genç, Esma Fatıma Bilgin Taşdemir, | (参考訳) 本研究では,トルコ語で初となるデディエンシツリーバンクに対して,事前訓練された大規模言語モデルに基づくアノテーション手法を提案する。
我々の実験結果は、反復的に、
一 多言語BERTに基づく構文解析モデルを用いた疑似注釈データ
二 偽アノテーションを手動で訂正すること。
iii) 修正されたアノテーションでパースモデルを微調整し、依存関係のアノテーションプロセスのスピードアップと単純化を行います。
結果として得られたツリーバンクは、ユニバーサル・依存性(UD)プロジェクトの一部となるもので、オスマン帝国の文書の自動解析を促進し、この歴史的遺産に埋め込まれた言語豊かさを解放する。
This study introduces a pretrained large language model-based annotation methodology for the first de dency treebank in Ottoman Turkish. Our experimental results show that, iteratively, i) pseudo-annotating data using a multilingual BERT-based parsing model, ii) manually correcting the pseudo-annotations, and iii) fine-tuning the parsing model with the corrected annotations, we speed up and simplify the challenging dependency annotation process. The resulting treebank, that will be a part of the Universal Dependencies (UD) project, will facilitate automated analysis of Ottoman Turkish documents, unlocking the linguistic richness embedded in this historical heritage. | 翻訳日:2024-08-23 19:35:21 公開日:2024-08-22 |
# プロセステンソル法による二次元分光のモデル化
Process tensor approaches to modeling two-dimensional spectroscopy ( http://arxiv.org/abs/2402.15454v3 ) ライセンス: Link先を確認 | Roosmarijn de Wit, Jonathan Keeling, Brendon W. Lovett, Alex W. Chin, | (参考訳) オープン量子系の分野における問題は、しばしば励起状態の力学に強く影響を及ぼす環境を含む。
ここでは,非マルコフ開量子系の光スペクトルをモデル化するための数値計算法を提案する。
この手法はプロセステンソルフレームワークを用いて、数値的に正確な方法でマルチタイム相関を効率的に計算する。
提案手法の有効性を実証するために,本手法を用いて生成した2次元電子分光シミュレーションと,3種類のシステムバス結合系におけるマルコフ方程式シミュレーションを比較した。
Problems in the field of open quantum systems often involve an environment that strongly influences the dynamics of excited states. Here we present a numerical method to model optical spectra of non-Markovian open quantum systems. The method employs a process tensor framework to efficiently compute multi-time correlations in a numerically exact way. To demonstrate the efficacy of our method, we compare 2D electronic spectroscopy simulations produced through our method to Markovian master equation simulations in three different system-bath coupling regimes. | 翻訳日:2024-08-23 19:35:21 公開日:2024-08-22 |
# 最適化可能なグラフとしての言語エージェント
Language Agents as Optimizable Graphs ( http://arxiv.org/abs/2402.16823v3 ) ライセンス: Link先を確認 | Mingchen Zhuge, Wenyi Wang, Louis Kirsch, Francesco Faccio, Dmitrii Khizbullin, Jürgen Schmidhuber, | (参考訳) LLM(Large Language Models)に基づく問題解決のために, 人為的に設計されたプロンプトエンジニアリング技術が提案されている。
LLMをベースとしたエージェントを計算グラフとして記述することで,これらのアプローチを統一する。
ノードはマルチモーダルデータやLLMのクエリを処理する関数を実装し、エッジは操作間の情報フローを記述する。
グラフは、(エッジが異なるエージェントの操作を接続する)エージェント間コラボレーションの階層を表す大きな複合グラフに再帰的に結合することができる。
提案する新しい自動グラフオプティマイザ(1)ノードレベルのLCMプロンプト(ノード最適化)を改良し,(2)グラフ接続性(エッジ最適化)を変化させてエージェントオーケストレーションを改善する。
実験により、我々のフレームワークは様々なLLMエージェントを効率的に開発、統合、自動改善するために利用できることが示された。
コードはhttps://github.com/metauto-ai/gptswarm.comにある。
Various human-designed prompt engineering techniques have been proposed to improve problem solvers based on Large Language Models (LLMs), yielding many disparate code bases. We unify these approaches by describing LLM-based agents as computational graphs. The nodes implement functions to process multimodal data or query LLMs, and the edges describe the information flow between operations. Graphs can be recursively combined into larger composite graphs representing hierarchies of inter-agent collaboration (where edges connect operations of different agents). Our novel automatic graph optimizers (1) refine node-level LLM prompts (node optimization) and (2) improve agent orchestration by changing graph connectivity (edge optimization). Experiments demonstrate that our framework can be used to efficiently develop, integrate, and automatically improve various LLM agents. The code can be found at https://github.com/metauto-ai/gptswarm. | 翻訳日:2024-08-23 19:35:21 公開日:2024-08-22 |
# CGGM:IoTネットワークにおけるノード異常検出のための適応間隔付き条件付きグラフ生成モデル
CGGM: A conditional graph generation model with adaptive sparsity for node anomaly detection in IoT networks ( http://arxiv.org/abs/2402.17363v3 ) ライセンス: Link先を確認 | Xianshi Su, Munan Li, Runze Ma, Jialong Li, Tongbang Jiang, Hao Long, | (参考訳) 動的グラフはIoT(Internet of Things)内のノードにおける異常な振る舞いを検出するために広く使用されている。
グラフ生成モデルは、動的グラフにおける不均衡ノードカテゴリの問題に対処するためにしばしば使用される。
それにもかかわらず、それが直面する制約には、隣接関係の単調性、ノードの多次元機能構築の難しさ、ノードの複数カテゴリのエンドツーエンド生成方法の欠如などが含まれる。
本稿では,マイノリティクラスに属するサンプルを生成するために,CGGMと呼ばれる新しいグラフ生成モデルを提案する。
フレームワークは、条件付きグラフ生成モジュールとグラフベースの異常検出モジュールの2つのコアモジュールから構成される。
生成モジュールは、ノイズ隣接行列をダウンサンプリングすることによりマトリックスの空間性に適応し、多頭部自己アテンションに基づく多次元特徴エンコーダを内蔵し、特徴間の潜伏依存性を捕捉する。
さらに、実データの潜時分布を近似するために、潜時空間制約と分布距離を結合する。
グラフベースの異常検出モジュールは、生成された平衡データセットを使用してノードの挙動を予測する。
大規模実験により、CGGMは精度とばらつきの点で最先端の手法より優れていることが示されている。
また、CGGMは、多カテゴリ分類タスクの性能を高めるために、多様なデータカテゴリを生成することができることを示した。
Dynamic graphs are extensively employed for detecting anomalous behavior in nodes within the Internet of Things (IoT). Graph generative models are often used to address the issue of imbalanced node categories in dynamic graphs. Neverthe less, the constraints it faces include the monotonicity of adjacency relationships, the difficulty in constructing multi-dimensional features for nodes, and the lack of a method for end-to-end generation of multiple categories of nodes. In this paper, we propose a novel graph generation model, called CGGM, specifically for generating samples belonging to the minority class. The framework consists two core module: a conditional graph generation module and a graph-based anomaly detection module. The generative module adapts to the sparsity of the matrix by downsampling a noise adjacency matrix, and incorporates a multi-dimensional feature encoder based on multi-head self-attention to capture latent dependencies among features. Additionally, a latent space constraint is combined with the distribution distance to approximate the latent distribution of real data. The graph-based anomaly detection module utilizes the generated balanced dataset to predict the node behaviors. Extensive experiments have shown that CGGM outperforms the state-of-the-art methods in terms of accuracy and divergence. The results also demonstrate CGGM can generated diverse data categories, that enhancing the performance of multi-category classification task. | 翻訳日:2024-08-23 19:35:21 公開日:2024-08-22 |
# オフラインスキル拡散によるロバスト政策学習
Robust Policy Learning via Offline Skill Diffusion ( http://arxiv.org/abs/2403.00225v3 ) ライセンス: Link先を確認 | Woo Kyung Kim, Minjong Yoo, Honguk Woo, | (参考訳) スキルベース強化学習(RL)アプローチは,特に階層構造による長期タスクの解決において,大きな可能性を秘めている。
これらのスキルは、オフラインデータセットからタスク非依存に学習され、新しいタスクのポリシー学習プロセスを加速することができる。
しかし、これらのスキルを異なるドメインに適用することは、データセットに固有の依存関係があるため制限されているため、データセットのドメインとは異なるターゲットドメインに対してRLを介してスキルベースのポリシーを学習しようとする場合、課題となる。
本稿では,データセットの限られたスキルから拡張された多目的スキルを生成するためのガイド付き拡散モデルを用いて,新しいオフラインスキル学習フレームワークDuSkillを提案する。
具体的には、階層的エンコーディングと連動して、ドメイン不変の振る舞いをカプセル化するための2つの異なる表現と、ドメイン変動を誘導する要因を記述するための2つの異なる表現に、スキル埋め込み空間を分散させる。
我々のDuSkillフレームワークはオフラインで学んだスキルの多様性を高め、異なるドメインの高レベルポリシーの学習手順を高速化する。
実験により、DuSkillは他のスキルベースの模倣学習やRLアルゴリズムよりも優れており、その利点を数発の模倣やオンラインRLで示している。
Skill-based reinforcement learning (RL) approaches have shown considerable promise, especially in solving long-horizon tasks via hierarchical structures. These skills, learned task-agnostically from offline datasets, can accelerate the policy learning process for new tasks. Yet, the application of these skills in different domains remains restricted due to their inherent dependency on the datasets, which poses a challenge when attempting to learn a skill-based policy via RL for a target domain different from the datasets' domains. In this paper, we present a novel offline skill learning framework DuSkill which employs a guided Diffusion model to generate versatile skills extended from the limited skills in datasets, thereby enhancing the robustness of policy learning for tasks in different domains. Specifically, we devise a guided diffusion-based skill decoder in conjunction with the hierarchical encoding to disentangle the skill embedding space into two distinct representations, one for encapsulating domain-invariant behaviors and the other for delineating the factors that induce domain variations in the behaviors. Our DuSkill framework enhances the diversity of skills learned offline, thus enabling to accelerate the learning procedure of high-level policies for different domains. Through experiments, we show that DuSkill outperforms other skill-based imitation learning and RL algorithms for several long-horizon tasks, demonstrating its benefits in few-shot imitation and online RL. | 翻訳日:2024-08-23 19:35:21 公開日:2024-08-22 |
# 特殊化を超えて:年齢と性別の推定におけるMLLMの能力を評価する
Beyond Specialization: Assessing the Capabilities of MLLMs in Age and Gender Estimation ( http://arxiv.org/abs/2403.02302v3 ) ライセンス: Link先を確認 | Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, | (参考訳) MLLM(Multimodal Large Language Models)は近年大きな人気を集めている。
ChatGPT-4VやGeminiのような強力な商用モデルやLLaVAのようなオープンソースモデルは基本的に汎用モデルであり、コンピュータビジョンを含む幅広いタスクを解決するために応用されている。
これらのニューラルネットワークは、高度に一般的な知識と推論能力を有しており、特に訓練されていないタスクでも作業できることが証明されている。
現在までに最も強力なMLLM(ShareGPT4V, ChatGPT, LLaVA-Next)の能力を比較した。
MiVOLOも更新し、この記事では詳細と新しいメトリクスを提供しています。
この比較は、参加モデルの強みと弱みに関する興味深い結果と洞察をもたらした。
さらに,この課題に対してShareGPT4Vモデルを微調整する様々な方法を試みた。
このようなモデルは、MiVOLOのような特殊なモデルと比べて非常に高価であるため、本番環境では実用的ではないが、データアノテーションのようなタスクで非常に有用である可能性がある。
Multimodal Large Language Models (MLLMs) have recently gained immense popularity. Powerful commercial models like ChatGPT-4V and Gemini, as well as open-source ones such as LLaVA, are essentially general-purpose models and are applied to solve a wide variety of tasks, including those in computer vision. These neural networks possess such strong general knowledge and reasoning abilities that they have proven capable of working even on tasks for which they were not specifically trained. We compared the capabilities of the most powerful MLLMs to date: ShareGPT4V, ChatGPT, LLaVA-Next in a specialized task of age and gender estimation with our state-of-the-art specialized model, MiVOLO. We also updated MiVOLO and provide details and new metrics in this article. This comparison has yielded some interesting results and insights about the strengths and weaknesses of the participating models. Furthermore, we attempted various ways to fine-tune the ShareGPT4V model for this specific task, aiming to achieve state-of-the-art results in this particular challenge. Although such a model would not be practical in production, as it is incredibly expensive compared to a specialized model like MiVOLO, it could be very useful in some tasks, like data annotation. | 翻訳日:2024-08-23 19:35:21 公開日:2024-08-22 |
# テレビ番組のマルチモーダル要約のためのモジュール的アプローチ
A Modular Approach for Multimodal Summarization of TV Shows ( http://arxiv.org/abs/2403.03823v9 ) ライセンス: Link先を確認 | Louis Mahon, Mirella Lapata, | (参考訳) 本稿では,複雑な推論,複数モーダル性,長い物語など,AI研究の重要な領域に触発するテレビ番組を要約する作業について述べる。
本稿では,各コンポーネントが個別のサブタスクを実行するモジュール方式を提案する。
我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。
PRISMA(Precision and Recall EvaluatIon of Summary FActs)は、生成した要約の精度とリコールを計測し、原子的な事実に分解する。
最近リリースされたSummScreen3Dデータセットを用いて、ROUGEと新しいファクトベースメトリクスを用いて、比較モデルよりも高品質な要約を生成するとともに、人間の評価者によって評価される。
In this paper we address the task of summarizing television shows, which touches key areas in AI research: complex reasoning, multiple modalities, and long narratives. We present a modular approach where separate components perform specialized sub-tasks which we argue affords greater flexibility compared to end-to-end methods. Our modules involve detecting scene boundaries, reordering scenes so as to minimize the number of cuts between different events, converting visual information to text, summarizing the dialogue in each scene, and fusing the scene summaries into a final summary for the entire episode. We also present a new metric, PRISMA (Precision and Recall EvaluatIon of Summary FActs), to measure both precision and recall of generated summaries, which we decompose into atomic facts. Tested on the recently released SummScreen3D dataset, our method produces higher quality summaries than comparison models, as measured with ROUGE and our new fact-based metric, and as assessed by human evaluators. | 翻訳日:2024-08-23 19:35:21 公開日:2024-08-22 |
# ファウショット異常検出のためのデュアルパス周波数判別器
Dual-path Frequency Discriminators for Few-shot Anomaly Detection ( http://arxiv.org/abs/2403.04151v4 ) ライセンス: Link先を確認 | Yuhu Bai, Jiangning Zhang, Zhaofeng Chen, Yuhang Dong, Yunkang Cao, Guanzhong Tian, | (参考訳) 工業生産においてFSAD (Few-shot Anomaly Detection) が重要な役割を担っている。
しかし,既存のFSAD法では,通常のサンプルの数が限られているため,空間領域における異常検出や発見が困難であった。
さらに、これらの微妙な異常が周波数領域でより顕著であることが判明した。
本稿では、これらの問題に対処するために、周波数観点からDual-Path Frequency Discriminator (DFD)ネットワークを提案する。
元の空間画像は多周波画像に変換され、異常を検出する際に、調整された識別器により誘導される。
さらに、識別者は擬似アノマリーの形で共同表現を学ぶ。
MVTec AD と VisA のベンチマークで実施された大規模な実験により、DFD が現在の最先端手法を超越していることが示されている。
コードは \url{https://github.com/yuhbai/DFD} で公開されている。
Few-shot anomaly detection (FSAD) plays a crucial role in industrial manufacturing. However, existing FSAD methods encounter difficulties leveraging a limited number of normal samples, frequently failing to detect and locate inconspicuous anomalies in the spatial domain. We have further discovered that these subtle anomalies would be more noticeable in the frequency domain. In this paper, we propose a Dual-Path Frequency Discriminators (DFD) network from a frequency perspective to tackle these issues. The original spatial images are transformed into multi-frequency images, making them more conducive to the tailored discriminators in detecting anomalies. Additionally, the discriminators learn a joint representation with forms of pseudo-anomalies. Extensive experiments conducted on MVTec AD and VisA benchmarks demonstrate that our DFD surpasses current state-of-the-art methods. The code is available at \url{https://github.com/yuhbai/DFD}. | 翻訳日:2024-08-23 19:35:21 公開日:2024-08-22 |
# 遅発性逆行訓練による予期せぬ障害モードの予防
Defending Against Unforeseen Failure Modes with Latent Adversarial Training ( http://arxiv.org/abs/2403.05030v4 ) ライセンス: Link先を確認 | Stephen Casper, Lennart Schulze, Oam Patel, Dylan Hadfield-Menell, | (参考訳) 開発者による広範な診断とデバッグにもかかわらず、AIシステムは時に有害な意図しない振る舞いを示す。
攻撃面があまりに大きく、有害な行動を引き起こす可能性のある入力を徹底的に探すことは困難である。
赤いチームと敵の訓練(AT)は、強靭性を改善するために一般的に使用されるが、訓練中に使用される攻撃とは異なる障害モードの修正に経験的に苦労している。
本研究では,潜時対人訓練(LAT)を用いて,脆弱性に対する防御を行う。
LATは、ネットワークが実際に予測に使用している概念の圧縮、抽象、構造化された潜在表現を利用する。
ここでは、障害を誘発する例なしに、障害モードを防御するためにそれを使用します。
具体的には、LATを用いてトロイの木馬を除去し、敵攻撃の抑止クラスを防御する。
画像分類, テキスト分類, テキスト生成タスクにおいて, LATは通常, 新規攻撃に対する堅牢性と, AT に対するクリーンデータの性能を向上することを示す。
これは、LATが開発者によって明確に特定されていない障害モードを防御するための有望なツールになり得ることを示唆している。
Despite extensive diagnostics and debugging by developers, AI systems sometimes exhibit harmful unintended behaviors. Finding and fixing these is challenging because the attack surface is so large -- it is not tractable to exhaustively search for inputs that may elicit harmful behaviors. Red-teaming and adversarial training (AT) are commonly used to improve robustness, however, they empirically struggle to fix failure modes that differ from the attacks used during training. In this work, we utilize latent adversarial training (LAT) to defend against vulnerabilities without leveraging knowledge of what they are or using inputs that elicit them. LAT makes use of the compressed, abstract, and structured latent representations of concepts that the network actually uses for prediction. Here, we use it to defend against failure modes without examples that elicit them. Specifically, we use LAT to remove trojans and defend against held-out classes of adversarial attacks. We show in image classification, text classification, and text generation tasks that LAT usually improves both robustness to novel attacks and performance on clean data relative to AT. This suggests that LAT can be a promising tool for defending against failure modes that are not explicitly identified by developers. | 翻訳日:2024-08-23 19:35:21 公開日:2024-08-22 |
# MUC:ロバストな3D人体再構築のための非校正カメラの混合
MUC: Mixture of Uncalibrated Cameras for Robust 3D Human Body Reconstruction ( http://arxiv.org/abs/2403.05055v2 ) ライセンス: Link先を確認 | Yitao Zhu, Sheng Wang, Mengjie Xu, Zixu Zhuang, Zhixin Wang, Kaidong Wang, Han Zhang, Qian Wang, | (参考訳) 複数のカメラは、人物の包括的なマルチビュービデオカバレッジを提供することができる。
このマルチビューデータを融合することは、行動分析のようなタスクには不可欠だが、伝統的にカメラのキャリブレーションを必要とする。
さらに, 複数視点での自己閉塞による課題と, 人体形状推定の連続性を見落としている。
本研究では,複数のカメラビューから3次元人体を再構築する手法を提案する。
当初、トレーニング済みの人体エンコーダを用いて、各カメラビューを個別に処理し、予測されたカメラ位置とともに、人体モデルと各ビューのパラメータの再構成を可能にする。
ビュー全体にわたってモデルを平均化するのではなく、各カメラからの関節距離の推定値に基づいて、人間の関節の個々のビューに重みを割り当てるように訓練されたニューラルネットワークを開発する。
さらに,ダイナミックフュージョンのための人体のメッシュ面に焦点を合わせ,顔の表情と体形をシームレスに統合し,統一された人体モデルを構築する。
本手法は, SMPLモデルからSMPL-Xモデルまで, 2つの公開データセット上での人体再構築に優れた性能を示した。
この拡張には、より複雑な手ポーズと表情が含まれており、再建の詳細と精度が向上している。
重要なのは、さまざまなカメラのフレキシブルなアドホック展開をサポートし、さまざまなアプリケーションに大きな可能性を秘めていることだ。
私たちのコードはhttps://github.com/AbsterZhu/MUC.comで公開されています。
Multiple cameras can provide comprehensive multi-view video coverage of a person. Fusing this multi-view data is crucial for tasks like behavioral analysis, although it traditionally requires camera calibration, a process that is often complex. Moreover, previous studies have overlooked the challenges posed by self-occlusion under multiple views and the continuity of human body shape estimation. In this study, we introduce a method to reconstruct the 3D human body from multiple uncalibrated camera views. Initially, we utilize a pre-trained human body encoder to process each camera view individually, enabling the reconstruction of human body models and parameters for each view along with predicted camera positions. Rather than merely averaging the models across views, we develop a neural network trained to assign weights to individual views for all human body joints, based on the estimated distribution of joint distances from each camera. Additionally, we focus on the mesh surface of the human body for dynamic fusion, allowing for the seamless integration of facial expressions and body shape into a unified human body model. Our method has shown excellent performance in reconstructing the human body on two public datasets, advancing beyond previous work from the SMPL model to the SMPL-X model. This extension incorporates more complex hand poses and facial expressions, enhancing the detail and accuracy of the reconstructions. Crucially, it supports the flexible ad-hoc deployment of any number of cameras, offering significant potential for various applications. Our code is available at https://github.com/AbsterZhu/MUC. | 翻訳日:2024-08-23 19:35:21 公開日:2024-08-22 |
# 潜在的な原因を発見するグラフ部分ラベル学習
Graph Partial Label Learning with Potential Cause Discovering ( http://arxiv.org/abs/2403.11449v3 ) ライセンス: Link先を確認 | Hang Gao, Jiaguo Yuan, Jiangmeng Li, Peng Qiao, Fengge Wu, Changwen Zheng, Huaping Liu, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ表現学習がもたらす課題に対処する可能性について、さまざまな領域にわたる複雑なグラフ構造化データに直面しているため、広く注目を集めている。
しかし、グラフ固有の複雑さと相互接続性のため、GNNのトレーニングにグラフデータを正確にアノテートすることは極めて困難である。
この問題に対処するために、グラフ表現学習に部分ラベル学習(PLL)を導入しました。
PLLは、各トレーニングインスタンスが、グランドトラストラベルや追加の干渉ラベルを含む一連の候補ラベルと関連付けられている、極めて弱い教師付き学習問題である。
PLLでは、アノテータがエラーを発生させることで、データのラベル付けが困難になる。
次に,GNNモデルがPLLの文脈内で識別情報を効果的に学習することを可能にする新しいグラフ表現学習法を提案する。
提案手法は潜在的な原因抽出を利用してラベルと因果関係を持つグラフデータを得る。
抽出したグラフデータに基づいて補助訓練を行うことで,PLLシナリオにおける干渉情報を効果的に除去することができる。
我々は、一連の理論的分析により、我々の手法の背後にある理論的根拠を支持する。
さらに,複数のデータセットについて広範囲な評価とアブレーションを行い,提案手法の優位性を実証した。
Graph Neural Networks (GNNs) have garnered widespread attention for their potential to address the challenges posed by graph representation learning, which face complex graph-structured data across various domains. However, due to the inherent complexity and interconnectedness of graphs, accurately annotating graph data for training GNNs is extremely challenging. To address this issue, we have introduced Partial Label Learning (PLL) into graph representation learning. PLL is a critical weakly supervised learning problem where each training instance is associated with a set of candidate labels, including the ground-truth label and the additional interfering labels. PLL allows annotators to make errors, which reduces the difficulty of data labeling. Subsequently, we propose a novel graph representation learning method that enables GNN models to effectively learn discriminative information within the context of PLL. Our approach utilizes potential cause extraction to obtain graph data that holds causal relationships with the labels. By conducting auxiliary training based on the extracted graph data, our model can effectively eliminate the interfering information in the PLL scenario. We support the rationale behind our method with a series of theoretical analyses. Moreover, we conduct extensive evaluations and ablation studies on multiple datasets, demonstrating the superiority of our proposed method. | 翻訳日:2024-08-23 19:25:36 公開日:2024-08-22 |
# 多モードボース-アインシュタイン凝縮体における拡散複雑性と動的遷移
Spread complexity and dynamical transition in multimode Bose-Einstein condensates ( http://arxiv.org/abs/2403.15154v2 ) ライセンス: Link先を確認 | Bozhen Zhou, Shu Chen, | (参考訳) 2モードのボース=アインシュタイン凝縮における拡散複雑性について検討し、拡散複雑性の長期平均$\overline{C}_{K}$が自己トラッピングからジョセフソン振動への動的遷移を探索できることを明らかにする。
パラメータ $\omega$ が臨界値 $\omega_{c}$ を超えて増加するとき、拡散複雑性は低値から高値への急激な遷移を示し、対応する位相空間軌跡は自己トラッピングからジョセフソン振動へ変化する。
さらに、固有スペクトルを精査し、臨界エネルギー$E_{c}$における状態密度の特異点の出現を特徴とする動的遷移と励起状態量子相転移の関係を明らかにする。
熱力学的極限において、$E_{c}(\omega)$ の交差点と初期エネルギー $E_{0}(\omega)$ は力学遷移点 $\omega_{c}$ を決定する。
さらに,固定点が不安定な状態から安定な状態に変化する場合,一定点における初期状態の異なる動的挙動は,拡散複雑性の長期平均によって区別できることを示した。
最後に、カオス力学から正規力学への遷移を励起する三重井戸ボソニックモデルに対する$\overline{C}_{K}$の感度についても検討する。
We study the spread complexity in two-mode Bose-Einstein condensations and unveil that the long-time average of the spread complexity $\overline{C}_{K}$ can probe the dynamical transition from self-trapping to Josephson oscillation. When the parameter $\omega$ increases over a critical value $\omega_{c}$, we reveal that the spread complexity exhibits a sharp transition from lower to higher value, with the corresponding phase space trajectory changing from self-trapping to Josephson oscillation. Moreover, we scrutinize the eigen-spectrum and uncover the relation between the dynamical transition and the excited state quantum phase transition, which is characterized by the emergence of singularity in the density of states at critical energy $E_{c}$. In the thermodynamical limit, the cross point of $E_{c}(\omega)$ and the initial energy $E_{0}(\omega)$ determines the dynamical transition point $\omega_{c}$. Furthermore, we show that the different dynamical behavior for the initial state at a fixed point can be distinguished by the long-time average of the spread complexity, when the fixed point changes from unstable to stable. Finally, we also examine the sensitivity of $\overline{C}_{K}$ for the triple-well bosonic model which exibits the transition from chaotic dynamics to regular dynamics. | 翻訳日:2024-08-23 19:25:36 公開日:2024-08-22 |
# 迷路誘導型手動物体相互作用合成:データセットと方法
Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method ( http://arxiv.org/abs/2403.16169v4 ) ライセンス: Link先を確認 | Jie Tian, Ran Ji, Lingxiao Yang, Yuexin Ma, Lan Xu, Jingyi Yu, Ye Shi, Jingya Wang, | (参考訳) 迷路は人間の注意と意図を明らかにする上で重要な役割を担い、特に手と物体の相互作用のシナリオにおいて、脳、手、物体の正確な調整を必要とする複雑なタスクをガイドし、同期させる。
そこで本研究では,拡張現実,仮想現実,補助技術に応用可能なガゼガイドハンドオブジェクトインタラクション・シンセサイザーという,新たなタスクを紹介した。
この課題を支援するために,視線,手,物体の相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを提案する。
この課題は、視線データに固有の空間性やノイズ、手動や物体の動きを発生させる際の高一貫性と物理的可視性の必要性など、大きな課題を生んでいる。
これらの課題に対処するために,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。
積み重ねられた設計は、モーションジェネレーションの複雑さを効果的に減少させる。
また、GHO拡散のサンプリング段階でHOI-Manifold Guidanceを導入し、データ多様体を維持しながら生成した動きのきめ細かい制御を可能にする。
また,拡散条件に対する時空間の視線特徴符号化を提案し,視線接触マップと視線相互作用軌跡の整合点に基づく拡散結果を選択する。
大規模な実験は、我々の手法の有効性と、我々のデータセットのユニークな貢献を浮き彫りにする。
Gaze plays a crucial role in revealing human attention and intention, particularly in hand-object interaction scenarios, where it guides and synchronizes complex tasks that require precise coordination between the brain, hand, and object. Motivated by this, we introduce a novel task: Gaze-Guided Hand-Object Interaction Synthesis, with potential applications in augmented reality, virtual reality, and assistive technologies. To support this task, we present GazeHOI, the first dataset to capture simultaneous 3D modeling of gaze, hand, and object interactions. This task poses significant challenges due to the inherent sparsity and noise in gaze data, as well as the need for high consistency and physical plausibility in generating hand and object motions. To tackle these issues, we propose a stacked gaze-guided hand-object interaction diffusion model, named GHO-Diffusion. The stacked design effectively reduces the complexity of motion generation. We also introduce HOI-Manifold Guidance during the sampling stage of GHO-Diffusion, enabling fine-grained control over generated motions while maintaining the data manifold. Additionally, we propose a spatial-temporal gaze feature encoding for the diffusion condition and select diffusion results based on consistency scores between gaze-contact maps and gaze-interaction trajectories. Extensive experiments highlight the effectiveness of our method and the unique contributions of our dataset. | 翻訳日:2024-08-23 19:25:36 公開日:2024-08-22 |
# skscope: Pythonの高速なスパシティ制約付き最適化
skscope: Fast Sparsity-Constrained Optimization in Python ( http://arxiv.org/abs/2403.18540v2 ) ライセンス: Link先を確認 | Zezhi Wang, Jin Zhu, Peng Chen, Huiyang Peng, Xiaoke Zhang, Anran Wang, Junxian Zhu, Xueqin Wang, | (参考訳) 空間的制約のある最適化(SCO)に反復的な解法を適用するには、面倒な数学的推論と、これらの解法の影響を妨げている注意深いプログラミング/デバッグが必要である。
本稿では,このような障害を克服するために,ライブラリ・スコープを導入している。
skscopeを使えば、ユーザーは目的関数をプログラムするだけでSCOを解くことができる。
本論文の2つの例では, わずか4行のコードで, 疎線形回帰とトレンドフィルタリングに対処して, スコープの利便性を実証する。
さらに重要なことは、skscopeの効率的な実装により、パラメータ空間の高次元性に関わらず、最先端の解法がスパース解を迅速に達成することができることである。
数値実験により、ベンチマークされた凸解法により得られる競合緩和解の最大80倍の高速化が達成できることが示された。
skscopeはPython Package Index(PyPI)とCondaで公開されており、ソースコードはhttps://github.com/abess-team/skscope.comで公開されている。
Applying iterative solvers on sparsity-constrained optimization (SCO) requires tedious mathematical deduction and careful programming/debugging that hinders these solvers' broad impact. In the paper, the library skscope is introduced to overcome such an obstacle. With skscope, users can solve the SCO by just programming the objective function. The convenience of skscope is demonstrated through two examples in the paper, where sparse linear regression and trend filtering are addressed with just four lines of code. More importantly, skscope's efficient implementation allows state-of-the-art solvers to quickly attain the sparse solution regardless of the high dimensionality of parameter space. Numerical experiments reveal the available solvers in skscope can achieve up to 80x speedup on the competing relaxation solutions obtained via the benchmarked convex solver. skscope is published on the Python Package Index (PyPI) and Conda, and its source code is available at: https://github.com/abess-team/skscope. | 翻訳日:2024-08-23 19:25:36 公開日:2024-08-22 |
# QUSL: 高性能な量子教師なし画像類似学習
QUSL: Quantum Unsupervised Image Similarity Learning with Enhanced Performance ( http://arxiv.org/abs/2404.02028v4 ) ライセンス: Link先を確認 | Lian-Hui Yu, Xiao-Yu Li, Geng Chen, Qin-Sheng Zhu, Hui Li, Guo-Wu Yang, | (参考訳) 複雑な学習タスクを強化するために量子特性を活用することは、非教師なし学習の分野での優れた成果とともに、実現可能であることが証明されている。
しかし、現在の量子スキームは教師なしタスクシナリオの適応調整を無視している。
本研究は量子教師なし類似性学習法QUSLを提案する。
まず、QUSLは教師なし学習に類似度三重項を使用し、アンカーイメージを摂動することで正のサンプルを生成し、古典的なアルゴリズムに依存しない学習プロセスを達成する。
その後、QUSLはメタヒューリスティックアルゴリズムを用いてハイパフォーマンスマッピングプロセスを体系的に探索し、教師なし画像類似性タスクにより適した量子回路アーキテクチャを得る。
最終的に、QUSLは、より低い量子リソースコストで機能学習を実現する。
量子コンピュータに関する総合的な数値シミュレーションと実験により、QUSLは最先端の量子法よりも優れていることを示した。
QUSLは、臨界量子資源の利用を50%以上削減する。
QUSLは、複数のデータセットで最大19.5%の類似性検出相関を改善し、NISQ環境で堅牢性を示す。
量子リソースが少ない一方で、QUSLは大規模な教師なしタスクの可能性を示している。
Leveraging quantum properties to enhance complex learning tasks has been proven feasible, with excellent recent achievements in the field of unsupervised learning. However, current quantum schemes neglect adaptive adjustments for unsupervised task scenarios. This work proposes a novel quantum unsupervised similarity learning method, QUSL. Firstly, QUSL uses similarity triplets for unsupervised learning, generating positive samples by perturbing anchor images, achieving a learning process independent of classical algorithms. Subsequently, combining the feature interweaving of triplets, QUSL employs metaheuristic algorithms to systematically explore high-performance mapping processes, obtaining quantum circuit architectures more suitable for unsupervised image similarity tasks. Ultimately, QUSL realizes feature learning with lower quantum resource costs. Comprehensive numerical simulations and experiments on quantum computers demonstrate that QUSL outperforms state-of-the-art quantum methods. QUSL achieves over 50% reduction in critical quantum resource utilization. QUSL improves similarity detection correlation by up to 19.5% across multiple datasets, exhibiting robustness in NISQ environments. While using fewer quantum resources, QUSL shows potential for large-scale unsupervised tasks. | 翻訳日:2024-08-23 19:25:36 公開日:2024-08-22 |
# メタラーニングによるドメインの一般化:サーベイ
Domain Generalization through Meta-Learning: A Survey ( http://arxiv.org/abs/2404.02785v3 ) ライセンス: Link先を確認 | Arsham Gholamzadeh Khoee, Yinan Yu, Robert Feldt, | (参考訳) ディープニューラルネットワーク(DNN)は人工知能に革命をもたらしたが、現実のアプリケーションでは避けられないドメインシフトのために一般的なシナリオであるOOD(out-of-distriion)データに直面すると、パフォーマンスが低下することが多い。
この制限は、トレーニングデータとテストデータが同じ分布を共有しているという一般的な仮定に由来する。
大量のデータと計算能力を持つにもかかわらず、DNNは分散シフトやラベル付きデータの制限に苦しむため、様々なタスクや領域にわたって過度に適合し、一般化が不十分になる。
メタラーニングは、様々なタスクにまたがる伝達可能な知識を高速な適応のために取得し、各タスクをスクラッチから学習する必要をなくし、有望なアプローチを示す。
本調査はメタラーニングの領域を掘り下げ,ドメインの一般化への貢献に焦点をあてたものである。
まず,ドメイン一般化のためのメタラーニングの概念を明らかにし,特徴抽出戦略と分類器学習手法に基づく新しい分類法を導入する。
さらに、データ可用性とドメインシフトに基づいて分類をナビゲートする上で、読者が特定の問題要件に合わせて適切なモデルを選択して開発できるように、決定グラフを提示する。
既存の方法と基礎理論の徹底的なレビューを通じて、この分野の基礎を概観する。
本調査は,有望な研究方向性に関する実践的洞察と情報的考察を提供する。
Deep neural networks (DNNs) have revolutionized artificial intelligence but often lack performance when faced with out-of-distribution (OOD) data, a common scenario due to the inevitable domain shifts in real-world applications. This limitation stems from the common assumption that training and testing data share the same distribution--an assumption frequently violated in practice. Despite their effectiveness with large amounts of data and computational power, DNNs struggle with distributional shifts and limited labeled data, leading to overfitting and poor generalization across various tasks and domains. Meta-learning presents a promising approach by employing algorithms that acquire transferable knowledge across various tasks for fast adaptation, eliminating the need to learn each task from scratch. This survey paper delves into the realm of meta-learning with a focus on its contribution to domain generalization. We first clarify the concept of meta-learning for domain generalization and introduce a novel taxonomy based on the feature extraction strategy and the classifier learning methodology, offering a granular view of methodologies. Additionally, we present a decision graph to assist readers in navigating the taxonomy based on data availability and domain shifts, enabling them to select and develop a proper model tailored to their specific problem requirements. Through an exhaustive review of existing methods and underlying theories, we map out the fundamentals of the field. Our survey provides practical insights and an informed discussion on promising research directions. | 翻訳日:2024-08-23 19:25:36 公開日:2024-08-22 |
# 条件付きスパイク・アンド・スラブ前処理による共分散ロバスト部分情報伝達
Covariate-Elaborated Robust Partial Information Transfer with Conditional Spike-and-Slab Prior ( http://arxiv.org/abs/2404.03764v2 ) ライセンス: Link先を確認 | Ruqian Zhang, Yijiao Zhang, Annie Qu, Zhongyi Zhu, Juan Shen, | (参考訳) 転送学習の人気は、有用な補助データセットから情報を借用できるという事実に起因している。
既存の統計伝達学習法は通常、ソースデータとターゲットデータとのグローバルな類似度尺度を採用しており、部分的な情報のみを共有すると効率が低下する可能性がある。
本稿では,高次元データ解析のためのロバストな部分的情報伝達を実現するために,「CONCERT」と呼ばれる新しいベイズ変換学習法を提案する。
情報伝達のためのターゲットパラメータとソースパラメータの共分散に、条件付きスパイク・アンド・スラブ前処理を導入する。
共変量固有の先行情報を組み込むことで、部分的類似性を特徴付けることができ、ソース情報を協調的に統合して目標の性能を向上させることができる。
既存の作業とは対照的に、CONCERTは1ステップの手順であり、変数の選択と情報転送を同時に行う。
変数選択の整合性、および予測誤差境界を確立する。
我々の理論は、伝達学習の共変量固有の利点を実証している。
アルゴリズムがスケーラブルであることを保証するため,実装を容易にするために変分ベイズフレームワークを採用する。
大規模な実験と2つの実データ応用は、既存の最先端転送学習法に対するCONCERTの有効性と利点を示している。
The popularity of transfer learning stems from the fact that it can borrow information from useful auxiliary datasets. Existing statistical transfer learning methods usually adopt a global similarity measure between the source data and the target data, which may lead to inefficiency when only partial information is shared. In this paper, we propose a novel Bayesian transfer learning method named ``CONCERT'' to allow robust partial information transfer for high-dimensional data analysis. A conditional spike-and-slab prior is introduced in the joint distribution of target and source parameters for information transfer. By incorporating covariate-specific priors, we can characterize partial similarities and integrate source information collaboratively to improve the performance on the target. In contrast to existing work, the CONCERT is a one-step procedure, which achieves variable selection and information transfer simultaneously. We establish variable selection consistency, as well as estimation and prediction error bounds for CONCERT. Our theory demonstrates the covariate-specific benefit of transfer learning. To ensure that our algorithm is scalable, we adopt the variational Bayes framework to facilitate implementation. Extensive experiments and two real data applications showcase the validity and advantage of CONCERT over existing cutting-edge transfer learning methods. | 翻訳日:2024-08-23 19:25:36 公開日:2024-08-22 |
# LightFF:フォワードフォワードアルゴリズムのための軽量推論
LightFF: Lightweight Inference for Forward-Forward Algorithm ( http://arxiv.org/abs/2404.05241v5 ) ライセンス: Link先を確認 | Amin Aminifar, Baichuan Huang, Azra Abtahi, Amir Aminifar, | (参考訳) 人間の脳は優れたエネルギー効率、すなわち約20ワットのワットでタスクを実行する。
一方、最先端のArtificial/Deep Neural Networks(ANN/DNN)は、最近大量のエネルギーを消費していることが示されている。
これらのANN/DNNのトレーニングは、ほとんど生物学的に不可能であることが知られているバックプロパゲーションアルゴリズムに基づいて行われる。
これにより、フォワード-フォワードアルゴリズムを含む、新しい世代のフォワード専用技術が導かれた。
本稿では,Forward-Forwardアルゴリズムを用いてトレーニングしたDNNを対象とした,軽量な推論手法を提案する。
我々は,MNIST と CIFAR データセットを用いた軽量推論手法と,その関連性を示す2つの実世界の応用,すなわちてんかん性発作検出と,ウェアラブル技術を用いた心臓不整脈分類について検討した。
私たちのコードはhttps://github.com/AminAminifar/LightFF.comで利用可能です。
The human brain performs tasks with an outstanding energy efficiency, i.e., with approximately 20 Watts. The state-of-the-art Artificial/Deep Neural Networks (ANN/DNN), on the other hand, have recently been shown to consume massive amounts of energy. The training of these ANNs/DNNs is done almost exclusively based on the back-propagation algorithm, which is known to be biologically implausible. This has led to a new generation of forward-only techniques, including the Forward-Forward algorithm. In this paper, we propose a lightweight inference scheme specifically designed for DNNs trained using the Forward-Forward algorithm. We have evaluated our proposed lightweight inference scheme in the case of the MNIST and CIFAR datasets, as well as two real-world applications, namely, epileptic seizure detection and cardiac arrhythmia classification using wearable technologies, where complexity overheads/energy consumption is a major constraint, and demonstrate its relevance. Our code is available at https://github.com/AminAminifar/LightFF. | 翻訳日:2024-08-23 19:25:36 公開日:2024-08-22 |
# 光子で空を飛ぶ:光をプロパゲーティングする新しい視点をレンダリングする
Flying with Photons: Rendering Novel Views of Propagating Light ( http://arxiv.org/abs/2404.06493v3 ) ライセンス: Link先を確認 | Anagh Malik, Noah Juravsky, Ryan Po, Gordon Wetzstein, Kiriakos N. Kutulakos, David B. Lindell, | (参考訳) 本稿では,新しい移動カメラの視点から,シーンを通して伝播する光の映像を合成する画像・ニューラルレンダリング技術を提案する。
我々のアプローチは、ピコ秒レベルの時間分解能を持つファースト・オブ・イットタイプの多視点ビデオデータセットをキャプチャするための、新しい超高速撮像装置に依存している。
このデータセットと組み合わせて、過渡場に基づく効率的なニューラルネットワークボリュームレンダリングフレームワークを導入する。
このフィールドは、3次元点と2次元方向から超高速な時間スケールでの時間変化ラディアンスを表す高次元離散時間信号へのマッピングとして定義される。
過渡場によるレンダリングは、カメラへの光の伝搬遅延に起因する視点依存的な外観変化を含む、光の有限速による効果を自然に説明する。
我々は散乱、スペクトル反射、屈折、回折を含む様々な複雑な効果を描画する。
また,光伝送の直接的および大域的成分の映像合成と相対論的効果のレンダリングにより,視点依存性の伝搬遅延の除去を実演する。
We present an imaging and neural rendering technique that seeks to synthesize videos of light propagating through a scene from novel, moving camera viewpoints. Our approach relies on a new ultrafast imaging setup to capture a first-of-its kind, multi-viewpoint video dataset with picosecond-level temporal resolution. Combined with this dataset, we introduce an efficient neural volume rendering framework based on the transient field. This field is defined as a mapping from a 3D point and 2D direction to a high-dimensional, discrete-time signal that represents time-varying radiance at ultrafast timescales. Rendering with transient fields naturally accounts for effects due to the finite speed of light, including viewpoint-dependent appearance changes caused by light propagation delays to the camera. We render a range of complex effects, including scattering, specular reflection, refraction, and diffraction. Additionally, we demonstrate removing viewpoint-dependent propagation delays using a time warping procedure, rendering of relativistic effects, and video synthesis of direct and global components of light transport. | 翻訳日:2024-08-23 19:25:36 公開日:2024-08-22 |
# アニメーションに基づく不連続映像からの行動認識のための拡張手法
An Animation-based Augmentation Approach for Action Recognition from Discontinuous Video ( http://arxiv.org/abs/2404.06741v3 ) ライセンス: Link先を確認 | Xingyu Song, Zhan Li, Shi Chen, Xin-Qiang Cai, Kazuyuki Demachi, | (参考訳) コンピュータビジョンの重要な構成要素である行動認識は、複数のアプリケーションにおいて重要な役割を果たす。
畳み込みニューラルネットワーク(CNN)による大幅な改善にもかかわらず、これらのモデルは、現実の環境で頻繁に発生する不連続なビデオフレームでトレーニングされた場合、パフォーマンスが低下する。
この減少は主に、人間の行動の意味を理解するために不可欠である時間的連続性の喪失に起因する。
この問題を克服するために,RGBビデオからの2次元人物ポーズ推定から始まる4Aパイプライン(Action Animation-based Augmentation Approach)と,関節方位と軌道方向予測のためのQuternion-based Graph Convolution Network,ゲームエンジン技術を用いたスムーズで多様なアクションを生成するDynamic Skeletal Interpolationを導入する。
この革新的なアプローチは、様々なゲーム環境において、複数の視点から現実的なアニメーションを生成する。
このようにして,本手法は仮想データと実世界のデータ間の領域ギャップを効果的に橋渡しする。
実験的な評価では、4Aパイプラインは、元のデータボリュームの10%しか必要とせず、現実世界のデータを使用した従来のトレーニングアプローチと同等またはそれ以上のパフォーマンスを達成する。
In-the-wildビデオの性能向上を実証し,アクション認識の分野での大きな進歩を示す。
Action recognition, an essential component of computer vision, plays a pivotal role in multiple applications. Despite significant improvements brought by Convolutional Neural Networks (CNNs), these models suffer performance declines when trained with discontinuous video frames, which is a frequent scenario in real-world settings. This decline primarily results from the loss of temporal continuity, which is crucial for understanding the semantics of human actions. To overcome this issue, we introduce the 4A (Action Animation-based Augmentation Approach) pipeline, which employs a series of sophisticated techniques: starting with 2D human pose estimation from RGB videos, followed by Quaternion-based Graph Convolution Network for joint orientation and trajectory prediction, and Dynamic Skeletal Interpolation for creating smoother, diversified actions using game engine technology. This innovative approach generates realistic animations in varied game environments, viewed from multiple viewpoints. In this way, our method effectively bridges the domain gap between virtual and real-world data. In experimental evaluations, the 4A pipeline achieves comparable or even superior performance to traditional training approaches using real-world data, while requiring only 10% of the original data volume. Additionally, our approach demonstrates enhanced performance on In-the-wild videos, marking a significant advancement in the field of action recognition. | 翻訳日:2024-08-23 19:25:36 公開日:2024-08-22 |
# DGMamba: 汎用状態空間モデルによるドメインの一般化
DGMamba: Domain Generalization via Generalized State Space Model ( http://arxiv.org/abs/2404.07794v3 ) ライセンス: Link先を確認 | Shaocong Long, Qianyu Zhou, Xiangtai Li, Xuequan Lu, Chenhao Ying, Yuan Luo, Lizhuang Ma, Shuicheng Yan, | (参考訳) ドメイン一般化~(DG)は,様々な場面における分布シフト問題を解決することを目的としている。
既存のアプローチは畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)をベースとしている。
Mambaは、新興状態空間モデル(SSM)として、より優れた線形複雑性と大域的受容場を持つ。
これにもかかわらず、隠れた状態問題や不適切なスキャン機構のため、DGに分散シフトに対処することは困難である。
本稿では,DGMamba という新たな DG フレームワークを提案する。DGMamba は未確認領域に対して強い一般化性を持ち,一方,大域的受容場と効率的な線形複雑性の利点がある。
我々のDGMambaは、Hedden State Suppressing~(HSS)とSemantic-aware Patch Refining~(SPR)の2つのコアコンポーネントを妥協します。
特に、HSSは、出力予測中にドメイン固有の特徴に関連する隠れ状態の影響を軽減するために導入された。
SPRは、プリエント・フリー・スキャン~(PFS)とドメイン・コンテキスト・インターチェンジ~(DCI)の2つの設計からなる、コンテキストよりもオブジェクトにもっと集中するようモデルに促そうとしている。
具体的には、PFSはイメージ内の非セマンティックパッチをシャッフルし、画像からより柔軟で効果的なシーケンスを生成することを目的としており、DCIはドメイン間のパッチを融合することで、ミスマッチした非セマンティックおよびセマンティック情報の組み合わせでマンバを正規化するように設計されている。
5つの一般的なDGベンチマークの大規模な実験により、提案されたDGMambaは最先端モデルよりもはるかに優れた結果が得られることが示された。
コードはhttps://github.com/longshaocong/DGMamba.comで公開される。
Domain generalization~(DG) aims at solving distribution shift problems in various scenes. Existing approaches are based on Convolution Neural Networks (CNNs) or Vision Transformers (ViTs), which suffer from limited receptive fields or quadratic complexities issues. Mamba, as an emerging state space model (SSM), possesses superior linear complexity and global receptive fields. Despite this, it can hardly be applied to DG to address distribution shifts, due to the hidden state issues and inappropriate scan mechanisms. In this paper, we propose a novel framework for DG, named DGMamba, that excels in strong generalizability toward unseen domains and meanwhile has the advantages of global receptive fields, and efficient linear complexity. Our DGMamba compromises two core components: Hidden State Suppressing~(HSS) and Semantic-aware Patch refining~(SPR). In particular, HSS is introduced to mitigate the influence of hidden states associated with domain-specific features during output prediction. SPR strives to encourage the model to concentrate more on objects rather than context, consisting of two designs: Prior-Free Scanning~(PFS), and Domain Context Interchange~(DCI). Concretely, PFS aims to shuffle the non-semantic patches within images, creating more flexible and effective sequences from images, and DCI is designed to regularize Mamba with the combination of mismatched non-semantic and semantic information by fusing patches among domains. Extensive experiments on five commonly used DG benchmarks demonstrate that the proposed DGMamba achieves remarkably superior results to state-of-the-art models. The code will be made publicly available at https://github.com/longshaocong/DGMamba. | 翻訳日:2024-08-23 19:25:36 公開日:2024-08-22 |
# MonoPatchNeRF: パッチに基づく単眼誘導による神経放射場の改善
MonoPatchNeRF: Improving Neural Radiance Fields with Patch-based Monocular Guidance ( http://arxiv.org/abs/2404.08252v2 ) ライセンス: Link先を確認 | Yuqun Wu, Jae Yong Lee, Chuhang Zou, Shenlong Wang, Derek Hoiem, | (参考訳) 最新の正規化ニューラルラジアンス・フィールド(NeRF)アプローチは、ETH3Dのような大規模なスパース・ビュー・シーンに対して、ジオメトリーとビューの外挿が貧弱である。
密度ベースのアプローチは制約下にある傾向があり、表面ベースのアプローチは詳細を見逃す傾向にある。
本稿では、密度に基づくアプローチ、個々の光線の代わりにパッチをサンプリングし、単眼深度と通常の推定値、およびトレーニングビューとサンプル仮想ビュー間のパッチベースの光度整合性制約をよりよく組み込む。
スパース点に整合した推定深度に基づく粗く制約された密度は、幾何学的精度をさらに向上させる。
ETH3Dベンチマークでは,他の正規化密度に基づく手法に比べてF1@2cmのスコアを4x-8倍増加させ,トレーニングや推論時間を大幅に短縮する。
The latest regularized Neural Radiance Field (NeRF) approaches produce poor geometry and view extrapolation for large scale sparse view scenes, such as ETH3D. Density-based approaches tend to be under-constrained, while surface-based approaches tend to miss details. In this paper, we take a density-based approach, sampling patches instead of individual rays to better incorporate monocular depth and normal estimates and patch-based photometric consistency constraints between training views and sampled virtual views. Loosely constraining densities based on estimated depth aligned to sparse points further improves geometric accuracy. While maintaining similar view synthesis quality, our approach significantly improves geometric accuracy on the ETH3D benchmark, e.g. increasing the F1@2cm score by 4x-8x compared to other regularized density-based approaches, with much lower training and inference time than other approaches. | 翻訳日:2024-08-23 19:25:36 公開日:2024-08-22 |
# 定理証明のための深層学習に関する調査研究
A Survey on Deep Learning for Theorem Proving ( http://arxiv.org/abs/2404.09939v3 ) ライセンス: Link先を確認 | Zhaoyu Li, Jialiang Sun, Logan Murphy, Qidong Su, Zenan Li, Xian Zhang, Kaiyu Yang, Xujie Si, | (参考訳) 定理証明は数学の基本的な側面であり、自然言語における非公式な推論から形式体系における厳密な導出にまで及ぶ。
近年、ディープラーニングの進歩、特に大規模言語モデルの台頭は、これらの手法を探求し、定理証明のプロセスを強化する顕著な研究の急増を引き起こしている。
本稿では,提案する定理証明のためのディープラーニングに関する包括的調査について述べる。
一 自己書式化、前提選択、証明工程生成、証明探索等の様々な業務における既存のアプローチの徹底的な見直し
(二 合成データ生成のためのキュレートされたデータセット及び戦略の広範な概要
三 評価指標の詳細な分析及び最先端手法の性能
(四)持続的課題と今後の探査への有望な道についての批判的議論。
我々の調査は、この急速に成長する分野におけるさらなる研究の成果を実証し、刺激し、触媒する深層学習アプローチの基盤となる基準として機能することを目的としている。
キュレートされた論文のリストはhttps://github.com/zhaoyu-li/DL4TPで公開されている。
Theorem proving is a fundamental aspect of mathematics, spanning from informal reasoning in natural language to rigorous derivations in formal systems. In recent years, the advancement of deep learning, especially the emergence of large language models, has sparked a notable surge of research exploring these techniques to enhance the process of theorem proving. This paper presents a comprehensive survey of deep learning for theorem proving by offering (i) a thorough review of existing approaches across various tasks such as autoformalization, premise selection, proofstep generation, and proof search; (ii) an extensive summary of curated datasets and strategies for synthetic data generation; (iii) a detailed analysis of evaluation metrics and the performance of state-of-the-art methods; and (iv) a critical discussion on the persistent challenges and the promising avenues for future exploration. Our survey aims to serve as a foundational reference for deep learning approaches in theorem proving, inspiring and catalyzing further research endeavors in this rapidly growing field. A curated list of papers is available at https://github.com/zhaoyu-li/DL4TP. | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# LLMs-in-the-Loop戦略によるソーシャルメディアメッセージングにおける潜在的論点の解明
Uncovering Latent Arguments in Social Media Messaging by Employing LLMs-in-the-Loop Strategy ( http://arxiv.org/abs/2404.10259v3 ) ライセンス: Link先を確認 | Tunazzina Islam, Dan Goldwasser, | (参考訳) ソーシャルメディアの普及により、世論分析の自動化手法として人気が高まっている。
改訂された手法はテキストの分類に適しているが、ソーシャルメディアの議論のダイナミックな性質は、焦点の連続的なシフトにより、これらの技術に継続的な挑戦をもたらす。
一方,トピックモデリングなどの話題からテーマを抽出する従来の教師なし手法では,特定のニュアンスを捉えないような過度なパターンがしばしば現れる。
その結果、ソーシャルメディアの談話研究のかなりの部分は、労働集約的な手作業によるコーディング技術と、時間と費用のかかる人道的なアプローチに依存している。
本研究では,特定のテーマに関連付けられた議論の発見問題について考察する。
本稿では,Large Language Models (LLM) の高度な機能を活用し,ソーシャルメディアのメッセージから潜在的議論を抽出する汎用 LLM-in-the-Loop 戦略を提案する。
このアプローチを実証するために、我々のフレームワークを議論の多いトピックに適用する。
1) テーマが25のFacebook広告14kの気候キャンペーンデータセットと,(2) テーマが14のFacebook広告9kの新型コロナウイルスワクチンキャンペーンデータセットである。
さらに,気候論争における発話点を活用した姿勢予測として,下流課題を設計する。
さらに、実世界の出来事に基づいて、人口統計ターゲティングとメッセージの適応を分析する。
The widespread use of social media has led to a surge in popularity for automated methods of analyzing public opinion. Supervised methods are adept at text categorization, yet the dynamic nature of social media discussions poses a continual challenge for these techniques due to the constant shifting of the focus. On the other hand, traditional unsupervised methods for extracting themes from public discourse, such as topic modeling, often reveal overarching patterns that might not capture specific nuances. Consequently, a significant portion of research into social media discourse still depends on labor-intensive manual coding techniques and a human-in-the-loop approach, which are both time-consuming and costly. In this work, we study the problem of discovering arguments associated with a specific theme. We propose a generic LLMs-in-the-Loop strategy that leverages the advanced capabilities of Large Language Models (LLMs) to extract latent arguments from social media messaging. To demonstrate our approach, we apply our framework to contentious topics. We use two publicly available datasets: (1) the climate campaigns dataset of 14k Facebook ads with 25 themes and (2) the COVID-19 vaccine campaigns dataset of 9k Facebook ads with 14 themes. Additionally, we design a downstream task as stance prediction by leveraging talking points in climate debates. Furthermore, we analyze demographic targeting and the adaptation of messaging based on real-world events. | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# SST:長距離時系列予測のためのマルチスケールハイブリッドマンバ変圧器エキスパート
SST: Multi-Scale Hybrid Mamba-Transformer Experts for Long-Short Range Time Series Forecasting ( http://arxiv.org/abs/2404.14757v2 ) ライセンス: Link先を確認 | Xiongxiao Xu, Canyu Chen, Yueqing Liang, Baixiang Huang, Guangji Bai, Liang Zhao, Kai Shu, | (参考訳) 時系列予測の大幅な進歩にもかかわらず、既存の予測者は、長距離時系列と短距離時系列の間の不均一性を見落とし、実用的なアプリケーションの性能低下につながった。
本研究では,異なる範囲に合わせた異なる目的の必要性を強調した。
時系列はグローバルなパターンと局所的な変動に分解でき、長大・短大の時系列では別々に扱うべきであると指摘する。
目的を達成するため,マルチスケールのハイブリッド型Mamba-Transformer Expert Model State Space Transformer (SST)を提案する。
SSTは、Mambaをエキスパートとして、粗粒長範囲時系列におけるグローバルパターンを抽出し、別のエキスパートであるLocal Window Transformer(LWT)は、細粒短範囲時系列における局所的な変動を捉えることに重点を置いている。
入力に依存したメカニズムにより、状態空間モデル(SSM)ベースのMambaは、長期パターンを選択的に保持し、ゆらぎをフィルタリングすることができる。
グローバルパターンと局所的な変動を適応的に統合するために、ロングショートルータは2人の専門家の貢献を動的に調整する。
SSTは、線形に$O(L)$を時系列長$L$でスケーリングすることで、優れたパフォーマンスを達成する。
総合的な実験により、SSTは低メモリフットプリントと計算コストを維持しながら、長期間の時系列予測においてSOTA結果を達成することができることを示した。
SSTのコードはhttps://github.com/XiongxiaoXu/SSTで公開されている。
Despite significant progress in time series forecasting, existing forecasters often overlook the heterogeneity between long-range and short-range time series, leading to performance degradation in practical applications. In this work, we highlight the need of distinct objectives tailored to different ranges. We point out that time series can be decomposed into global patterns and local variations, which should be addressed separately in long- and short-range time series. To meet the objectives, we propose a multi-scale hybrid Mamba-Transformer experts model State Space Transformer (SST). SST leverages Mamba as an expert to extract global patterns in coarse-grained long-range time series, and Local Window Transformer (LWT), the other expert to focus on capturing local variations in fine-grained short-range time series. With an input-dependent mechanism, State Space Model (SSM)-based Mamba is able to selectively retain long-term patterns and filter out fluctuations, while LWT employs a local window to enhance locality-awareness capability, thus effectively capturing local variations. To adaptively integrate the global patterns and local variations, a long-short router dynamically adjusts contributions of the two experts. SST achieves superior performance with scaling linearly $O(L)$ on time series length $L$. The comprehensive experiments demonstrate the SST can achieve SOTA results in long-short range time series forecasting while maintaining low memory footprint and computational cost. The code of SST is available at https://github.com/XiongxiaoXu/SST. | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# Quater-GCN: オリエンテーションと半教師ありトレーニングによる3次元人文推定の強化
Quater-GCN: Enhancing 3D Human Pose Estimation with Orientation and Semi-supervised Training ( http://arxiv.org/abs/2404.19279v2 ) ライセンス: Link先を確認 | Xingyu Song, Zhan Li, Shi Chen, Kazuyuki Demachi, | (参考訳) 3次元人間のポーズ推定は、画像やビデオから人間の関節の位置を予測し、3次元空間で人間の骨格を再構築するコンピュータビジョンにおいて重要なタスクである。
この技術は、アニメーション、セキュリティ、人間とコンピュータのインタラクション、自動車の安全性など、様々な分野において中心的であり、技術進歩と人間の幸福の向上の両方を促進する。
深層学習の出現は、人間の関節の空間的位置を予測するための時間情報を導入して、3次元ポーズ推定の性能を著しく向上させる。
しかし、従来の手法は、主に関節の空間座標に焦点をあて、連結骨の向きと回転を見渡すため、しばしば不足する。
これらの制約に対処するために、向きによるポーズ推定を強化するように調整された有向グラフ畳み込みネットワークであるQuater-GCN(Q-GCN)を導入する。
Q-GCNは、座標を通してノード関節間の空間的依存関係をキャプチャするだけでなく、2次元空間における骨の回転の動的コンテキストを統合することで、排他的に優れている。
このアプローチにより、人間のポーズをより洗練された表現が可能となり、3次元空間における各骨の向きを後退させ、単なる座標予測を超えて移動させる。
さらに,本モデルとラベルなしデータを活用した半教師付きトレーニング戦略を補完し,限定的な向き付け基底真理データの課題に対処する。
総合的な評価を通じて、Q-GCNは現在の最先端手法に対して優れた性能を示した。
3D human pose estimation is a vital task in computer vision, involving the prediction of human joint positions from images or videos to reconstruct a skeleton of a human in three-dimensional space. This technology is pivotal in various fields, including animation, security, human-computer interaction, and automotive safety, where it promotes both technological progress and enhanced human well-being. The advent of deep learning significantly advances the performance of 3D pose estimation by incorporating temporal information for predicting the spatial positions of human joints. However, traditional methods often fall short as they primarily focus on the spatial coordinates of joints and overlook the orientation and rotation of the connecting bones, which are crucial for a comprehensive understanding of human pose in 3D space. To address these limitations, we introduce Quater-GCN (Q-GCN), a directed graph convolutional network tailored to enhance pose estimation by orientation. Q-GCN excels by not only capturing the spatial dependencies among node joints through their coordinates but also integrating the dynamic context of bone rotations in 2D space. This approach enables a more sophisticated representation of human poses by also regressing the orientation of each bone in 3D space, moving beyond mere coordinate prediction. Furthermore, we complement our model with a semi-supervised training strategy that leverages unlabeled data, addressing the challenge of limited orientation ground truth data. Through comprehensive evaluations, Q-GCN has demonstrated outstanding performance against current state-of-the-art methods. | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# 高分解能バードアイビューマップ構築のためのBEVレストアを用いた分岐訓練コストの対応
Addressing Diverging Training Costs using BEVRestore for High-resolution Bird's Eye View Map Construction ( http://arxiv.org/abs/2405.01016v4 ) ライセンス: Link先を確認 | Minsu Kim, Giseop Kim, Sunwook Choi, | (参考訳) 地図構築のためのBird's Eye View(BEV)融合の最近の進歩は、都市環境の顕著なマッピングを示している。
しかし、その深くて粗いアーキテクチャは、かなりの量のバックプロパゲーションメモリとコンピューティングのレイテンシを引き起こす。
結果として、この問題は高解像度(HR)のBEVマップの構築において必然的にボトルネックとなる。
この問題の影響で、既存のほとんどの手法は低解像度のBEVを採用し、道路車線や歩道などの都市景観の正確な位置を推定するのに苦労している。
衝突回避のような危険な動き計画につながるため、異なるトレーニングコストの問題が解決される必要がある。
本稿では,新しいBEVRestore機構でこの問題に対処する。
具体的には、各センサの特徴をLR BEV空間にエンコードし、HR空間に復元し、メモリ効率の良いマップコンストラクタを構築する。
この目的のために,BEVの修復戦略を導入し,AliasingとBEV機能のブロックされたアーティファクトを復元し,ラベルの幅を狭める。
広範にわたる実験により,提案機構はプラグイン・アンド・プレイ・メモリ効率の高いパイプラインを提供し,広いBEV範囲のHRマップ構築を可能にした。
Recent advancements in Bird's Eye View (BEV) fusion for map construction have demonstrated remarkable mapping of urban environments. However, their deep and bulky architecture incurs substantial amounts of backpropagation memory and computing latency. Consequently, the problem poses an unavoidable bottleneck in constructing high-resolution (HR) BEV maps, as their large-sized features cause significant increases in costs including GPU memory consumption and computing latency, named diverging training costs issue. Affected by the problem, most existing methods adopt low-resolution (LR) BEV and struggle to estimate the precise locations of urban scene components like road lanes, and sidewalks. As the imprecision leads to risky motion planning like collision avoidance, the diverging training costs issue has to be resolved. In this paper, we address the issue with our novel BEVRestore mechanism. Specifically, our proposed model encodes the features of each sensor to LR BEV space and restores them to HR space to establish a memory-efficient map constructor. To this end, we introduce the BEV restoration strategy, which restores aliasing, and blocky artifacts of the up-scaled BEV features, and narrows down the width of the labels. Our extensive experiments show that the proposed mechanism provides a plug-and-play, memory-efficient pipeline, enabling an HR map construction with a broad BEV scope. | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# 仮想アナログ音響効果モデリングのための状態ベースニューラルネットワークの比較検討
Comparative Study of States-based Neural Networks for Virtual Analog Audio Effects Modeling ( http://arxiv.org/abs/2405.04124v4 ) ライセンス: Link先を確認 | Riccardo Simionato, Stefano Fasciani, | (参考訳) アナログ電子回路は、音楽機器の重要なカテゴリの中核にある。
電子部品の非線形特性は、アナログ音楽機器に独特の音色と音質を与え、非常に好ましい。
人工ニューラルネットワークは、アナログオーディオ効果回路、特にリカレントネットワークのエミュレーションで急速に人気を集めている。
ニューラルネットワークは歪み回路を正確にモデル化することに成功したが、パラメータ条件付けと低レイテンシ応答を考慮したアーキテクチャの改善が必要である。
本稿では,最近の機械学習の仮想アナログモデリングへの応用について検討する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short Term Memoryネットワークと比較する。
これらはシーケンス・ツー・シーケンス・モデリングのタスクにおいて有望な能力を示し、信号履歴符号化の顕著な改善を示している。
我々の比較研究は、様々な音響効果を持つブラックボックスニューラルモデリング技術を用いている。
音響信号のエネルギー包絡、周波数内容、過渡性を正確に再現するモデルの能力を評価するために、複数の指標を用いて性能と限界を評価する。
制御パラメータを組み込むには、Feature wise Linear Modulation法を用いる。
長期記憶ネットワークは歪みや等化器のエミュレートにおいて精度が向上し、ステートスペースモデルはエンコーダデコーダ構造に統合された場合の長期記憶ネットワークに続き、飽和や圧縮のエミュレーションにおいて他より優れる。
長期間の変動特性を考慮すると、状態空間モデルは最大の精度を示す。
長期記憶(Long Short Term Memory)、特にリニア・リカレント・ユニット・ネットワーク(Linear Recurrent Unit Network)は、オーディオ・アーティファクトを導入する傾向がある。
Analog electronic circuits are at the core of an important category of musical devices. The nonlinear features of their electronic components give analog musical devices a distinctive timbre and sound quality, making them highly desirable. Artificial neural networks have rapidly gained popularity for the emulation of analog audio effects circuits, particularly recurrent networks. While neural approaches have been successful in accurately modeling distortion circuits, they require architectural improvements that account for parameter conditioning and low latency response. In this article, we explore the application of recent machine learning advancements for virtual analog modeling. We compare State Space models and Linear Recurrent Units against the more common Long Short Term Memory networks. These have shown promising ability in sequence to sequence modeling tasks, showing a notable improvement in signal history encoding. Our comparative study uses these black box neural modeling techniques with a variety of audio effects. We evaluate the performance and limitations using multiple metrics aiming to assess the models' ability to accurately replicate energy envelopes, frequency contents, and transients in the audio signal. To incorporate control parameters we employ the Feature wise Linear Modulation method. Long Short Term Memory networks exhibit better accuracy in emulating distortions and equalizers, while the State Space model, followed by Long Short Term Memory networks when integrated in an encoder decoder structure, outperforms others in emulating saturation and compression. When considering long time variant characteristics, the State Space model demonstrates the greatest accuracy. The Long Short Term Memory and, in particular, Linear Recurrent Unit networks present more tendency to introduce audio artifacts. | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# 最適量子進化の構成:比較研究
Constructions of Optimal-Speed Quantum Evolutions: A Comparative Study ( http://arxiv.org/abs/2405.08144v2 ) ライセンス: Link先を確認 | Leonardo Rossetti, Carlo Cafaro, Newshaw Bahreyni, | (参考訳) ブロッホ球面上の最適速度量子ハミルトニアン進化の2つの異なる構成の比較解析を行う。
最初のアプローチ(Mostafazadeh のアプローチ)では、進化はトレースレス定常エルミート・ハミルトニアンによって特定され、エネルギーの不確実性を最大化することで2つの任意の量子ビット状態の間に起こる。
第二のアプローチ(ベンダーのアプローチ)では、進化は無跡ではなく、北極上の初期量子ビット状態と任意の最終量子ビット状態の間に生じる定常エルミートハミルトニアンによって特徴づけられる。
この第2のアプローチでは、ハミルトンの最小固有値と最大値の差が固定されているという制約の下での進化時間の最小化によって進化が生じる。
どちらのアプローチも、最適ハミルトニアン、最適ユニタリ進化作用素、そして最後に最適な磁場構成を明示的に計算する。
さらに、モスタファザデーとベンダーのアプローチは、モスタファザデーのアプローチを非ゼロのトレースを持つハミルトンに拡張し、同時にブロッホ球の北極に置かれる初期量子状態に焦点をあてるときに等価であることを示す。
最後に、両シナリオにおいて、最適ユニタリ進化作用素は、初期および最終量子ビット状態に対応する単位ブロッホベクトルと直交する軸の回転であることを示す。
We present a comparative analysis of two different constructions of optimal-speed quantum Hamiltonian evolutions on the Bloch sphere. In the first approach (Mostafazadeh's approach), the evolution is specified by a traceless stationary Hermitian Hamiltonian and occurs between two arbitrary qubit states by maximizing the energy uncertainty. In the second approach (Bender's approach), instead, the evolution is characterized by a stationary Hermitian Hamiltonian which is not traceless and occurs between an initial qubit state on the north pole and an arbitrary final qubit state. In this second approach, the evolution occurs by minimizing the evolution time subject to the constraint that the difference between the largest and the smallest eigenvalues of the Hamiltonian is kept fixed. For both approaches we calculate explicitly the optimal Hamiltonian, the optimal unitary evolution operator and, finally, the optimal magnetic field configuration. Furthermore, we show in a clear way that Mostafazadeh's and Bender's approaches are equivalent when we extend Mostafazadeh's approach to Hamiltonians with nonzero trace and, at the same time, focus on an initial quantum state placed on the north pole of the Bloch sphere. Finally, we demonstrate in both scenarios that the optimal unitary evolution operator is a rotation about an axis that is orthogonal to the unit Bloch vectors that correspond to the initial and final qubit states. | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# SiNGR : サイン付き正規化ジオデシックトランスフォーメーションレグレッションによる脳腫瘍分離
SiNGR: Brain Tumor Segmentation via Signed Normalized Geodesic Transform Regression ( http://arxiv.org/abs/2405.16813v4 ) ライセンス: Link先を確認 | Trung Dang, Huy Hoang Nguyen, Aleksei Tiulpin, | (参考訳) 脳腫瘍のセグメンテーションにおける主要な課題の1つは、腫瘍の境界に近いボクセルの不確実性から生じる。
しかし、地上の真理分割マスクを生成する従来のプロセスでは、そのような不確かさを適切に扱えない。
0 と 1 の「硬いラベル」は、脳画像のセグメンテーションに関する以前の研究の大多数に概念的に影響を与えた。
その結果、腫瘍の分節は、しばしばボクセル分類によって解決される。
この研究では、この問題をボクセルレベルの回帰とみなし、基底真理は任意のピクセルから腫瘍の境界への確実なマッピングを表す。
我々は,脳腫瘍近傍の不確実性を捉えるために,サイン付き測地線変換に基づく新しい基底真理ラベル変換を提案する。
このアイデアをFocalライクな回帰L1-lossと組み合わせ、その難易度に応じてボクセルを適切に重み付けすることで、高次元出力空間での効果的な回帰学習を可能にする。
提案手法の構成要素を検証し, 各種の最先端セグメンテーションモデルと比較し, アーキテクチャに依存しないことを示す。
提案手法のコードは公開されている(\url{https://github.com/Oulu-IMEDS/SiNGR/})。
One of the primary challenges in brain tumor segmentation arises from the uncertainty of voxels close to tumor boundaries. However, the conventional process of generating ground truth segmentation masks fails to treat such uncertainties properly. Those "hard labels" with 0s and 1s conceptually influenced the majority of prior studies on brain image segmentation. As a result, tumor segmentation is often solved through voxel classification. In this work, we instead view this problem as a voxel-level regression, where the ground truth represents a certainty mapping from any pixel to the border of the tumor. We propose a novel ground truth label transformation, which is based on a signed geodesic transform, to capture the uncertainty in brain tumors' vicinity. We combine this idea with a Focal-like regression L1-loss that enables effective regression learning in high-dimensional output space by appropriately weighting voxels according to their difficulty. We thoroughly conduct an experimental evaluation to validate the components of our proposed method, compare it to a diverse array of state-of-the-art segmentation models, and show that it is architecture-agnostic. The code of our method is made publicly available (\url{https://github.com/Oulu-IMEDS/SiNGR/}). | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# ヒューマン・アウェア・リーフ・リビジョン(Human-Aware Belief Revision) : ヒューマンモデルの説明誘導リビジョンのための認知的インスパイアされたフレームワーク
Human-Aware Belief Revision: A Cognitively Inspired Framework for Explanation-Guided Revision of Human Models ( http://arxiv.org/abs/2405.19238v2 ) ライセンス: Link先を確認 | Stylianos Loukas Vasileiou, William Yeoh, | (参考訳) 伝統的な信念修正の枠組みは、しばしば、既存の信念への最小限の変更を提唱するミニマリズムの原則に依存している。
しかし、人間の認知の研究は、人々が本質的に不整合の説明を求め、信念を改定する際の最小限の変化よりも説明的理解を求めることを示唆している。
伝統的なフレームワークはしばしばこれらの認知パターンを考慮せず、代わりに実際の人間の推論を反映しない形式的な原則に依存している。
このギャップに対処するために、人間の信念のリビジョンダイナミクスをモデル化するための認知にインスパイアされたフレームワークであるHuman-Aware Belief Revisionを導入する。
最後に,実世界のシナリオ下での枠組みを実証的に評価するために,2つの人体実験を行った。
我々の発見は、我々の仮説を支持し、不整合を解決する際に人々が採用する戦略に関する洞察を与え、より効果的な人間対応AIシステムを開発するためのガイダンスを提供する。
Traditional belief revision frameworks often rely on the principle of minimalism, which advocates minimal changes to existing beliefs. However, research in human cognition suggests that people are inherently driven to seek explanations for inconsistencies, thereby striving for explanatory understanding rather than minimal changes when revising beliefs. Traditional frameworks often fail to account for these cognitive patterns, relying instead on formal principles that may not reflect actual human reasoning. To address this gap, we introduce Human-Aware Belief Revision, a cognitively-inspired framework for modeling human belief revision dynamics, where given a human model and an explanation for an explanandum, revises the model in a non-minimal way that aligns with human cognition. Finally, we conduct two human-subject studies to empirically evaluate our framework under real-world scenarios. Our findings support our hypotheses and provide insights into the strategies people employ when resolving inconsistencies, offering some guidance for developing more effective human-aware AI systems. | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# DeMamba: 数百万台のGenVideoベンチマークでAIが生成したビデオ検出
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark ( http://arxiv.org/abs/2405.19707v3 ) ライセンス: Link先を確認 | Haoxing Chen, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Yaohui Li, Jun Lan, Huijia Zhu, Jianfu Zhang, Weiqiang Wang, Huaxiong Li, | (参考訳) 近年,映像生成技術は急速に進歩している。
ソーシャルメディアプラットフォームでの動画コンテンツの人気を考えると、これらのモデルは偽情報の拡散に対する懸念を強めている。
したがって、偽のAI生成ビデオを区別し、偽の情報による潜在的な害を軽減できる検出器の需要が高まっている。
しかし、最も先進的なビデオジェネレータからの大規模なデータセットの欠如は、そのような検出器の開発に障壁をもたらす。
このギャップに対処するために、最初のAI生成ビデオ検出データセットであるGenVideoを紹介する。
1)AIが生成した100万以上の実ビデオを含む大量のビデオ、(2)ビデオカテゴリと生成テクニックの幅広い範囲をカバーする、生成されたコンテンツと方法論の豊富な多様性。
そこで,本研究では,実世界のシナリオに合わせた2つの評価手法を提案する。クロスジェネレータビデオ分類タスクは,ジェネレータ上での訓練された検出器の一般化性を評価する。
さらに,デテール・マンバ (DeMamba, DeMamba) というプラグイン・アンド・プレイ・モジュールを導入し,時間次元と空間次元の矛盾を解析することにより,AI生成した映像を識別することで検出器の強化を図った。
我々の大規模な実験は、既存の検出器と比較して、DeMambaのGenVideoにおける優れた一般化性とロバスト性を示している。
我々は、GenVideoデータセットとDeMambaモジュールがAI生成ビデオ検出の分野を大幅に前進させると考えている。
コードとデータセットは \url{https://github.com/chenhaoxing/DeMamba} でアビリザブルになります。
Recently, video generation techniques have advanced rapidly. Given the popularity of video content on social media platforms, these models intensify concerns about the spread of fake information. Therefore, there is a growing demand for detectors capable of distinguishing between fake AI-generated videos and mitigating the potential harm caused by fake information. However, the lack of large-scale datasets from the most advanced video generators poses a barrier to the development of such detectors. To address this gap, we introduce the first AI-generated video detection dataset, GenVideo. It features the following characteristics: (1) a large volume of videos, including over one million AI-generated and real videos collected; (2) a rich diversity of generated content and methodologies, covering a broad spectrum of video categories and generation techniques. We conducted extensive studies of the dataset and proposed two evaluation methods tailored for real-world-like scenarios to assess the detectors' performance: the cross-generator video classification task assesses the generalizability of trained detectors on generators; the degraded video classification task evaluates the robustness of detectors to handle videos that have degraded in quality during dissemination. Moreover, we introduced a plug-and-play module, named Detail Mamba (DeMamba), designed to enhance the detectors by identifying AI-generated videos through the analysis of inconsistencies in temporal and spatial dimensions. Our extensive experiments demonstrate DeMamba's superior generalizability and robustness on GenVideo compared to existing detectors. We believe that the GenVideo dataset and the DeMamba module will significantly advance the field of AI-generated video detection. Our code and dataset will be aviliable at \url{https://github.com/chenhaoxing/DeMamba}. | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# 分子ナノマグネットを用いた量子情報処理入門
Quantum Information Processing with Molecular Nanomagnets: an introduction ( http://arxiv.org/abs/2405.21000v2 ) ライセンス: Link先を確認 | Alessandro Chiesa, Emilio Macaluso, Stefano Carretta, | (参考訳) 古典的デバイス上での難解な多くの問題は、量子力学的法則、すなわち量子情報処理を利用するアルゴリズムによって解決できる。
その結果、現在では様々な分野からの取り組みが、量子デバイスの実現に向けられている。
本稿では、分子ナノマグネットとして知られる分子スピンクラスターで表される、その実装に期待できるセットアップに焦点を当てた量子情報処理の紹介を行う。
量子アルゴリズムを理解し設計するための基本的なツールを紹介し、分子スピンアーキテクチャ上での実際の実現を常に言及する。
次に、このクラスのシステムにおいて最も重要なノイズ源を調べ、その最も特徴的な特徴の1つ、すなわち、情報を符号化し、量子誤り訂正符号の適切な設計を通してエラーから自己修正するために利用可能な多くの状態(2つ以上)を利用する可能性について調べる。
最後に、分子スピンquditハードウェア上で提案および実装された量子アルゴリズムの例を示す。
Many problems intractable on classical devices could be solved by algorithms explicitly based on quantum mechanical laws, i.e. exploiting quantum information processing. As a result, increasing efforts from different fields are nowadays directed to the actual realization of quantum devices. Here we provide an introduction to Quantum Information Processing, focusing on a promising setup for its implementation, represented by molecular spin clusters known as Molecular Nanomagnets. We introduce the basic tools to understand and design quantum algorithms, always referring to their actual realization on a molecular spin architecture. We then examine the most important sources of noise in this class of systems and then one of their most peculiar features, i.e. the possibility to exploit many (more than two) available states to encode information and to self-correct it from errors via proper design of quantum error correction codes. Finally, we present some examples of quantum algorithms proposed and implemented on a molecular spin qudit hardware. | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# 優れたモデリングソフトウェアプラクティス
Good Modelling Software Practices ( http://arxiv.org/abs/2405.21051v2 ) ライセンス: Link先を確認 | Carsten Lemmen, Philipp Sebastian Sommer, | (参考訳) 社会環境科学において、モデルはしばしばこれらの複雑なシステムの振る舞いを表現、理解、予測するためのツールとして使用される。
モデリングチェーンとともに、Good Modelling Practicesは、モデルが透明で、その結果が複製可能であることを確実にする進化を遂げています。
このようなモデルがソフトウェアで表現されるたびに、グッド・モデリングは、トラクターブルな開発ワークフロー、良いコード、協調開発とガバナンス、継続的インテグレーションとデプロイメントのようなグッド・ソフトウェア・プラクティスに出会い、著作権の帰属、知的財産の承認、ソフトウェア・ペーパーの発行、アーカイブといったグッド・サイエンティフィック・プラクティスと出会う。
既存の社会環境モデルソフトウェアでは、これらのプラクティスは後になってのみ考慮すべきアドオンと見なされてきました。
ここでは、モデルライフサイクルの実装の初期段階において、単純で簡単なプラクティスのリストに従う習慣について論じます。
我々は,グッド・モデリング・プラクティスを支援するために,チェリーピックとハンズオンの実践を文脈的に検討し,その適用例を,バイブル・ノース海水産社会生態システムモデルの例に示す。
Frequently in socio-environmental sciences, models are used as tools to represent, understand, project and predict the behaviour of these complex systems. Along the modelling chain, Good Modelling Practices have been evolving that ensure -- amongst others -- that models are transparent and their results replicable. Whenever such models are represented in software, Good Modelling meet Good Software Practices, such as a tractable development workflow, good code, collaborative development and governance, continuous integration and deployment; and they meet Good Scientific Practices, such as attribution of copyrights and acknowledgement of intellectual property, publication of a software paper and archiving. Too often in existing socio-environmental model software, these practices have been regarded as an add-on to be considered at a later stage only; modellers have shied away from publishing their model as open source out of fear that having to add good practices is too demanding. We here argue for making a habit of following a list of simple and not so simple practices early on in the implementation of the model life cycle. We contextualise cherry-picked and hands-on practices for supporting Good Modelling Practice, and we demonstrate their application in the example context of the Viable North Sea fisheries socio-ecological systems model. | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# エッジコンピューティングにおける無線LLM推論のための適応層分割:モデルに基づく強化学習アプローチ
Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach ( http://arxiv.org/abs/2406.02616v4 ) ライセンス: Link先を確認 | Yuxuan Chen, Rongpeng Li, Xiaoxue Yu, Zhifeng Zhao, Honggang Zhang, | (参考訳) エッジコンピューティング環境における大規模言語モデル(LLM)のデプロイの最適化は、プライバシと計算効率の向上に不可欠である。
本研究は,エッジコンピューティングにおける効率的な無線LLM推論に向けて,主要なオープンソースLLMにおける分割点の影響を包括的に分析する。
そこで本研究では,モデルベース強化学習(MBRL)からインスピレーションを得て,エッジとユーザ機器(UE)間の最適分割点を決定するフレームワークを提案する。
報酬代理モデルを導入することで、頻繁な性能評価の計算コストを大幅に削減できる。
大規模シミュレーションにより, この手法は, 異なるネットワーク条件下での推論性能と計算負荷のバランスを効果的に保ち, 分散環境におけるLLM配置の堅牢なソリューションを提供することを示した。
Optimizing the deployment of large language models (LLMs) in edge computing environments is critical for enhancing privacy and computational efficiency. Toward efficient wireless LLM inference in edge computing, this study comprehensively analyzes the impact of different splitting points in mainstream open-source LLMs. On this basis, this study introduces a framework taking inspiration from model-based reinforcement learning (MBRL) to determine the optimal splitting point across the edge and user equipment (UE). By incorporating a reward surrogate model, our approach significantly reduces the computational cost of frequent performance evaluations. Extensive simulations demonstrate that this method effectively balances inference performance and computational load under varying network conditions, providing a robust solution for LLM deployment in decentralized settings. | 翻訳日:2024-08-23 19:15:36 公開日:2024-08-22 |
# 医用画像の分離・生成に強力なバックボーンを作るU-KAN
U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation ( http://arxiv.org/abs/2406.02918v3 ) ライセンス: Link先を確認 | Chenxin Li, Xinyu Liu, Wuyang Li, Cheng Wang, Hengyu Liu, Yifan Liu, Zhen Chen, Yixuan Yuan, | (参考訳) U-Netは画像分割や拡散確率モデルといった様々な視覚的応用の基盤となっている。
変圧器やMLPを導入して多くの革新的な設計や改良がなされてきたが、ネットワークは依然として線形モデリングパターンと不十分な解釈可能性に制限されている。
これらの課題に対処するため、我々の直感は、コルモゴロフ・アルノルドネットワーク(KAN)の精度と解釈可能性の観点から印象的な結果に触発され、コルモゴロフ・アンノルド表現定理から導かれる非線形可学習活性化関数のスタックを介してニューラルネットワーク学習を再構築した。
具体的には,視覚タスクのバックボーン改善におけるkansの未解決の可能性について検討する。
トークン化中間表現であるU-KAN上に専用kan層を統合することにより,確立したU-Netパイプラインを検証,修正,再設計する。
厳密な医用画像セグメンテーションのベンチマークでは、計算コストが低い場合でも高い精度でU-KANの優位性を検証している。
さらに、拡散モデルにおける代替U-Netノイズ予測器としてのU-KANの可能性を探り、タスク指向モデルアーキテクチャの生成にその適用性を実証した。
これらの取り組みは貴重な洞察を示し、U-KANでは医用画像のセグメンテーションと生成のための強力なバックボーンを作ることができるという可能性に光を当てている。
プロジェクトページ:\url{https://yes-u-kan.github.io/}。
U-Net has become a cornerstone in various visual applications such as image segmentation and diffusion probability models. While numerous innovative designs and improvements have been introduced by incorporating transformers or MLPs, the networks are still limited to linearly modeling patterns as well as the deficient interpretability. To address these challenges, our intuition is inspired by the impressive results of the Kolmogorov-Arnold Networks (KANs) in terms of accuracy and interpretability, which reshape the neural network learning via the stack of non-linear learnable activation functions derived from the Kolmogorov-Anold representation theorem. Specifically, in this paper, we explore the untapped potential of KANs in improving backbones for vision tasks. We investigate, modify and re-design the established U-Net pipeline by integrating the dedicated KAN layers on the tokenized intermediate representation, termed U-KAN. Rigorous medical image segmentation benchmarks verify the superiority of U-KAN by higher accuracy even with less computation cost. We further delved into the potential of U-KAN as an alternative U-Net noise predictor in diffusion models, demonstrating its applicability in generating task-oriented model architectures. These endeavours unveil valuable insights and sheds light on the prospect that with U-KAN, you can make strong backbone for medical image segmentation and generation. Project page:\url{https://yes-u-kan.github.io/}. | 翻訳日:2024-08-23 19:05:52 公開日:2024-08-22 |
# Talos: グラフのグローバルなホモフィリエに基づくGNNモデルのより効果的で効率的な敵防御
Talos: A More Effective and Efficient Adversarial Defense for GNN Models Based on the Global Homophily of Graphs ( http://arxiv.org/abs/2406.03833v2 ) ライセンス: Link先を確認 | Duanyu Li, Huijun Wu, Min Xie, Xugang Wu, Zhenwei Wu, Wenzhe Zhang, | (参考訳) グラフニューラルネットワーク(GNN)モデルは、グラフ関連データ分析を含む多くのタスクにおいて重要な役割を果たす。
他のディープラーニングモデルと同様、その効果にもかかわらず、GNNは敵の攻撃を受けやすい。
グラフデータの小さな摂動でさえ、モデルの予測にかなりの変化をもたらす可能性がある。
既存の研究では、GNNの様々な敵防衛技術について検討されているが、現実のグラフデータに対する敵の攻撃に対する防御の課題は未解決のままである。
一方、グラフの浄化と前処理に依存した手法は、局所的なグラフ情報を過度に強調し、準最適防御結果をもたらす傾向にある。
一方、グラフ構造学習に根ざしたアプローチは、大きな時間的オーバーヘッドを伴い、大規模グラフでは現実的ではない。
本稿では,グラフの局所的ホモフィリエを防御としてではなく,グローバル性を高める,Talosという新しい防衛手法を提案する。
実験の結果、提案手法は最先端の防御手法よりも優れており、計算オーバーヘッドは少ないことがわかった。
Graph neural network (GNN) models play a pivotal role in numerous tasks involving graph-related data analysis. Despite their efficacy, similar to other deep learning models, GNNs are susceptible to adversarial attacks. Even minor perturbations in graph data can induce substantial alterations in model predictions. While existing research has explored various adversarial defense techniques for GNNs, the challenge of defending against adversarial attacks on real-world scale graph data remains largely unresolved. On one hand, methods reliant on graph purification and preprocessing tend to excessively emphasize local graph information, leading to sub-optimal defensive outcomes. On the other hand, approaches rooted in graph structure learning entail significant time overheads, rendering them impractical for large-scale graphs. In this paper, we propose a new defense method named Talos, which enhances the global, rather than local, homophily of graphs as a defense. Experiments show that the proposed approach notably outperforms state-of-the-art defense approaches, while imposing little computational overhead. | 翻訳日:2024-08-23 19:05:52 公開日:2024-08-22 |
# 量子摂動理論を用いた楕円型ブラックホール溶液中の臨界成分のベイズ推定のためのニューラルネットワーク支援メトロポリス・ハスティング
Neural Networks Assisted Metropolis-Hastings for Bayesian Estimation of Critical Exponent on Elliptic Black Hole Solution in 4D Using Quantum Perturbation Theory ( http://arxiv.org/abs/2406.04310v3 ) ライセンス: Link先を確認 | Armin Hatefi, Ehsan Hatefi, Roberto J. Lopez-Sastre, | (参考訳) 臨界重力崩壊は、チョプティック臨界指数である$\gamma$を特徴とする連続自己相似解を生成することはよく知られている。
数値測定誤差を考慮した線形摂動方程式の領域における解について検討する。
具体的には、楕円型$\text{SL}(2,\mathbb{R})$変換の4次元アインシュタイン-アキション-ディラトン系の量子摂動論を研究する。
本研究では,量子摂動理論に基づく新しいニューラルネットワーク支援メトロポリス・ハスティングスアルゴリズムを開発し,ベイズフレームワークにおける臨界指数の分布を求める。
従来の手法とは異なり、この新しい確率論的手法は利用可能な決定論的解を識別し、数値的な測定誤差によって生じる可能性のある物理的に区別可能な臨界指数の範囲を探索する。
It is well-known that the critical gravitational collapse produces continuous self-similar solutions characterized by the Choptuik critical exponent, $\gamma$. We examine the solutions in the domains of the linear perturbation equations, considering the numerical measurement errors. Specifically, we study quantum perturbation theory for the four-dimensional Einstein-axion-dilaton system of the elliptic class of $\text{SL}(2,\mathbb{R})$ transformations. We develop a novel artificial neural network-assisted Metropolis-Hastings algorithm based on quantum perturbation theory to find the distribution of the critical exponent in a Bayesian framework. Unlike existing methods, this new probabilistic approach identifies the available deterministic solution and explores the range of physically distinguishable critical exponents that may arise due to numerical measurement errors. | 翻訳日:2024-08-23 19:05:52 公開日:2024-08-22 |
# SUBLLM: LLMのためのToken Sequence Subsamplingを用いた新しい効率的なアーキテクチャ
SUBLLM: A Novel Efficient Architecture with Token Sequence Subsampling for LLM ( http://arxiv.org/abs/2406.06571v4 ) ライセンス: Link先を確認 | Quandong Wang, Yuxuan Yuan, Xiaoyu Yang, Ruike Zhang, Kang Zhao, Wei Liu, Jian Luan, Daniel Povey, Bin Wang, | (参考訳) 大規模言語モデル(LLM)は様々な分野で大きな成功を収めてきたが、トレーニングと推論の効率性は依然として大きな課題である。
本稿では,Subsampling-Upsampling-Bypass Large Language Modelの略で,Subsampling, Upsampling, Bypassモジュールを組み込んでコアデコーダのみのフレームワークを拡張する革新的なアーキテクチャであるSUBLLMを提案する。
サブサンプリングモジュールはシーケンスを短縮し、アップサンプリングモジュールはシーケンスの長さを復元し、バイパスモジュールは収束を高める。
LLaMAと比較して、提案されたSUBLLMは、トレーニング速度と推論速度、メモリ使用量の両方で大幅に向上し、競合する数ショットのパフォーマンスを維持している。
トレーニング中、SUBLLMはスピードを26%向上し、GPU毎にメモリを10GB削減する。
推論では、スピードを最大37%向上し、1GPUあたりのメモリを1GB削減する。
トレーニングと推論のスピードは、コンテキストウィンドウが8192に拡張された場合、それぞれ34%と52%向上できる。
私たちのコードはhttps://github.com/XiaoMi/subllm.comから入手可能です。
While Large Language Models (LLMs) have achieved remarkable success in various fields, the efficiency of training and inference remains a major challenge. To address this issue, we propose SUBLLM, short for Subsampling-Upsampling-Bypass Large Language Model, an innovative architecture that extends the core decoder-only framework by incorporating subsampling, upsampling, and bypass modules. The subsampling modules are responsible for shortening the sequence, while the upsampling modules restore the sequence length, and the bypass modules enhance convergence. In comparison to LLaMA, the proposed SUBLLM exhibits significant enhancements in both training and inference speeds as well as memory usage, while maintaining competitive few-shot performance. During training, SUBLLM increases speeds by 26% and cuts memory by 10GB per GPU. In inference, it boosts speeds by up to 37% and reduces memory by 1GB per GPU. The training and inference speeds can be enhanced by 34% and 52% respectively when the context window is expanded to 8192. Our code is available at https://github.com/XiaoMi/subllm. | 翻訳日:2024-08-23 19:05:52 公開日:2024-08-22 |
# MolX: マルチモーダル拡張による分子学習のための大規模言語モデルの実現
MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension ( http://arxiv.org/abs/2406.06777v4 ) ライセンス: Link先を確認 | Khiem Le, Zhichun Guo, Kaiwen Dong, Xiaobao Huang, Bozhao Nan, Roshni Iyer, Xiangliang Zhang, Olaf Wiest, Wei Wang, Nitesh V. Chawla, | (参考訳) タスクハンドリング能力の強い大規模言語モデル(LLM)は、自然言語理解を超えて、さまざまな分野に顕著な進歩を見せている。
しかしながら、化学領域におけるそれらの能力は、特にプロの分子関連タスクの解決において制限されている。
この課題は、共通テキスト表現(SMILES文字列)のみを用いた分子の解釈における固有の制限に起因する。
本研究では,マルチモーダルな外部モジュール,すなわちMollXを組み込むことにより,分子の理解能力を高めることを目的とする。
特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いてSMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出し,LLMに入力する。
さらに、その埋め込みドメイン知識を活用するために、手作りの分子指紋が組み込まれている。
次に、LLMが凍結されたモールXとLLMのテキスト入力空間のアライメントを確立するために、多種多様なタスクを含む多目的戦略を用いて、LLM全体を事前訓練する。
実験により, 本手法は, LLMを微調整することなく, 分子間翻訳からレトロシンセシスまでの4つの下流分子関連タスクにおいて, それぞれ0.53%, 0.82%のトレーニングパラメータしか導入せず, ベースラインよりも優れた性能を示した。
Large Language Models (LLMs) with their strong task-handling capabilities have shown remarkable advancements across a spectrum of fields, moving beyond natural language understanding. However, their proficiency within the chemistry domain remains restricted, especially in solving professional molecule-related tasks. This challenge is attributed to their inherent limitations in comprehending molecules using only common textual representations, i.e., SMILES strings. In this study, we seek to enhance the ability of LLMs to comprehend molecules by equipping them with a multi-modal external module, namely MolX. In particular, instead of directly using a SMILES string to represent a molecule, we utilize specific encoders to extract fine-grained features from both SMILES string and 2D molecular graph representations for feeding into an LLM. Moreover, a handcrafted molecular fingerprint is incorporated to leverage its embedded domain knowledge. Then, to establish an alignment between MolX and the LLM's textual input space, the whole model in which the LLM is frozen, is pre-trained with a versatile strategy including a diverse set of tasks. Experimental evaluations show that our proposed method outperforms baselines across 4 downstream molecule-related tasks ranging from molecule-to-text translation to retrosynthesis, with and without fine-tuning the LLM, while only introducing a small number of trainable parameters 0.53% and 0.82%, respectively. | 翻訳日:2024-08-23 19:05:52 公開日:2024-08-22 |
# QuickLLaMA: 大規模言語モデルのためのクエリ対応推論高速化
QuickLLaMA: Query-aware Inference Acceleration for Large Language Models ( http://arxiv.org/abs/2406.07528v2 ) ライセンス: Link先を確認 | Jingyao Li, Han Shi, Xin Jiang, Zhenguo Li, Hong Xu, Jiaya Jia, | (参考訳) 大きな言語モデル(LLM)の長期的文脈における理解と推論能力は、様々な分野の進歩に欠かせない。
しかし、セマンティクスを深く理解するために、シーケンス内の長距離依存関係をキャプチャすることはまだ難しい。
この問題に対処するために,人間の認識に類似した広範囲なシーケンスを処理するシステムであるLLM(Query-Aware Inference for LLMs, Q-LLM)を導入する。
与えられたクエリに関連するメモリデータにフォーカスすることで、Q-LLMは特定のウィンドウサイズ内で関連する情報を正確にキャプチャし、クエリに対する正確な回答を提供することができる。
余分なトレーニングは不要で、どんなLLMともシームレスに統合できます。
LLaMA3 (QuickLLaMA) を用いたQ-LLMでは、30秒以内にハリー・ポッターを読み、質問に正確に答えることができる。
広く知られているベンチマークでは、Q-LLMはLLaMA3の最先端と比較して7.17%改善し、Mistralでは3.26%改善した。
Needle-in-a-HaystackタスクとBABILongタスクでは、Q-LLMは現在のSOTAに対して7.0%と6.1%改善した。
私たちのコードはhttps://github.com/dvlab-research/Q-LLM.comで確認できます。
The capacity of Large Language Models (LLMs) to comprehend and reason over long contexts is pivotal for advancements in diverse fields. Yet, they still stuggle with capturing long-distance dependencies within sequences to deeply understand semantics. To address this issue, we introduce Query-aware Inference for LLMs (Q-LLM), a system designed to process extensive sequences akin to human cognition. By focusing on memory data relevant to a given query, Q-LLM can accurately capture pertinent information within a fixed window size and provide precise answers to queries. It doesn't require extra training and can be seamlessly integrated with any LLMs. Q-LLM using LLaMA3 (QuickLLaMA) can read Harry Potter within 30s and accurately answer the questions. On widely recognized benchmarks, Q-LLM improved by 7.17% compared to the current state-of-the-art on LLaMA3, and by 3.26% on Mistral on the $\infty$-bench. In the Needle-in-a-Haystack and BABILong task, Q-LLM improved upon the current SOTA by 7.0% and 6.1%. Our code can be found in https://github.com/dvlab-research/Q-LLM. | 翻訳日:2024-08-23 19:05:52 公開日:2024-08-22 |
# Coherence-based Label Generator and Cooperative Unfolding Networkによる実世界のデハジング
Real-world Image Dehazing with Coherence-based Label Generator and Cooperative Unfolding Network ( http://arxiv.org/abs/2406.07966v2 ) ライセンス: Link先を確認 | Chengyu Fang, Chunming He, Fengyang Xiao, Yulun Zhang, Longxiang Tang, Yuelin Zhang, Kai Li, Xiu Li, | (参考訳) 実世界のイメージデハジング(RID)は、実世界の環境におけるヘイズによる劣化を軽減することを目的としている。
この課題は、実際のヘイズ分布を正確にモデル化する複雑さと、ペア化された実世界のデータの不足のため、依然として困難である。
これらの課題に対処するために、我々はまず、大気散乱と画像シーンを協調的にモデル化し、物理的知識を深層ネットワークに効果的に統合して、ヘイズ汚染した詳細を復元する、協調展開ネットワークを導入する。
さらに、ネットワークトレーニングのための高品質な擬似ラベルを生成するために、Coherence-based Label Generatorと呼ばれる最初のRID指向反復型平均教師フレームワークを提案する。
具体的には、ネットワークトレーニング中に最適な擬似ラベルを格納するための最適なラベルプールを提供し、グローバルなコヒーレンスとローカルなコヒーレンスを利用して高品質な候補を選定し、ハイウェイトを優先してヘイズフリー領域を優先順位付けする。
提案手法の有効性を検証し,RIDタスクにおける最先端性能を実現する実験を行った。
コードは \url{https://github.com/cnyvfang/CORUN-Colabator} で入手できる。
Real-world Image Dehazing (RID) aims to alleviate haze-induced degradation in real-world settings. This task remains challenging due to the complexities in accurately modeling real haze distributions and the scarcity of paired real-world data. To address these challenges, we first introduce a cooperative unfolding network that jointly models atmospheric scattering and image scenes, effectively integrating physical knowledge into deep networks to restore haze-contaminated details. Additionally, we propose the first RID-oriented iterative mean-teacher framework, termed the Coherence-based Label Generator, to generate high-quality pseudo labels for network training. Specifically, we provide an optimal label pool to store the best pseudo-labels during network training, leveraging both global and local coherence to select high-quality candidates and assign weights to prioritize haze-free regions. We verify the effectiveness of our method, with experiments demonstrating that it achieves state-of-the-art performance on RID tasks. Code will be available at \url{https://github.com/cnyvfang/CORUN-Colabator}. | 翻訳日:2024-08-23 19:05:52 公開日:2024-08-22 |
# グラフ製品とグラフ粗大化によるグラフGNNのフレキシブルで等価なフレームワーク
A Flexible, Equivariant Framework for Subgraph GNNs via Graph Products and Graph Coarsening ( http://arxiv.org/abs/2406.09291v3 ) ライセンス: Link先を確認 | Guy Bar-Shalom, Yam Eitan, Fabrizio Frasca, Haggai Maron, | (参考訳) グラフグラフニューラルネットワーク(サブグラフGNN)は,グラフをサブグラフの集合として表現することで,メッセージパスGNNの表現性を向上する。
彼らはいくつかのタスクで素晴らしいパフォーマンスを示しているが、その複雑さはアプリケーションをより大きなグラフに制限している。
以前のアプローチでは、ランダムにまたは学習可能なサンプリングによって選択されたサブグラフのサブセットのみを処理することを提案していた。
しかし、それらは準最適部分グラフ選択を行うか、非常に小さなサブセットサイズにしか対応できず、必然的に性能劣化を引き起こす。
本稿では,これらの問題に対処する新しいSubgraph GNNフレームワークを提案する。
クラスタノードを誘導接続したスーパーノードにグラフ粗化関数を適用する。
粗いグラフと元のグラフの間の積は暗黙の構造を示し、それによってグラフは特定のノードの集合に関連付けられる。
このようなグラフ製品上で一般化されたメッセージパッシングを実行することで,効率的かつ強力なサブグラフGNNを効果的に実装する。
粗い関数を制御することで、任意の数のサブグラフを有意義に選択できるが、従来の手法とは対照的に、標準的な訓練手法と完全に互換性がある。
特に、結果のノード特徴テンソルが新しい、未探索な置換対称性を示すことが分かる。
我々は、この構造を活用し、関連する線形同変層を特徴付け、それらをサブグラフGNNアーキテクチャの層に組み込む。
複数のグラフ学習ベンチマークの大規模な実験により,提案手法は従来手法よりもはるかに柔軟であり,任意のサブグラフをシームレスに扱える一方で,ベースライン手法よりも一貫して優れていることが示された。
Subgraph Graph Neural Networks (Subgraph GNNs) enhance the expressivity of message-passing GNNs by representing graphs as sets of subgraphs. They have shown impressive performance on several tasks, but their complexity limits applications to larger graphs. Previous approaches suggested processing only subsets of subgraphs, selected either randomly or via learnable sampling. However, they make suboptimal subgraph selections or can only cope with very small subset sizes, inevitably incurring performance degradation. This paper introduces a new Subgraph GNNs framework to address these issues. We employ a graph coarsening function to cluster nodes into super-nodes with induced connectivity. The product between the coarsened and the original graph reveals an implicit structure whereby subgraphs are associated with specific sets of nodes. By running generalized message-passing on such graph product, our method effectively implements an efficient, yet powerful Subgraph GNN. Controlling the coarsening function enables meaningful selection of any number of subgraphs while, contrary to previous methods, being fully compatible with standard training techniques. Notably, we discover that the resulting node feature tensor exhibits new, unexplored permutation symmetries. We leverage this structure, characterize the associated linear equivariant layers and incorporate them into the layers of our Subgraph GNN architecture. Extensive experiments on multiple graph learning benchmarks demonstrate that our method is significantly more flexible than previous approaches, as it can seamlessly handle any number of subgraphs, while consistently outperforming baseline approaches. | 翻訳日:2024-08-23 19:05:52 公開日:2024-08-22 |
# 知覚不能なリズムバックドアアタック: 音声認識に検出不能な脆弱性を埋め込むためのリズムトランスフォーメーションの探索
Imperceptible Rhythm Backdoor Attacks: Exploring Rhythm Transformation for Embedding Undetectable Vulnerabilities on Speech Recognition ( http://arxiv.org/abs/2406.10932v2 ) ライセンス: Link先を確認 | Wenhan Yao, Jiangkun Yang, Yongqiang He, Jia Liu, Weiping Wen, | (参考訳) 音声認識は人間とコンピュータの相互作用において重要なスタートリングであり、近年ではディープラーニングモデルがこのタスクにおいて優れた成功を収めている。
しかし、モデルトレーニングとプライベートデータプロバイダが常に分離されている場合、ディープニューラルネットワーク(DNN)を異常にするセキュリティ脅威は研究されるべきである。
近年,音声認識システムにおいて,典型的なバックドア攻撃が研究されている。
既存のバックドア法はデータ中毒に基づいている。
攻撃者は、良質な音声スペクトログラムにいくつかの組み込まれた変更を加えたり、ピッチや音色などの音声成分を変更したりする。
その結果、ヒトの聴力や自動深度アルゴリズムにより、有毒なデータを検出できる。
本稿では,データ中毒のステルス性を改善するために,ランダムスペクトログラムリズム変換(Random Spectrogram Rhythm Transformation, RRT)と呼ばれる非ニューラルかつ高速なアルゴリズムを提案する。
アルゴリズムは4つのステップを組み合わせて、ステルス性の有毒な発話を生成する。
リズム成分変換の観点から、提案するトリガーは、メルスペクトルを伸縮または圧縮し、信号に戻す。
操作は、良好なステルス性のために、音色と内容は変わらない。
本研究は,話者検証と自動音声認識による有毒試料の盗聴テストを含む,2種類の音声認識タスクについて行った。
その結果,本手法は有効性とステルス性に優れていた。
リズムトリガーは低中毒率を必要とし、非常に高い攻撃成功率を得る。
Speech recognition is an essential start ring of human-computer interaction, and recently, deep learning models have achieved excellent success in this task. However, when the model training and private data provider are always separated, some security threats that make deep neural networks (DNNs) abnormal deserve to be researched. In recent years, the typical backdoor attacks have been researched in speech recognition systems. The existing backdoor methods are based on data poisoning. The attacker adds some incorporated changes to benign speech spectrograms or changes the speech components, such as pitch and timbre. As a result, the poisoned data can be detected by human hearing or automatic deep algorithms. To improve the stealthiness of data poisoning, we propose a non-neural and fast algorithm called Random Spectrogram Rhythm Transformation (RSRT) in this paper. The algorithm combines four steps to generate stealthy poisoned utterances. From the perspective of rhythm component transformation, our proposed trigger stretches or squeezes the mel spectrograms and recovers them back to signals. The operation keeps timbre and content unchanged for good stealthiness. Our experiments are conducted on two kinds of speech recognition tasks, including testing the stealthiness of poisoned samples by speaker verification and automatic speech recognition. The results show that our method has excellent effectiveness and stealthiness. The rhythm trigger needs a low poisoning rate and gets a very high attack success rate. | 翻訳日:2024-08-23 19:05:52 公開日:2024-08-22 |
# 分散線形量子最適制御のための2時間最適化フレームワーク
Two-Timescale Optimization Framework for Decentralized Linear-Quadratic Optimal Control ( http://arxiv.org/abs/2406.11168v3 ) ライセンス: Link先を確認 | Lechen Feng, Yuan-Hua Ni, Xuebo Zhang, | (参考訳) 本稿では, 分散化コントローラ間の通信リンク数をペナルタイズする$\mathcal{H}_2$に対して, 分散化パラメータ化と凸結合不確実性を考慮した$\mathcal{H}_2$-guaranteed decentralized linear-quadratic optimal controlについて検討した。
次に、安定保証とともに変更された$\mathcal{H}_2$コストを最小限に抑えるためにスパースフィードバックゲインを調査し、対応する主な結果は3つの部分からなる。
まず,重み付き$$\ell_1$スペーサ性促進関数を考慮し,BSUM(Block Successive Upper-bound Minimization)フレームワークと原始二元分割アプローチに基づいて2時間スケールのアルゴリズムを開発した。
第2に,2次空間的ペナルティによる最適化問題について検討し,収束速度の高速化を図った。
第三に、$\ell_0$-penaltyの非凸スパース最適化問題について検討し、連続した座標凸最適化問題によって近似することができる。
A $\mathcal{H}_2$-guaranteed decentralized linear-quadratic optimal control with convex parameterization and convex-bounded uncertainty is studied in this paper, where several sparsity promoting functions are added, respectively, into the $\mathcal{H}_2$ cost to penalize the number of communication links among decentralized controllers. Then, the sparse feedback gain is investigated to minimize the modified $\mathcal{H}_2$ cost together with the stability guarantee, and the corresponding main results are of three parts. First, the weighted-$\ell_1$ sparsity promoting function is of concern, and a two-timescale algorithm is developed based on the BSUM (Block Successive Upper-bound Minimization) framework and a primal-dual splitting approach. Second, the optimization problem induced by piecewise quadratic sparsity penalty is investigated, which exhibits an accelerated convergence rate. Third, the nonconvex sparse optimization problem with $\ell_0$-penalty is studied, which can be approximated by successive coordinatewise convex optimization problems. | 翻訳日:2024-08-23 19:05:52 公開日:2024-08-22 |
# AIは動的ダウンスケーリングを可能にし得るか? kmスケールCOSMO5.0\_CLM9シミュレーションを模倣する潜在拡散モデル
Can AI be enabled to dynamical downscaling? A Latent Diffusion Model to mimic km-scale COSMO5.0\_CLM9 simulations ( http://arxiv.org/abs/2406.13627v2 ) ライセンス: Link先を確認 | Elena Tomasi, Gabriele Franch, Marco Cristoforetti, | (参考訳) ダウンスケーリング技術は、地球システムモデリングにおけるディープラーニング(DL)の最も顕著な応用の1つである。
強靭なDLダウンスケーリングモデルは、粗大な数値モデルシミュレーションから高分解能場を生成することができ、局所的・局所的モデルの時間的・資源的な応用を省くことができる。
さらに、生成型DLモデルは、従来の数値シミュレーションでは計算不可能なアンサンブルのようなシナリオプールを生成することによって、不確実性情報を提供する可能性がある。
本研究では,イタリア上空のERA5データを2kmまでダウンスケールするために,LDM(Latent Diffusion Model)を適用した。
高分解能ターゲットデータは, COSMO_CLMによる動的下降による2m温度と10m水平風成分からなる。
我々のゴールは、最近のジェネレーティブモデリングの進歩により、DLは同じ入力データから数値力学モデルに匹敵する結果が得られ、微細な特徴とフロー特性のリアリズムが保たれることを実証することである。
ERA5 からの予測器の選択を LDM の入力とし、基準 UNET に対する残差アプローチを LDM の適用に活用する。
生成LDMの性能は、ERA5の二次補間、UNET、同じ基準UNET上に構築されたGAN(Generative Adversarial Network)の参照ベースラインと比較される。
結果は、LDMアーキテクチャによって導入された改善と、これらのベースラインに対する残留アプローチを強調している。
モデルは年次テストデータセットで評価され、決定論的指標、誤差の空間分布、周波数およびパワースペクトル分布の再構成を通じてモデルの性能を評価する。
Downscaling techniques are one of the most prominent applications of Deep Learning (DL) in Earth System Modeling. A robust DL downscaling model can generate high-resolution fields from coarse-scale numerical model simulations, saving the timely and resourceful applications of regional/local models. Additionally, generative DL models have the potential to provide uncertainty information, by generating ensemble-like scenario pools, a task that is computationally prohibitive for traditional numerical simulations. In this study, we apply a Latent Diffusion Model (LDM) to downscale ERA5 data over Italy up to a resolution of 2 km. The high-resolution target data consists of 2-m temperature and 10-m horizontal wind components from a dynamical downscaling performed with COSMO_CLM. Our goal is to demonstrate that recent advancements in generative modeling enable DL to deliver results comparable to those of numerical dynamical models, given the same input data, preserving the realism of fine-scale features and flow characteristics. A selection of predictors from ERA5 is used as input to the LDM, and a residual approach against a reference UNET is leveraged in applying the LDM. The performance of the generative LDM is compared with reference baselines of increasing complexity: quadratic interpolation of ERA5, a UNET, and a Generative Adversarial Network (GAN) built on the same reference UNET. Results highlight the improvements introduced by the LDM architecture and the residual approach over these baselines. The models are evaluated on a yearly test dataset, assessing the models' performance through deterministic metrics, spatial distribution of errors, and reconstruction of frequency and power spectra distributions. | 翻訳日:2024-08-23 19:05:52 公開日:2024-08-22 |
# 強化学習のための一般制御-理論的アプローチ:理論とアルゴリズム
A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms ( http://arxiv.org/abs/2406.14753v2 ) ライセンス: Link先を確認 | Weiqin Chen, Mark S. Squillante, Chai Wah Wu, Santiago Paternain, | (参考訳) 最適政策の直接学習を支援するための制御理論強化学習手法を考案する。
我々は、制御理論演算子の収束と最適性、新しい制御-政治-パラメータ勾配上昇定理、この定理に基づく特定の勾配上昇アルゴリズムなど、このアプローチの様々な理論的特性を確立する。
代表的な例として、制御理論の枠組みにアプローチを適用し、古典的な強化学習タスクにおいてその性能を実証的に評価し、最先端のベースライン手法に対する制御理論のアプローチのソリューション品質、サンプルの複雑さ、実行時間を大幅に改善したことを示す。
We devise a control-theoretic reinforcement learning approach to support direct learning of the optimal policy. We establish various theoretical properties of our approach, such as convergence and optimality of our control-theoretic operator, a new control-policy-parameter gradient ascent theorem, and a specific gradient ascent algorithm based on this theorem. As a representative example, we adapt our approach to a particular control-theoretic framework and empirically evaluate its performance on several classical reinforcement learning tasks, demonstrating significant improvements in solution quality, sample complexity, and running time of our control-theoretic approach over state-of-the-art baseline methods. | 翻訳日:2024-08-23 18:56:04 公開日:2024-08-22 |
# 確率的変分推論による一般状態空間モデルによる時系列クラスタリング
Time Series Clustering with General State Space Models via Stochastic Variational Inference ( http://arxiv.org/abs/2407.00429v2 ) ライセンス: Link先を確認 | Ryoichi Ishizuka, Takashi Imai, Kaoru Kawamoto, | (参考訳) 本稿では,一般状態空間モデル(MSSM)を混合したモデルベース時系列クラスタリング手法を提案する。
MSSMの各コンポーネントは、各クラスタに関連付けられている。
提案手法の利点は,特定の時系列に適した時系列モデルの利用を可能にすることである。
これにより、クラスタリングと予測精度が向上するだけでなく、推定パラメータの解釈可能性も向上する。
MSSMのパラメータは確率的変分推論(変分推論のサブタイプ)を用いて推定される。
提案手法は,変分推定器として正規化フローを持つニューラルネットワークを用いて任意の状態空間モデルの潜時変数を推定する。
クラスターの数はベイズ情報基準を用いて推定できる。
また,MSSMが局所最適に収束するのを防ぐため,エントロピーアニーリング(entropy annealing)と呼ばれる追加のペナルティ項を含むいくつかの最適化手法を提案する。
我々の知る限り、提案手法は一般的な(非線形で非ガウス的な)状態空間モデルに基づく時系列クラスタリングのための最初の計算可能手法である。
シミュレーションデータセットの実験から,提案手法はクラスタリング,パラメータ推定,クラスタ数推定に有効であることが示された。
In this paper, we propose a novel method of model-based time series clustering with mixtures of general state space models (MSSMs). Each component of MSSMs is associated with each cluster. An advantage of the proposed method is that it enables the use of time series models appropriate to the specific time series. This not only improves clustering and prediction accuracy but also enhances the interpretability of the estimated parameters. The parameters of the MSSMs are estimated using stochastic variational inference, a subtype of variational inference. The proposed method estimates the latent variables of an arbitrary state space model by using neural networks with a normalizing flow as a variational estimator. The number of clusters can be estimated using the Bayesian information criterion. In addition, to prevent MSSMs from converging to the local optimum, we propose several optimization tricks, including an additional penalty term called entropy annealing. To our best knowledge, the proposed method is the first computationally feasible one for time series clustering based on general (possibly nonlinear, non-Gaussian) state space models. Experiments on simulated datasets show that the proposed method is effective for clustering, parameter estimation, and estimating the number of clusters. | 翻訳日:2024-08-23 18:56:04 公開日:2024-08-22 |
# 潜伏拡散変圧器(DiTs)の統計的速度と有効基準について
On Statistical Rates and Provably Efficient Criteria of Latent Diffusion Transformers (DiTs) ( http://arxiv.org/abs/2407.01079v2 ) ライセンス: Link先を確認 | Jerry Yao-Chieh Hu, Weimin Wu, Zhao Song, Han Liu, | (参考訳) 低次元線形ラテント空間仮定の下で、潜伏型 \textbf{Di}ffusion \textbf{T}ransformers (\textbf{DiT}s) の統計的および計算的限界について検討する。
統計的には,DiTsスコア関数の普遍近似とサンプル複雑性,および初期データの分布回復特性について検討する。
具体的には、軽度のデータ仮定の下では、潜時空間次元のサブ線形である潜時DiTのスコアネットワークに対して近似誤差を導出する。
さらに、対応するサンプルの複雑性境界を導出し、推定スコア関数から生成されたデータ分布が元の値の近距離領域に収束することを示す。
計算学的には、Strong Exponential Time hypothesis (SETH) を仮定して、前向き推論と遅延DiTの後方計算の両方の硬さを特徴付ける。
フォワード推論では,全ての遅延DiTs推論アルゴリズムの効率的な基準を特定し,その効率をほぼ線形時間推論に推し進めることで理論を実証する。
逆向きの計算では、アルゴリズムの高速化のために、DiTsトレーニングの勾配計算の低ランク構造を利用する。
具体的には、Dits勾配を一連の鎖状低ランク近似として有界誤差でキャストすることにより、ほぼ直線的なDiTsトレーニングを実現することを示す。
低次元の仮定では、収束速度と計算効率が共に部分空間の次元に支配されていることが示され、遅延DiTは初期データの高次元性に関連する課題を回避できる可能性が示唆された。
We investigate the statistical and computational limits of latent \textbf{Di}ffusion \textbf{T}ransformers (\textbf{DiT}s) under the low-dimensional linear latent space assumption. Statistically, we study the universal approximation and sample complexity of the DiTs score function, as well as the distribution recovery property of the initial data. Specifically, under mild data assumptions, we derive an approximation error bound for the score network of latent DiTs, which is sub-linear in the latent space dimension. Additionally, we derive the corresponding sample complexity bound and show that the data distribution generated from the estimated score function converges toward a proximate area of the original one. Computationally, we characterize the hardness of both forward inference and backward computation of latent DiTs, assuming the Strong Exponential Time Hypothesis (SETH). For forward inference, we identify efficient criteria for all possible latent DiTs inference algorithms and showcase our theory by pushing the efficiency toward almost-linear time inference. For backward computation, we leverage the low-rank structure within the gradient computation of DiTs training for possible algorithmic speedup. Specifically, we show that such speedup achieves almost-linear time latent DiTs training by casting the DiTs gradient as a series of chained low-rank approximations with bounded error. Under the low-dimensional assumption, we show that the convergence rate and the computational efficiency are both dominated by the dimension of the subspace, suggesting that latent DiTs have the potential to bypass the challenges associated with the high dimensionality of initial data. | 翻訳日:2024-08-23 18:56:04 公開日:2024-08-22 |
# StreamLTS: 協調物体検出のためのクエリベースの時空間LiDAR融合
StreamLTS: Query-based Temporal-Spatial LiDAR Fusion for Cooperative Object Detection ( http://arxiv.org/abs/2407.03825v2 ) ライセンス: Link先を確認 | Yunshuang Yuan, Monika Sester, | (参考訳) インテリジェントな交通機関間のコミュニケーションによる協調認識は、自動運転の安全性を向上させる大きな可能性を秘めている。
しかし,センサデータの通信帯域幅の制限,ローカライゼーションエラー,および非同期捕捉時間は,それぞれ異なるエージェントのデータ融合に困難をもたらす。
ある拡張のために、以前の研究は共有データサイズを減らし、局所化エラーと通信遅延による空間的特徴の不一致を軽減しようとした。
しかし、いずれも非陽子化センサのチギング時間を考慮しておらず、データ融合中に1メートル以上の動的物体のずれを生じさせる可能性がある。
本研究では、非同期LiDARセンサのタイピング時間を考慮して、広く使われているデータセットOPV2VとDairV2Xに適応し、クエリベースの手法で個々のオブジェクトの時間情報をモデル化した効率的な完全スパースフレームワークを構築するためのTA-COODを提案する。
実験結果から, 最先端の高密度モデルと比較して, 完全スパースフレームワークの優れた効率性が確認された。
さらに重要なことは、動的オブジェクトのポイントワイドな観測タイムスタンプが、オブジェクトの時間的文脈とそれらの時間的位置の予測可能性の正確なモデリングに不可欠であることを示している。
公式コードは \url{https://github.com/YuanYunshuang/CoSense3D} で公開されている。
Cooperative perception via communication among intelligent traffic agents has great potential to improve the safety of autonomous driving. However, limited communication bandwidth, localization errors and asynchronized capturing time of sensor data, all introduce difficulties to the data fusion of different agents. To some extend, previous works have attempted to reduce the shared data size, mitigate the spatial feature misalignment caused by localization errors and communication delay. However, none of them have considered the asynchronized sensor ticking times, which can lead to dynamic object misplacement of more than one meter during data fusion. In this work, we propose Time-Aligned COoperative Object Detection (TA-COOD), for which we adapt widely used dataset OPV2V and DairV2X with considering asynchronous LiDAR sensor ticking times and build an efficient fully sparse framework with modeling the temporal information of individual objects with query-based techniques. The experiment results confirmed the superior efficiency of our fully sparse framework compared to the state-of-the-art dense models. More importantly, they show that the point-wise observation timestamps of the dynamic objects are crucial for accurate modeling the object temporal context and the predictability of their time-related locations. The official code is available at \url{https://github.com/YuanYunshuang/CoSense3D}. | 翻訳日:2024-08-23 18:56:04 公開日:2024-08-22 |
# 自己随伴トレースクラス作用素の固有値の近似
Approximating the eigenvalues of self-adjoint trace-class operators ( http://arxiv.org/abs/2407.04478v2 ) ライセンス: Link先を確認 | Richárd Balka, Gábor Homa, András Csordás, | (参考訳) 有界線型作用素のスペクトル特性は、数学と物理学のいくつかの領域において重要な役割を果たす。
各自己随伴なトレースクラス作用素 $O$ に対して、集合 $\Lambda_n\subset \mathbb{R}$ を定義し、軽条件下ではハウスドルフ計量の $O$ のスペクトルに収束することを示す。
私たちのセット$\Lambda_n$は$O$の最初の$n$モーメントにのみ依存します。
物理的に関係のある演算子に対して効果的に計算できることを示し、スペクトルをうまく近似する。
上記の手法を用いることで、超指数速度で最小および最大固有値に収束できることを示す。
また、最小固有値(または最大固有値の上限値の上限値の減少)に対して、下界が$q_n$のモノトーンも構成する。
この列は、$O$のモーメントと、その$$-normの具体的な上位推定にのみ依存する。
この厳密な下界$q_n$は、$O$が正の半定値でないと仮定して超指数速度を持つ最小固有値となる傾向がある。
副生成物として、$O$の1ドルノルムの計算可能な上限も得られる。
Spectral properties of bounded linear operators play a crucial role in several areas of mathematics and physics. For each self-adjoint, trace-class operator $O$ we define a set $\Lambda_n\subset \mathbb{R}$, and we show that it converges to the spectrum of $O$ in the Hausdorff metric under mild conditions. Our set $\Lambda_n$ only depends on the first $n$ moments of $O$. We show that it can be effectively calculated for physically relevant operators, and it approximates the spectrum well. We prove that using the above method we can converge to the minimal and maximal eigenvalues with super-exponential speed. We also construct monotone increasing lower bounds $q_n$ for the minimal eigenvalue (or decreasing upper bounds for the maximal eigenvalue). This sequence only depends on the moments of $O$ and a concrete upper estimate of its $1$-norm; we also demonstrate that $q_n$ can be effectively calculated for a large class of physically relevant operators. This rigorous lower bound $q_n$ tends to the minimal eigenvalue with super-exponential speed provided that $O$ is not positive semidefinite. As a by-product, we obtain computable upper bounds for the $1$-norm of $O$, too. | 翻訳日:2024-08-23 18:56:04 公開日:2024-08-22 |
# 繰り返しReLUに対する2次制約の完全集合と一般化
A Complete Set of Quadratic Constraints for Repeated ReLU and Generalizations ( http://arxiv.org/abs/2407.06888v2 ) ライセンス: Link先を確認 | Sahel Vahedi Noori, Bin Hu, Geir Dullerud, Peter Seiler, | (参考訳) 本稿では、繰り返しReLUに対する2次制約(QC)の完全な集合を導出する。
QC の完全集合は行列共役条件の集合によって記述される。
また、完備集合のすべてのQCを満たす関数は、繰り返しReLUと反転ReLUの2つしかないことも示している。
したがって、QC の完全集合は、2次形式に固有の符号不変量まで可能な限り厳密な ReLU を束縛する。
リプシッツ境界は通常のリプシッツPDP法よりも保守的なリプシッツ境界を小さくする可能性がある。
基本構成はまた、漏れやすいReLU、MaxMin、HouseHolderなどの他の部分線形活性化関数に対するQCの完全な集合を導出するためにも用いられる。
最後に、ReLUアクティベーション機能を持つリカレントニューラルネットワークの安定性と性能を評価するために、QCの完全なセットを使用することについて説明する。
半定値プログラムとして安定性/性能条件を定式化するために、標準共役緩和に依存する。
簡単な例は、QC と増分 QC の完全集合が、既存の集合よりも保守的境界を低くすることができることを示すものである。
This paper derives a complete set of quadratic constraints (QCs) for the repeated ReLU. The complete set of QCs is described by a collection of matrix copositivity conditions. We also show that only two functions satisfy all QCs in our complete set: the repeated ReLU and flipped ReLU. Thus our complete set of QCs bounds the repeated ReLU as tight as possible up to the sign invariance inherent in quadratic forms. We derive a similar complete set of incremental QCs for repeated ReLU, which can potentially lead to less conservative Lipschitz bounds for ReLU networks than the standard LipSDP approach. The basic constructions are also used to derive the complete sets of QCs for other piecewise linear activation functions such as leaky ReLU, MaxMin, and HouseHolder. Finally, we illustrate the use of the complete set of QCs to assess stability and performance for recurrent neural networks with ReLU activation functions. We rely on a standard copositivity relaxation to formulate the stability/performance condition as a semidefinite program. Simple examples are provided to illustrate that the complete sets of QCs and incremental QCs can yield less conservative bounds than existing sets. | 翻訳日:2024-08-23 18:56:04 公開日:2024-08-22 |
# 直交配列に基づく制御方式
Controlization Schemes Based on Orthogonal Arrays ( http://arxiv.org/abs/2407.09382v2 ) ライセンス: Link先を確認 | Anirban Chowdhury, Ewout van den Berg, Pawel Wocjan, | (参考訳) 制御された演算を実現することは、量子アルゴリズムの設計と実行に不可欠である。
量子シミュレーションと量子多体系の学習において、重要なサブルーチンは制御されたハミルトン時間進化を実装している。
制御されていない進化へのブラックボックスアクセスが$e^{-iHt}$に限られると、それを制御し、すなわち$\mathrm{ctrl}(e^{-iHt}) = |0\langle\rangle 0|\otimes I + |1\langle\rangle 1 |\otimes e^{-iHt}$を実装することは自明ではない。
制御は、Refsで導入されたスキームを活用する未知のハミルトン力学(OKTM24)を変換するための量子アルゴリズムで最近使用されている。
[NSM15, DNSM21]。
このスキームの背後にある主要なアイデアは、制御されていない進化を適切な操作で分散させることであり、全体的なダイナミクスは、望まれる制御された進化を近似する。
効率的ではあるが、このスキームは指数関数的に大きな集合からランダムにサンプリングされた演算を使用する。
本研究では、未知の2-局所ハミルトニアンに対する直交配列の助けを借りて、より効率的な制御スキームを構築することができることを示す。
この構成は、$k$-ローカルハミルトニアンにも一般化できる。
さらに、直交配列に基づく制御スキームは、相互作用グラフの構造を活用でき、より効率的にすることができる。
Realizing controlled operations is fundamental to the design and execution of quantum algorithms. In quantum simulation and learning of quantum many-body systems, an important subroutine consists of implementing a controlled Hamiltonian time-evolution. Given only black-box access to the uncontrolled evolution $e^{-iHt}$, controlizing it, i.e., implementing $\mathrm{ctrl}(e^{-iHt}) = |0\langle\rangle 0|\otimes I + |1\langle\rangle 1 |\otimes e^{-iHt}$ is non-trivial. Controlization has been recently used in quantum algorithms for transforming unknown Hamiltonian dynamics [OKTM24] leveraging a scheme introduced in Refs. [NSM15, DNSM21]. The main idea behind the scheme is to intersperse the uncontrolled evolution with suitable operations such that the overall dynamics approximates the desired controlled evolution. Although efficient, this scheme uses operations randomly sampled from an exponentially large set. In the present work, we show that more efficient controlization schemes can be constructed with the help of orthogonal arrays for unknown 2-local Hamiltonians. This construction can also be generalized to $k$-local Hamiltonians. Moreover, our controlization schemes based on orthogonal arrays can take advantage of the interaction graph's structure and be made more efficient. | 翻訳日:2024-08-23 18:56:04 公開日:2024-08-22 |
# AIシアターのオスカー: 言語モデルによるロールプレイングに関する調査
The Oscars of AI Theater: A Survey on Role-Playing with Language Models ( http://arxiv.org/abs/2407.11484v5 ) ライセンス: Link先を確認 | Nuo Chen, Yan Wang, Yang Deng, Jia Li, | (参考訳) 本研究では,言語モデルを用いたロールプレイングの急成長分野を探求し,初期のペルソナモデルから,大規模言語モデル(LLM)によって促進される高度なキャラクタ駆動シミュレーションへの展開に焦点を当てた。
当初はモデル能力の制限により単純なペルソナ一貫性に制限されていたため、ロールプレイングタスクは、キャラクターの一貫性、行動アライメント、全体的な魅力を含む複雑なキャラクター描写を受け入れるように拡張された。
データやモデル,アライメント,エージェントアーキテクチャ,評価など,これらのシステムを設計する上で重要なコンポーネントを包括的に分類する。
この調査は、動的な個人プロファイルの管理やハイレベルなペルソナの整合性の実現など、現在の方法論や課題を概説するだけでなく、ロールプレイングアプリケーションの深さと現実性を改善するための今後の研究の道筋も示唆している。
目標は、現在の方法論の構造化された概要を提供し、改善のための潜在的な領域を特定することで、将来の研究を導くことである。
関連リソースとドキュメントはhttps://github.com/nuochenpku/Awesome-Role-Play-Papers.comで公開されている。
This survey explores the burgeoning field of role-playing with language models, focusing on their development from early persona-based models to advanced character-driven simulations facilitated by Large Language Models (LLMs). Initially confined to simple persona consistency due to limited model capabilities, role-playing tasks have now expanded to embrace complex character portrayals involving character consistency, behavioral alignment, and overall attractiveness. We provide a comprehensive taxonomy of the critical components in designing these systems, including data, models and alignment, agent architecture and evaluation. This survey not only outlines the current methodologies and challenges, such as managing dynamic personal profiles and achieving high-level persona consistency but also suggests avenues for future research in improving the depth and realism of role-playing applications. The goal is to guide future research by offering a structured overview of current methodologies and identifying potential areas for improvement. Related resources and papers are available at https://github.com/nuochenpku/Awesome-Role-Play-Papers. | 翻訳日:2024-08-23 18:56:04 公開日:2024-08-22 |
# 直接参照最適化における参照ポリシーの理解
Understanding Reference Policies in Direct Preference Optimization ( http://arxiv.org/abs/2407.13709v2 ) ライセンス: Link先を確認 | Yixin Liu, Pengfei Liu, Arman Cohan, | (参考訳) 直接選好最適化(DPO)は,大規模言語モデル(LLM)の命令微調整のための訓練手法として広く用いられている。
本稿では,参照モデルやポリシーへの依存という,DPOの未検討の側面について考察する。
このような参照ポリシーは、DPOの有効性に上限を課すことができるため、より微調整されたモデルとしてインスタンス化されることが多い。
そこで本研究では,3つの研究課題に対処する。
まず, DPOにおけるKL分散制約の最適強度について検討し, DPOはこの強度に敏感であることを示す。
次に、DPOと関連する学習目標の理論的および実証的な比較結果を提供することにより、DPOの基準方針からKL制約の必要性を検証し、DPOの優位性を示す。
さらに、DPOがより強力な参照ポリシーの恩恵を受けるかどうかを考察し、より強力な参照ポリシーが性能向上につながることを見出したが、それはモデルが微調整されたときのみである。
本研究は,DPOにおける参照政策の役割の相違と,ベストプラクティスに対する洞察の提供と,今後の研究に向けたオープンな研究課題の明確化を両立させるものである。
Direct Preference Optimization (DPO) has become a widely used training method for the instruction fine-tuning of large language models (LLMs). In this work, we explore an under-investigated aspect of DPO - its dependency on the reference model or policy. Such reference policies, typically instantiated as the model to be further fine-tuned, are important since they can impose an upper limit on DPO's effectiveness. Therefore, we address three related research questions in this work. First, we explore the optimal strength of the KL divergence constraint in DPO, which penalizes deviations from the reference policy, and find that DPO is sensitive to this strength. Next, we examine the necessity of the KL-constraint from the reference policies in DPO by providing both theoretical and empirical comparisons between DPO and related learning objectives, demonstrating DPO's superiority in this controlled setting. Additionally, we investigate whether DPO benefits from stronger reference policies, finding that a stronger reference policy can lead to improved performance, but only when it is similar to the model being fine-tuned. Our findings highlight the confounding role of reference policies in DPO and offer insights for best practices, while also identifying open research questions for future studies. | 翻訳日:2024-08-23 18:56:04 公開日:2024-08-22 |
# 大規模言語モデルにおけるプロンプトと応答不確かさの関係の理解
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models ( http://arxiv.org/abs/2407.14845v2 ) ライセンス: Link先を確認 | Ze Yu Zhang, Arun Verma, Finale Doshi-Velez, Bryan Kian Hsiang Low, | (参考訳) 大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
したがって、LLMがいかにして理由を定め、意思決定するかを理解することは、安全なデプロイメントに不可欠である。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
予備訓練中にLCMが潜伏概念を推論することを学ぶ知見を活用することで、LCMが応答を生成する方法を説明し、プロンプトと応答の不確実性の関係を理解するのに役立つプロンプト応答の概念モデルを提案する。
この不確実性は, 先天的不確実性と同様, プロンプトの情報量が増加するにつれて減少することを示す。
実際のデータセットに関する詳細な実験結果により,提案モデルの有効性が検証された。
Large language models (LLMs) are widely used in decision-making, but their reliability, especially in critical tasks like healthcare, is not well-established. Therefore, understanding how LLMs reason and make decisions is crucial for their safe deployment. This paper investigates how the uncertainty of responses generated by LLMs relates to the information provided in the input prompt. Leveraging the insight that LLMs learn to infer latent concepts during pretraining, we propose a prompt-response concept model that explains how LLMs generate responses and helps understand the relationship between prompts and response uncertainty. We show that the uncertainty decreases as the prompt's informativeness increases, similar to epistemic uncertainty. Our detailed experimental results on real datasets validate our proposed model. | 翻訳日:2024-08-23 18:56:04 公開日:2024-08-22 |
# MuTT:ロボットスキルのための多モード軌道変換器
MuTT: A Multimodal Trajectory Transformer for Robot Skills ( http://arxiv.org/abs/2407.15660v2 ) ライセンス: Link先を確認 | Claudius Kienle, Benjamin Alt, Onur Celik, Philipp Becker, Darko Katic, Rainer Jäkel, Gerhard Neumann, | (参考訳) 高レベルのロボットスキルは、ロボットプログラミングにおける人気のパラダイムである。
しかしながら、特定のタスクに対してスキルのパラメータを設定することは、手作業と時間を要する作業のままである。
これらのパラメータを学習したり、最適化するための既存のアプローチは、多くの実世界の実行を必要としたり、動的環境では機能しない場合が多い。
これらの課題に対処するために,視覚,軌道,ロボットスキルパラメータを統合することで,ロボットスキルの環境認識実行を予測するために設計された,新しいエンコーダ・デコーダ変換アーキテクチャである MuTT を提案する。
特に、視覚と軌跡の融合を開拓し、新しい軌跡投影を導入した。
さらに,モデルをベースとしたロボットスキルオプティマイザと組み合わせることで,MuTTの有効性を予測できることを示す。
このアプローチは,ロボットの現実的な実行を必要とせずに,現在の環境に対するロボットスキルパラメータの最適化を容易にする。
MuTTは、ロボットスキルのあらゆる表現との互換性のために設計され、3つの総合的な実験にまたがってその汎用性を実証し、2つの異なるスキル表現に対して優れたパフォーマンスを示す。
High-level robot skills represent an increasingly popular paradigm in robot programming. However, configuring the skills' parameters for a specific task remains a manual and time-consuming endeavor. Existing approaches for learning or optimizing these parameters often require numerous real-world executions or do not work in dynamic environments. To address these challenges, we propose MuTT, a novel encoder-decoder transformer architecture designed to predict environment-aware executions of robot skills by integrating vision, trajectory, and robot skill parameters. Notably, we pioneer the fusion of vision and trajectory, introducing a novel trajectory projection. Furthermore, we illustrate MuTT's efficacy as a predictor when combined with a model-based robot skill optimizer. This approach facilitates the optimization of robot skill parameters for the current environment, without the need for real-world executions during optimization. Designed for compatibility with any representation of robot skills, MuTT demonstrates its versatility across three comprehensive experiments, showcasing superior performance across two different skill representations. | 翻訳日:2024-08-23 18:56:04 公開日:2024-08-22 |
# コントラスト学習における過度な適合?
Overfitting In Contrastive Learning? ( http://arxiv.org/abs/2407.15863v2 ) ライセンス: Link先を確認 | Zachary Rabin, Jim Davis, Benjamin Lewis, Matthew Scherreik, | (参考訳) オーバーフィッティング(Overfitting)は、モデルがトレーニングデータにあまりにも密接に適合し、結果として一般化が不十分な機械学習現象を記述している。
この現象は教師なし学習の多くの形態に対して十分に記録されているが、教師なし学習の文脈では十分に研究されていない。
本研究では,教師なしコントラスト学習における過剰適合の性質について検討する。
オーバーフィッティングが実際に起こり、オーバーフィッティングのメカニズムが明らかになる。
Overfitting describes a machine learning phenomenon where the model fits too closely to the training data, resulting in poor generalization. While this occurrence is thoroughly documented for many forms of supervised learning, it is not well examined in the context of unsupervised learning. In this work we examine the nature of overfitting in unsupervised contrastive learning. We show that overfitting can indeed occur and the mechanism behind overfitting. | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# エビデンスベースのソフトウェアエンジニアリングにおけるジェネレーティブAI:ホワイトペーパー
Generative AI in Evidence-Based Software Engineering: A White Paper ( http://arxiv.org/abs/2407.17440v3 ) ライセンス: Link先を確認 | Matteo Esposito, Andrea Janes, Davide Taibi, Valentina Lenarduzzi, | (参考訳) コンテキスト。
1年足らずで、実践者や研究者は、生成人工知能の迅速かつ広範な実装を目撃した。
実践者や研究者が提案する新しいモデルの日次提供により、迅速な採用が可能になった。
テキストGAI機能により、研究者は世界中で新しい生成シナリオを探索し、すべての時間を要するテキスト生成と分析タスクを簡素化し、急ぐことができる。
モチベーション。
デジタル図書館による情報へのアクセシビリティ向上に伴い,我々の分野における出版物の増加により,組織的な文献レビューや地図作成研究は,この課題から,証拠ベースソフトウェア工学におけるGAIの役割を探求し,考察した。
今後の方向。
現在の調査に基づいて、EBSE研究者を効果的に支援する包括的モデルスイートの作成と実証検証を行う。
Context. In less than a year practitioners and researchers witnessed a rapid and wide implementation of Generative Artificial Intelligence. The daily availability of new models proposed by practitioners and researchers has enabled quick adoption. Textual GAIs capabilities enable researchers worldwide to explore new generative scenarios simplifying and hastening all timeconsuming text generation and analysis tasks. Motivation. The exponentially growing number of publications in our field with the increased accessibility to information due to digital libraries makes conducting systematic literature reviews and mapping studies an effort and timeinsensitive task Stemmed from this challenge we investigated and envisioned the role of GAIs in evidencebased software engineering. Future Directions. Based on our current investigation we will follow up the vision with the creation and empirical validation of a comprehensive suite of models to effectively support EBSE researchers | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# 関数呼び出しのダークサイド:大規模言語モデルの脱獄への道
The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models ( http://arxiv.org/abs/2407.17915v2 ) ライセンス: Link先を確認 | Zihui Wu, Haichang Gao, Jianping He, Ping Wang, | (参考訳) 大規模言語モデル(LLM)は目覚ましい能力を示しているが、そのパワーには重大なセキュリティ上の配慮が伴っている。
チャットモードにおけるLLMの安全性について広範な研究が行われてきたが、その機能呼び出し機能のセキュリティへの影響は概ね見過ごされている。
本稿では,LCMの関数呼び出しプロセスにおける重大な脆弱性を明らかにし,アライメントの相違,ユーザ強制,厳密な安全フィルタの欠如を生かした,新しい"jailbreak function"攻撃手法を提案する。
GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-proを含む6つの最先端LCMで実施した実証実験の結果、この攻撃に対する平均成功率は90%以上であることが判明した。
本稿では,このような攻撃に対して関数呼び出しがどのような影響を受けやすいのかを包括的に分析し,防御的プロンプトの使用を含む防衛戦略を提案する。
本研究は,LLMの機能呼び出し機能におけるセキュリティ対策の迅速化の必要性を浮き彫りにし,これまで探索されていなかったリスクを特定し,効果的な攻撃手法を設計し,実用的な防御対策を提案することによって,AIの安全性の分野に寄与している。
私たちのコードはhttps://github.com/wooozihui/jailbreakfunction.comで利用可能です。
Large language models (LLMs) have demonstrated remarkable capabilities, but their power comes with significant security considerations. While extensive research has been conducted on the safety of LLMs in chat mode, the security implications of their function calling feature have been largely overlooked. This paper uncovers a critical vulnerability in the function calling process of LLMs, introducing a novel "jailbreak function" attack method that exploits alignment discrepancies, user coercion, and the absence of rigorous safety filters. Our empirical study, conducted on six state-of-the-art LLMs including GPT-4o, Claude-3.5-Sonnet, and Gemini-1.5-pro, reveals an alarming average success rate of over 90\% for this attack. We provide a comprehensive analysis of why function calls are susceptible to such attacks and propose defensive strategies, including the use of defensive prompts. Our findings highlight the urgent need for enhanced security measures in the function calling capabilities of LLMs, contributing to the field of AI safety by identifying a previously unexplored risk, designing an effective attack method, and suggesting practical defensive measures. Our code is available at https://github.com/wooozihui/jailbreakfunction. | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# 画像分類のためのスケーラブル量子非局所ニューラルネットワーク
A Scalable Quantum Non-local Neural Network for Image Classification ( http://arxiv.org/abs/2407.18906v2 ) ライセンス: Link先を確認 | Sparsh Gupta, Debanjan Konar, Vaneet Aggarwal, | (参考訳) 非局所的な操作は、局所的にのみ焦点を絞った従来の畳み込み操作の制約を超越して、入力全体の特徴の重み付けによる長距離依存の捕捉を可能にするコンピュータビジョンにおいて重要な役割を担っている。
非局所的な操作は通常、セット内のすべての要素間のペアワイズ関係の計算を必要とし、時間とメモリの2次的な複雑さをもたらす。
計算とメモリの要求が高いため、非局所ニューラルネットワークを大規模に拡張することは困難である。
本稿では、パターン認識を強化するために、量子非局所ニューラルネットワーク(QNL-Net)と呼ばれる、量子古典的スケーラブルな非局所ニューラルネットワークを紹介する。
提案したQNL-Netは、多くの入力特徴の同時処理を可能にするために、固有な量子並列性に依存しており、量子強化された特徴空間におけるより効率的な計算を可能にし、量子絡み合いによるペア関係を含む。
我々は,提案したQNL-Netを,MNISTとCIFAR-10の2値分類と比較した。
シミュレーションの結果,QNL-Netは量子分類器間の2値画像分類における最先端の精度レベルを実現し,量子ビットの削減を実現している。
Non-local operations play a crucial role in computer vision enabling the capture of long-range dependencies through weighted sums of features across the input, surpassing the constraints of traditional convolution operations that focus solely on local neighborhoods. Non-local operations typically require computing pairwise relationships between all elements in a set, leading to quadratic complexity in terms of time and memory. Due to the high computational and memory demands, scaling non-local neural networks to large-scale problems can be challenging. This article introduces a hybrid quantum-classical scalable non-local neural network, referred to as Quantum Non-Local Neural Network (QNL-Net), to enhance pattern recognition. The proposed QNL-Net relies on inherent quantum parallelism to allow the simultaneous processing of a large number of input features enabling more efficient computations in quantum-enhanced feature space and involving pairwise relationships through quantum entanglement. We benchmark our proposed QNL-Net with other quantum counterparts to binary classification with datasets MNIST and CIFAR-10. The simulation findings showcase our QNL-Net achieves cutting-edge accuracy levels in binary image classification among quantum classifiers while utilizing fewer qubits. | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# グラフを用いたエージェントベースアドバンストRAGシステムの実装法に関する研究
A Study on the Implementation Method of an Agent-Based Advanced RAG System Using Graph ( http://arxiv.org/abs/2407.19994v2 ) ライセンス: Link先を確認 | Cheonsu Jeong, | (参考訳) 本研究の目的は,知識に基づく質問応答(QA)システムを改善することであり,既存の検索型拡張生成(RAG)モデルの限界を克服し,グラフ技術に基づく高度なRAGシステムを実装し,高品質な生成AIサービスを開発することである。
既存のRAGモデルは、取得した情報を利用して高精度かつ流速を示すが、それらは再処理せずに事前ロードされた知識を用いて応答を生成するため、精度の劣化に悩まされる。
さらに、RAG設定段階の後にリアルタイムデータを組み込むことはできないため、コンテキスト理解やバイアスのある情報が問題になる。
これらの制約に対処するため,グラフ技術を利用したRAGシステムを実装した。
本システムは,情報検索と活用を効率的に行うように設計されている。
具体的には、検索した情報の信頼性を評価するためにLangGraphを使用し、多様なデータを合成して、より正確で拡張された応答を生成する。
さらに,本研究では,実装コードと検証結果を通じて,システムの動作,重要な実装手順,実例を詳細に説明し,高度なRAG技術の理解を深める。
このアプローチは、企業サービスに高度なRAGシステムを実装するための実践的ガイドラインを提供する。
This study aims to improve knowledge-based question-answering (QA) systems by overcoming the limitations of existing Retrieval-Augmented Generation (RAG) models and implementing an advanced RAG system based on Graph technology to develop high-quality generative AI services. While existing RAG models demonstrate high accuracy and fluency by utilizing retrieved information, they may suffer from accuracy degradation as they generate responses using pre-loaded knowledge without reprocessing. Additionally, they cannot incorporate real-time data after the RAG configuration stage, leading to issues with contextual understanding and biased information. To address these limitations, this study implemented an enhanced RAG system utilizing Graph technology. This system is designed to efficiently search and utilize information. Specifically, it employs LangGraph to evaluate the reliability of retrieved information and synthesizes diverse data to generate more accurate and enhanced responses. Furthermore, the study provides a detailed explanation of the system's operation, key implementation steps, and examples through implementation code and validation results, thereby enhancing the understanding of advanced RAG technology. This approach offers practical guidelines for implementing advanced RAG systems in corporate services, making it a valuable resource for practical application. | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# Diff-Cleanse:拡散モデルにおけるバックドアアタックの同定と修正
Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models ( http://arxiv.org/abs/2407.21316v2 ) ライセンス: Link先を確認 | Jiang Hao, Xiao Jin, Hu Xiaoguang, Chen Tianyou, Zhao Jiajia, | (参考訳) 拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと考えられているが、近年の研究により、特定の入力パターンとモデル行動の間に隠れた関連性を確立するバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者への評判のダメージや有害なコンテンツの拡散など、重大なリスクを引き起こす。
バックドア攻撃の脅威を軽減するため、バックドア検出とモデル修復に関するいくつかの調査が行われた。
しかし、以前の作業では、最先端の攻撃方法によってバックドアされたモデルを確実に浄化することができず、フィールドをはるかに過小評価している。
このギャップを埋めるために、DM用に特別に設計された2段階のバックドア防御フレームワークであるDiff-Cleanseを紹介した。
第1段はトリガーの復元とバックドアの検出に新規なトリガー反転技術を採用し、第2段は構造的なプルーニング手法を用いてバックドアを除去する。
我々は,広範囲のハイパーパラメータ設定を持つ3つの既存のバックドアアタック手法によって攻撃される数百のDMに対して,我々のフレームワークを評価する。
大規模な実験では、Diff-Cleanseが検出精度を100倍近く達成し、バックドアへの影響を効果的に軽減し、モデルの良質な性能を最小限の妥協で維持することを示した。
私たちのコードはhttps://github.com/shymuel/diff-cleanse.comで有効です。
Diffusion models (DMs) are regarded as one of the most advanced generative models today, yet recent studies suggest that they are vulnerable to backdoor attacks, which establish hidden associations between particular input patterns and model behaviors, compromising model integrity by causing undesirable actions with manipulated inputs. This vulnerability poses substantial risks, including reputational damage to model owners and the dissemination of harmful content. To mitigate the threat of backdoor attacks, there have been some investigations on backdoor detection and model repair. However, previous work fails to reliably purify the models backdoored by state-of-the-art attack methods, rendering the field much underexplored. To bridge this gap, we introduce Diff-Cleanse, a novel two-stage backdoor defense framework specifically designed for DMs. The first stage employs a novel trigger inversion technique to reconstruct the trigger and detect the backdoor, and the second stage utilizes a structural pruning method to eliminate the backdoor. We evaluate our framework on hundreds of DMs that are attacked by three existing backdoor attack methods with a wide range of hyperparameter settings. Extensive experiments demonstrate that Diff-Cleanse achieves nearly 100\% detection accuracy and effectively mitigates backdoor impacts, preserving the model's benign performance with minimal compromise. Our code is avaliable at https://github.com/shymuel/diff-cleanse. | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# RoadFormer+: 大規模情報デカップリングと高度不均一特徴融合によるRGB-Xシーンの構文解析
RoadFormer+: Delivering RGB-X Scene Parsing through Scale-Aware Information Decoupling and Advanced Heterogeneous Feature Fusion ( http://arxiv.org/abs/2407.21631v2 ) ライセンス: Link先を確認 | Jianxin Huang, Jiahang Li, Ning Jia, Yuxiang Sun, Chengju Liu, Qijun Chen, Rui Fan, | (参考訳) タスク固有のデータ融合ネットワークは、都市景観解析において大きな成果を上げている。
これらのネットワークの中で,最近提案したRoadFormerは,RGB画像と表面正規マップから異種特徴を抽出し,注意機構を通じてそれらの特徴を融合させ,RGB-Normal道路シーン解析において有意義な有効性を示す。
しかし、他のタイプのデータやソースを扱う場合や、より普遍的でオールカテゴリのシーン解析タスクを実行する場合、その性能は著しく低下する。
これらの制限を克服するために、RoadFormer+は効率的で堅牢で適応可能なモデルであり、RGB-Xデータを効果的に融合させることができる。
具体的には、異種特徴を抽出し、それらをグローバルおよびローカルなコンポーネントに分離するハイブリッド機能デカップリングエンコーダを提案する。
これらの分離された機能は、並列トランスフォーマーの注意と畳み込みニューラルネットワークモジュールを使用して、異なるスケールと受容フィールドにまたがるマルチスケールの機能をマージする、デュアルブランチのマルチスケールの異種機能融合ブロックを通じて融合される。
融合した特徴はその後デコーダに入力され、最終的な意味予測を生成する。
特に,提案した RoadFormer+ は KITTI Road ベンチマークで第1位であり,Cityscapes,MFNet,FMB,ZJU のデータセット上での結合平均で最先端のパフォーマンスを達成している。
さらに、RoadFormerと比較して学習可能なパラメータの数を65\%削減します。
私たちのソースコードは mias.group/RoadFormerPlus で公開されます。
Task-specific data-fusion networks have marked considerable achievements in urban scene parsing. Among these networks, our recently proposed RoadFormer successfully extracts heterogeneous features from RGB images and surface normal maps and fuses these features through attention mechanisms, demonstrating compelling efficacy in RGB-Normal road scene parsing. However, its performance significantly deteriorates when handling other types/sources of data or performing more universal, all-category scene parsing tasks. To overcome these limitations, this study introduces RoadFormer+, an efficient, robust, and adaptable model capable of effectively fusing RGB-X data, where ``X'', represents additional types/modalities of data such as depth, thermal, surface normal, and polarization. Specifically, we propose a novel hybrid feature decoupling encoder to extract heterogeneous features and decouple them into global and local components. These decoupled features are then fused through a dual-branch multi-scale heterogeneous feature fusion block, which employs parallel Transformer attentions and convolutional neural network modules to merge multi-scale features across different scales and receptive fields. The fused features are subsequently fed into a decoder to generate the final semantic predictions. Notably, our proposed RoadFormer+ ranks first on the KITTI Road benchmark and achieves state-of-the-art performance in mean intersection over union on the Cityscapes, MFNet, FMB, and ZJU datasets. Moreover, it reduces the number of learnable parameters by 65\% compared to RoadFormer. Our source code will be publicly available at mias.group/RoadFormerPlus. | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# 量子力学におけるクリロフ状態複雑性の性質
Properties of Krylov state complexity in qubit dynamics ( http://arxiv.org/abs/2407.21776v3 ) ライセンス: Link先を確認 | Siddharth Seetharaman, Chetanya Singh, Rejish Nath, | (参考訳) 量子ビット力学におけるKrylov状態の複雑性の性質を,1つの量子ビットと1つの量子ビット対を考慮して解析する。
クリロフ複雑性の幾何学的図面は、単量子の場合では議論されるが、2量子の場合では非自明となる。
リードベルク二層原子と相互作用する特定の場合を考えると、実効ハミルトニアンを用いて得られるクリロフ基底は、元のハミルトニアンから得られるものに比べて複雑さを最小化することを示す。
さらに後者の性質を任意のハミルトニアンに一般化し、ヒルベルト空間全体は2つの部分空間からなる。
We analyze the properties of Krylov state complexity in qubit dynamics, considering a single qubit and a qubit pair. A geometrical picture of the Krylov complexity is discussed for the single-qubit case, whereas it becomes non-trivial for the two-qubit case. Considering the particular case of interacting Rydberg two-level atoms, we show that the Krylov basis obtained using an effective Hamiltonian minimizes the complexity compared to that which is obtained from the original Hamiltonian. We further generalize the latter property to an arbitrary Hamiltonian in which the entire Hilbert space comprises of two subspaces provided a weak coupling between them. | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# EXAONEPath 1.0 Patch-level Foundation Model for Pathology
EXAONEPath 1.0 Patch-level Foundation Model for Pathology ( http://arxiv.org/abs/2408.00380v3 ) ライセンス: Link先を確認 | Juseung Yun, Yi Hu, Jinhyung Kim, Jongseong Jang, Soonyoung Lee, | (参考訳) 近年のデジタル病理学の発展により,ギガピクセル全スライド画像(WSI)から抽出したパッチの自己教師型学習を利用した基礎モデルが多数開発されている。
これらの自己教師型モデルから抽出された特徴は個々のWSIによってクラスタ化される傾向にあり、これはWSI固有の特徴崩壊と呼ばれる現象である。
この問題は、様々な下流タスクにおけるモデルの一般化能力と性能を制限する可能性がある。
この問題に対処するために,染色正規化を施したパッチをトレーニングした新しい基礎モデルであるEXAONEPathを紹介する。
Stain normalizationは、異なる研究所やスキャナーから生じる色の変化を低減し、モデルがより一貫性のある特徴を学習できるようにする。
EXAONEPathは、合計34,795個のWSIから抽出された285,153,903個のパッチを使用して訓練されている。
実験により,EXAONEPathは特徴崩壊問題を著しく軽減し,個々のWSI特性に過度に適合するのではなく,より一般化した特徴を学習したことを示す。
我々は,EXAONEPathを6つのダウンストリームタスクデータセットの最先端モデルと比較し,この結果から,使用するWSIの数やモデルのパラメータ数に対して,EXAONEPathが優れた性能を発揮することが示された。
このことは、染色正規化の適用によりモデルの効率性と一般化能力が大幅に向上したことを示唆している。
Recent advancements in digital pathology have led to the development of numerous foundational models that utilize self-supervised learning on patches extracted from gigapixel whole slide images (WSIs). While this approach leverages vast amounts of unlabeled data, we have discovered a significant issue: features extracted from these self-supervised models tend to cluster by individual WSIs, a phenomenon we term WSI-specific feature collapse. This problem can potentially limit the model's generalization ability and performance on various downstream tasks. To address this issue, we introduce EXAONEPath, a novel foundational model trained on patches that have undergone stain normalization. Stain normalization helps reduce color variability arising from different laboratories and scanners, enabling the model to learn more consistent features. EXAONEPath is trained using 285,153,903 patches extracted from a total of 34,795 WSIs. Our experiments demonstrate that EXAONEPath significantly mitigates the feature collapse problem, indicating that the model has learned more generalized features rather than overfitting to individual WSI characteristics. We compared EXAONEPath with state-of-the-art models across six downstream task datasets, and our results show that EXAONEPath achieves superior performance relative to the number of WSIs used and the model's parameter count. This suggests that the application of stain normalization has substantially improved the model's efficiency and generalization capabilities. | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# セグメンテーションモデル2--2次元および3次元医用画像への応用
Segment anything model 2: an application to 2D and 3D medical images ( http://arxiv.org/abs/2408.00756v3 ) ライセンス: Link先を確認 | Haoyu Dong, Hanxue Gu, Yaqian Chen, Jichen Yang, Yuwen Chen, Maciej A. Mazurowski, | (参考訳) Segment Anything Model (SAM) は、プロンプトが与えられた画像に様々なオブジェクトをセグメント化できるため、注目されている。
最近開発されたSAM 2は、この機能をビデオ入力に拡張した。
これにより、SAMを3D画像に適用する機会が開ける。
本稿では,外科的画像,CT,MRI,PETなどの一般的な3Dモダリティ,X線や超音波などの2Dモダリティなど,21の医用画像データセットを収集することにより,SAM2の2次元画像と3次元画像の両方を分割する能力を広く評価する。
1)ボリュームから選択された1つまたは複数のスライスにプロンプトが提供されるマルチフレーム3Dセグメンテーションと、(2)各スライスにプロンプトが提供されるシングルフレーム2Dセグメンテーションとである。
前者はビデオと3Dモダリティにのみ適用され、後者はすべてのデータセットに適用される。
その結果,SAM2は単フレーム2次元セグメンテーションにおいてSAMと同等の性能を示し,アノテートするスライスの選択,伝搬方向,伝搬中に利用した予測などに応じて,多フレーム3次元セグメンテーション下での変動性能を示すことがわかった。
我々は,本研究がSAM2の医療分野における行動の理解を高め,SAM2をこの領域に適応する上での今後の取り組みの方向性を提供すると考えている。
私たちのコードは、https://github.com/mazurowski-lab/segment-anything2-medical-evaluationで利用可能です。
Segment Anything Model (SAM) has gained significant attention because of its ability to segment various objects in images given a prompt. The recently developed SAM 2 has extended this ability to video inputs. This opens an opportunity to apply SAM to 3D images, one of the fundamental tasks in the medical imaging field. In this paper, we extensively evaluate SAM 2's ability to segment both 2D and 3D medical images by first collecting 21 medical imaging datasets, including surgical videos, common 3D modalities such as computed tomography (CT), magnetic resonance imaging (MRI), and positron emission tomography (PET) as well as 2D modalities such as X-ray and ultrasound. Two evaluation settings of SAM 2 are considered: (1) multi-frame 3D segmentation, where prompts are provided to one or multiple slice(s) selected from the volume, and (2) single-frame 2D segmentation, where prompts are provided to each slice. The former only applies to videos and 3D modalities, while the latter applies to all datasets. Our results show that SAM 2 exhibits similar performance as SAM under single-frame 2D segmentation, and has variable performance under multi-frame 3D segmentation depending on the choices of slices to annotate, the direction of the propagation, the predictions utilized during the propagation, etc. We believe our work enhances the understanding of SAM 2's behavior in the medical field and provides directions for future work in adapting SAM 2 to this domain. Our code is available at: https://github.com/mazurowski-lab/segment-anything2-medical-evaluation. | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# GNN-SKAN:SwallowKANの力とGNNによる分子表現学習の促進
GNN-SKAN: Harnessing the Power of SwallowKAN to Advance Molecular Representation Learning with GNNs ( http://arxiv.org/abs/2408.01018v3 ) ライセンス: Link先を確認 | Ruifeng Li, Mingqian Li, Wei Liu, Hongyang Chen, | (参考訳) 効果的な分子表現学習は、分子特性予測と薬物設計の進歩に不可欠である。
メインストリームの分子表現学習アプローチはグラフニューラルネットワーク(GNN)に基づいている。
しかし、これらのアプローチは、不十分なアノテーション、分子多様性、過剰な監視のようなアーキテクチャ上の制限という3つの重要な課題に苦しむため、重要な構造的詳細が失われる。
これらの課題に対処するため、我々はKAN(Kolmogorov-Arnold Networks)を統合したGNNの新たなクラスを導入しました。
カンをGNNに組み込むことで,分子構造の表現が促進される。
我々はさらに、非線型ニューロンのコアとして適応的放射基底関数(RBF)を用いるSwaallowKAN(SKAN)と呼ばれる変種を用いてこのアプローチを進めた。
この革新は、計算効率と多様な分子構造への適応性の両方を改善する。
SKANの強みを生かして,新たなGNNクラスであるGNN-SKANと,その拡張型であるGNN-SKAN+を提案する。
我々の知る限り、分子表現学習に適したGNNアーキテクチャにKansを統合する最初の試みである。
6つの分類データセット、6つの回帰データセット、および4つの数ショットの学習データセットに対する実験は、我々のアプローチが精度と計算コストの観点から新しい最先端のパフォーマンスを達成することを示す。
Effective molecular representation learning is crucial for advancing molecular property prediction and drug design. Mainstream molecular representation learning approaches are based on Graph Neural Networks (GNNs). However, these approaches struggle with three significant challenges: insufficient annotations, molecular diversity, and architectural limitations such as over-squashing, which leads to the loss of critical structural details. To address these challenges, we introduce a new class of GNNs that integrates the Kolmogorov-Arnold Networks (KANs), known for their robust data-fitting capabilities and high accuracy in small-scale AI + Science tasks. By incorporating KANs into GNNs, our model enhances the representation of molecular structures. We further advance this approach with a variant called SwallowKAN (SKAN), which employs adaptive Radial Basis Functions (RBFs) as the core of the non-linear neurons. This innovation improves both computational efficiency and adaptability to diverse molecular structures. Building on the strengths of SKAN, we propose a new class of GNNs, GNN-SKAN, and its augmented variant, GNN-SKAN+, which incorporates a SKAN-based classifier to further boost performance. To our knowledge, this is the first work to integrate KANs into GNN architectures tailored for molecular representation learning. Experiments across 6 classification datasets, 6 regression datasets, and 4 few-shot learning datasets demonstrate that our approach achieves new state-of-the-art performance in terms of accuracy and computational cost. | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# SpecRover: LLMによるコードインテント抽出
SpecRover: Code Intent Extraction via LLMs ( http://arxiv.org/abs/2408.02232v3 ) ライセンス: Link先を確認 | Haifeng Ruan, Yuntong Zhang, Abhik Roychoudhury, | (参考訳) 自動プログラムの改善は通常、バグ修正と機能追加を自動的に生成する。
このようなプログラム改善は、LLMエージェントの形式で、大きな言語モデル(LLM)とプログラム解析機能を組み合わせることで達成できる。
プログラムの修復やプログラムの改善は通常、意図した振る舞いの仕様を必要とするので、仕様推論は高品質なプログラムパッチを作成するのに役立ちます。
本研究では,LLMエージェント内での反復的仕様推論のための効率的かつ低コストなワークフローについて検討する。
ソフトウェアプロジェクトで解決すべきGitHubの問題を考えると、私たちのゴールは、仕様推論を伴う反復的なコード検索を行うことです。
これらを捉えた意図は、レビューエージェントによって、パッチを検証するとともに、検証されたパッチに対する信頼性の尺度を提供することを目標として検査される。
当社のアプローチであるSpecRover(AutoCodeRover-v2)は,オープンソースのLLMエージェントであるAutoCodeRover上に構築されています。
2294のGitHubイシューからなる完全なSWE-Benchの評価では、AutoCodeRoverよりも50%以上改善されている。
利用可能なオープンソースエージェントと比較して、当社の作業は、SWE-Bench liteにおけるGitHubの平均的な問題を解決する上で、控えめなコスト(イシューあたり0.65ドル)を示しています。
SpecRoverによる説明の生成により、提案されたパッチが信頼できる形で受け入れられる場合において、より優れた"署名"が開発者に与えられるようになる。
SpecRoverはまた、プログラム修復技術がLLM時代に入ったとしても、自動プログラム修復における仕様推論の継続的な重要性を実証しようと試みている。
Autonomous program improvement typically involves automatically producing bug fixes and feature additions. Such program improvement can be accomplished by a combination of large language model (LLM) and program analysis capabilities, in the form of an LLM agent. Since program repair or program improvement typically requires a specification of intended behavior - specification inference can be useful for producing high quality program patches. In this work, we examine efficient and low-cost workflows for iterative specification inference within an LLM agent. Given a GitHub issue to be resolved in a software project, our goal is to conduct iterative code search accompanied by specification inference - thereby inferring intent from both the project structure and behavior. The intent thus captured is examined by a reviewer agent with the goal of vetting the patches as well as providing a measure of confidence in the vetted patches. Our approach SpecRover (AutoCodeRover-v2) is built on the open-source LLM agent AutoCodeRover. In an evaluation on the full SWE-Bench consisting of 2294 GitHub issues, it shows more than 50% improvement in efficacy over AutoCodeRover. Compared to the open-source agents available, our work shows modest cost ($0.65 per issue) in resolving an average GitHub issue in SWE-Bench lite. The production of explanation by SpecRover allows for a better "signal" to be given to the developer, on when the suggested patches can be accepted with confidence. SpecRover also seeks to demonstrate the continued importance of specification inference in automated program repair, even as program repair technologies enter the LLM era. | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# 強化学習による変形性膝関節症のアクティブセンシング
Active Sensing of Knee Osteoarthritis Progression with Reinforcement Learning ( http://arxiv.org/abs/2408.02349v3 ) ライセンス: Link先を確認 | Khanh Nguyen, Huy Hoang Nguyen, Egor Panfilov, Aleksei Tiulpin, | (参考訳) 変形性関節症(OA)は最も一般的な筋骨格疾患であり、治療法がない。
Knee OA (KOA) は障害の最も高い原因の1つであり、世界社会には数十億ドルの費用がかかる。
KOAの進行予測は、より効率的な臨床試験を通じて治療開発を進め、より効率的な医療利用を通じて患者の成果を向上させることができるため、何年もの間、コミュニティにとって大きな関心を集めてきた。
しかしながら、既存の KOA 予測のアプローチは、主に静的であり、例えば、単一時点からのデータを将来への何年もの進展を予測するため、膝のレベル、すなわち単一の関節での進行のみを考えるためである。
これらの理由と関連する理由により、これらの手法は予測性能のレベルを達成できず、コスト削減と患者のより良い結果をもたらすのに十分である。
全ての患者から定期的に大量のデータを収集することはこの問題に対処できるが、人口レベルでの高コストによって制限される。
本研究では,OAにおける静的な予測モデルを超えて,情報取得回数を最大化しつつ,その総コストを一定時間で最小化することを目的として,患者を動的に追跡する新しいアクティブセンシング(AS)アプローチを提案する。
我々のアプローチは強化学習(Reinforcement Learning, RL)に基づいており、人間の身体の1つ以上の部分における疾患進行のASに特化して設計された新しい報酬機能を活用している。
提案手法はエンドツーエンドであり,マルチモーダルなDeep Learningに依存し,推論時に人間の入力を必要としない。
徹底的な実験評価を通じて、RLを用いることで、最先端のベースラインと比較して高い金銭的利益が得られることを示す。
Osteoarthritis (OA) is the most common musculoskeletal disease, which has no cure. Knee OA (KOA) is one of the highest causes of disability worldwide, and it costs billions of United States dollars to the global community. Prediction of KOA progression has been of high interest to the community for years, as it can advance treatment development through more efficient clinical trials and improve patient outcomes through more efficient healthcare utilization. Existing approaches for predicting KOA, however, are predominantly static, i.e. consider data from a single time point to predict progression many years into the future, and knee level, i.e. consider progression in a single joint only. Due to these and related reasons, these methods fail to deliver the level of predictive performance, which is sufficient to result in cost savings and better patient outcomes. Collecting extensive data from all patients on a regular basis could address the issue, but it is limited by the high cost at a population level. In this work, we propose to go beyond static prediction models in OA, and bring a novel Active Sensing (AS) approach, designed to dynamically follow up patients with the objective of maximizing the number of informative data acquisitions, while minimizing their total cost over a period of time. Our approach is based on Reinforcement Learning (RL), and it leverages a novel reward function designed specifically for AS of disease progression in more than one part of a human body. Our method is end-to-end, relies on multi-modal Deep Learning, and requires no human input at inference time. Throughout an exhaustive experimental evaluation, we show that using RL can provide a higher monetary benefit when compared to state-of-the-art baselines. | 翻訳日:2024-08-23 18:46:20 公開日:2024-08-22 |
# 散逸性量子相転移における局所エルゴトロピーとそのゆらぎ
Local ergotropy and its fluctuations across a dissipative quantum phase transition ( http://arxiv.org/abs/2408.02655v3 ) ライセンス: Link先を確認 | G. Di Bello, D. Farina, D. Jansen, C. A. Perroni, V. Cataudella, G. De Filippis, | (参考訳) 局所エルゴトロピーに着目した2量子開Rabiモデルについて検討し、ベレジンスキー-コステリッツ-Thouless相転移が起こるパラメータ状態において、2量子ビットのみに作用する最大抽出可能な作業について検討する。
まず、オープンな量子電池の動作原理として解釈された2量子ビットシステムの充電、保存、放電のためのプロトコルを定義することを目的とする。
第二に, 相転移がエルゴトロピーに及ぼす影響について検討し, 潜在的なマーカーを同定する。
これらの目的を達成するために、我々は、遷移に近い基底状態の知識を活用してアドホック帯電ユニタリ演算子を構築し、記憶中にデコヒーレンスのない状態にする。
行列積状態表現に基づく最先端数値を用いて, 外部浴への高結合は, 充電直後の局所エルゴトロピーの約2倍であることを明らかにした。
時間とともに、エルゴトロピーとその変動の振動挙動を観察し、遷移の近くで大きな変化を経験し、その発生を示唆する。
さらに、局所エルゴトロピーを物理的にインスパイアされたアンザッツを用いて時間とともに最適化し、一般的な時間での作業抽出を可能にする(局所エルゴトロピーはゼロには達しない)。
本研究は, 脱コヒーレンスのない状態と相転移を利用した, 作業抽出のための可変かつ実験的に実現可能なプロトコルを提案する。
さらに、局所エルゴトロピーと量子相転移の間の複雑な相互作用に光を当てる。
We investigate a two-qubit open Rabi model, focusing on local ergotropy--the maximum extractable work by acting solely on the two qubits--within a parameter regime where a Berezinskii-Kosterlitz-Thouless dissipative phase transition occurs. First, we aim to define a protocol for charging, storing, and discharging the two-qubit system, interpreted as the working principle of an open quantum battery. Second, we examine the impact of the phase transition on ergotropy and identify potential markers. To achieve these goals, we construct an ad-hoc charging unitary operator, leveraging our knowledge of the ground state near the transition to bring it into a decoherence-free state during storage. Using state-of-the-art numerics based on matrix product state representation, we reveal that high couplings to an external bath approximately double the local ergotropy immediately post-charging. Over time we observe oscillatory behaviors in ergotropy and its fluctuations, which undergo significant changes near the transition, signaling its occurrence. Furthermore, we optimize local ergotropy over time using a physically inspired ansatz, enabling work extraction at a generic time (local ergotropy never reaches zero). Our work proposes a tunable, experimentally realizable protocol for work extraction, leveraging decoherence-free states and phase transitions. Additionally, it sheds light on the complex interaction between local ergotropy and quantum phase transitions. | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# Lighthouse: 再現可能なビデオモーメント検索とハイライト検出のためのユーザフレンドリーなライブラリ
Lighthouse: A User-Friendly Library for Reproducible Video Moment Retrieval and Highlight Detection ( http://arxiv.org/abs/2408.02901v2 ) ライセンス: Link先を確認 | Taichi Nishimura, Shota Nakada, Hokuto Munakata, Tatsuya Komatsu, | (参考訳) 再現可能なビデオモーメント検索とハイライト検出(MR-HD)のためのユーザフレンドリーなライブラリであるLighthouseを提案する。
研究者は様々なMR-HDアプローチを提案したが、研究コミュニティには2つの主要な課題がある。
1つ目は、さまざまなメソッド、データセット、ビデオテキスト機能にまたがる包括的な再現可能な実験の欠如である。
これは、統一的なトレーニングや評価コードベースが複数の設定をカバーしていないためです。
2つ目はユーザーフレンドリーなデザインです。
以前の研究では異なるライブラリを使用していたため、研究者は個別の環境を構築した。
加えて、ほとんどの作業はトレーニングコードのみをリリースし、MR-HDの全推論プロセスを実装する必要がある。
Lighthouseは6つのモデル、3つの機能、5つのデータセットを含む再現可能なコードベースを統一して実装することで、これらの問題に対処する。
さらに、推論APIとWebデモを提供し、これらのメソッドが研究者や開発者にとって容易にアクセスできるようにする。
我々の実験は、Lighthouseが参照論文で報告されたスコアを一般的に再現していることを示している。
コードはhttps://github.com/line/lighthouse.comで公開されている。
We propose Lighthouse, a user-friendly library for reproducible video moment retrieval and highlight detection (MR-HD). Although researchers proposed various MR-HD approaches, the research community holds two main issues. The first is a lack of comprehensive and reproducible experiments across various methods, datasets, and video-text features. This is because no unified training and evaluation codebase covers multiple settings. The second is user-unfriendly design. Because previous works use different libraries, researchers set up individual environments. In addition, most works release only the training codes, requiring users to implement the whole inference process of MR-HD. Lighthouse addresses these issues by implementing a unified reproducible codebase that includes six models, three features, and five datasets. In addition, it provides an inference API and web demo to make these methods easily accessible for researchers and developers. Our experiments demonstrate that Lighthouse generally reproduces the reported scores in the reference papers. The code is available at https://github.com/line/lighthouse. | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# SuperSimpleNet: 高速で信頼性の高い表面欠陥検出のための教師なしおよび教師付き学習の統合
SuperSimpleNet: Unifying Unsupervised and Supervised Learning for Fast and Reliable Surface Defect Detection ( http://arxiv.org/abs/2408.03143v2 ) ライセンス: Link先を確認 | Blaž Rolih, Matic Fučka, Danijel Skočaj, | (参考訳) 表面欠陥検出の目的は、捕獲された物体の表面の異常領域を特定し、ローカライズすることである。
現在のアプローチでは、高パフォーマンス、一貫性、高速な運用を含む、これらの産業の広範な要求を満たすことができず、利用可能なトレーニングデータ全体を活用できないことが多い。
これらのギャップに対処するために、SimpleNetから進化した革新的な差別モデルであるSuperSimpleNetを紹介します。
この高度なモデルは、前任者のトレーニング一貫性、推論時間、および検出性能を大幅に向上させる。
SuperSimpleNetは、通常のトレーニングイメージのみを使用して教師なしの方法で動作します。
SuperSimpleNetは、4つの挑戦的なベンチマークデータセットで実証されたように、教師付き設定と教師なし設定の両方で最先端の結果を達成する。
コード:https://github.com/blaz-r/SuperSimpleNet。
The aim of surface defect detection is to identify and localise abnormal regions on the surfaces of captured objects, a task that's increasingly demanded across various industries. Current approaches frequently fail to fulfil the extensive demands of these industries, which encompass high performance, consistency, and fast operation, along with the capacity to leverage the entirety of the available training data. Addressing these gaps, we introduce SuperSimpleNet, an innovative discriminative model that evolved from SimpleNet. This advanced model significantly enhances its predecessor's training consistency, inference time, as well as detection performance. SuperSimpleNet operates in an unsupervised manner using only normal training images but also benefits from labelled abnormal training images when they are available. SuperSimpleNet achieves state-of-the-art results in both the supervised and the unsupervised settings, as demonstrated by experiments across four challenging benchmark datasets. Code: https://github.com/blaz-r/SuperSimpleNet . | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# 混合型エントロピー:因果介入と摂動を伴う領域一般化
Mixstyle-Entropy: Domain Generalization with Causal Intervention and Perturbation ( http://arxiv.org/abs/2408.03608v2 ) ライセンス: Link先を確認 | Luyao Tang, Yuxuan Yuan, Chaoqi Chen, Xinghao Ding, Yue Huang, | (参考訳) ディープニューラルネットワークによって達成されたかなりの進歩にもかかわらず、テスト環境がトレーニング環境から逸脱する傾向にある。
ドメイン一般化(DG)は、ドメイン関連情報に依存しない表現を学習することでこの問題を解決し、未知の環境への外挿を容易にする。
既存のアプローチは典型的には、ソースデータから共有された特徴を抽出するための調整済みのトレーニング目標の定式化に重点を置いている。
しかし、解離したトレーニングとテストの手順は、特に展開中に予期せぬ変動に直面した場合、堅牢性を損なう可能性がある。
本稿では,因果関係を基礎とした新しい枠組みInPerを提案する。このフレームワークは,訓練中の因果的介入と試験中の因果的摂動を組み込むことで,モデル一般化の促進を目的としている。
具体的には、トレーニングフェーズにおいて、エントロピーに基づく因果介入(EnIn)を用いて因果変数の選択を洗練させる。
対象領域から反干渉因果変数を持つサンプルを同定するために, 因果摂動(HoPer)を通した新しい計量, ホメオスタティックスコアを提案し, 試行時間内にプロトタイプ分類器を構築する。
複数のクロスドメインタスクにまたがる実験結果から、InPerの有効性が確認された。
Despite the considerable advancements achieved by deep neural networks, their performance tends to degenerate when the test environment diverges from the training ones. Domain generalization (DG) solves this issue by learning representations independent of domain-related information, thus facilitating extrapolation to unseen environments. Existing approaches typically focus on formulating tailored training objectives to extract shared features from the source data. However, the disjointed training and testing procedures may compromise robustness, particularly in the face of unforeseen variations during deployment. In this paper, we propose a novel and holistic framework based on causality, named InPer, designed to enhance model generalization by incorporating causal intervention during training and causal perturbation during testing. Specifically, during the training phase, we employ entropy-based causal intervention (EnIn) to refine the selection of causal variables. To identify samples with anti-interference causal variables from the target domain, we propose a novel metric, homeostatic score, through causal perturbation (HoPer) to construct a prototype classifier in test time. Experimental results across multiple cross-domain tasks confirm the efficacy of InPer. | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# 概念導体:テキスト・画像合成における複数のパーソナライズされた概念のオーケストレーション
Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis ( http://arxiv.org/abs/2408.03632v2 ) ライセンス: Link先を確認 | Zebin Yao, Fangxiang Feng, Ruifan Li, Xiaojie Wang, | (参考訳) テキスト・ツー・イメージ・モデルのカスタマイズは大きな進歩を遂げているが、複数のパーソナライズされた概念を生成することは難しい課題である。
現在の手法では、複数の概念を扱う際に属性の漏洩とレイアウトの混乱に悩まされ、概念の忠実度とセマンティック一貫性が低下する。
本研究では,マルチコンセプトのカスタマイズにおいて,視覚的忠実度と正確なレイアウトを確保するために設計された,新しいトレーニングフリーフレームワークであるConcept Conductorを紹介する。
コンセプションコンダクタは、複数のカスタムモデルのサンプリングプロセスを分離し、異なる概念間の属性の漏洩を防止し、自己注意に基づく空間ガイダンスを通じて誤ったレイアウトを修正する。
また,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
この技術は,注目層における特徴融合を通じてパーソナライズされた概念の構造と外観を注入し,最終的な画像の調和を確保する。
大規模定性的かつ定量的な実験により、Concept Conductorは、各概念の視覚的詳細を保存しながら、正確なレイアウトを持つ合成イメージを一貫して生成できることが示されている。
既存のベースラインと比較して、Concept Conductorは大幅なパフォーマンス向上を示している。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
コードとモデルはhttps://github.com/Nihukat/Concept-Conductor.comで公開されている。
The customization of text-to-image models has seen significant advancements, yet generating multiple personalized concepts remains a challenging task. Current methods struggle with attribute leakage and layout confusion when handling multiple concepts, leading to reduced concept fidelity and semantic consistency. In this work, we introduce a novel training-free framework, Concept Conductor, designed to ensure visual fidelity and correct layout in multi-concept customization. Concept Conductor isolates the sampling processes of multiple custom models to prevent attribute leakage between different concepts and corrects erroneous layouts through self-attention-based spatial guidance. Additionally, we present a concept injection technique that employs shape-aware masks to specify the generation area for each concept. This technique injects the structure and appearance of personalized concepts through feature fusion in the attention layers, ensuring harmony in the final image. Extensive qualitative and quantitative experiments demonstrate that Concept Conductor can consistently generate composite images with accurate layouts while preserving the visual details of each concept. Compared to existing baselines, Concept Conductor shows significant performance improvements. Our method supports the combination of any number of concepts and maintains high fidelity even when dealing with visually similar concepts. The code and models are available at https://github.com/Nihukat/Concept-Conductor. | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# ゼロショット画像認識における要素幅表現と推論について:システム的調査
On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey ( http://arxiv.org/abs/2408.04879v2 ) ライセンス: Link先を確認 | Jingcai Guo, Zhijie Rao, Zhi Chen, Song Guo, Jingren Zhou, Dacheng Tao, | (参考訳) Zero-shot Image Recognition (ZSIR) は、目に見えない領域において、限られたデータから一般化された知識を学習することで、モデルに認識と推論の権限を与えることを目的としている。
ZSIRのギストは、入力された視覚空間から対象のセマンティック空間への要素ワイド表現と推論を実行することであり、これは人間が世界を観察する過程、すなわち、基本的な構成要素や共有特性を学習・組み合わせて新しい概念を捉えるプロセスにインスパイアされたボトムアップモデリングパラダイムである。
近年、要素学習技術はZSIRや広範囲の応用において大きな進歩を遂げている。
しかし、私たちの知る限りでは、このトピックの体系的な概要はいまだに残っていない。
文献の充実と今後の発展のための健全な基盤を提供するため,本論文では,近年の要素ワイドZSIRの進歩を概観する。
具体的には、まず、オブジェクト認識、構成認識、基礎モデルに基づくオープンワールド認識の3つの基本的なZSIRタスクを統一された要素的視点に統合し、主要な研究手法の詳細な分類と分析を行う。
そして、詳細な技術実装や共通データセットなど、いくつかの重要な情報とベンチマークを収集し、まとめます。
最後に、関連するアプリケーションの範囲を概観し、重要な課題について議論し、将来的な方向性を提案する。
Zero-shot image recognition (ZSIR) aims at empowering models to recognize and reason in unseen domains via learning generalized knowledge from limited data in the seen domain. The gist for ZSIR is to execute element-wise representation and reasoning from the input visual space to the target semantic space, which is a bottom-up modeling paradigm inspired by the process by which humans observe the world, i.e., capturing new concepts by learning and combining the basic components or shared characteristics. In recent years, element-wise learning techniques have seen significant progress in ZSIR as well as widespread application. However, to the best of our knowledge, there remains a lack of a systematic overview of this topic. To enrich the literature and provide a sound basis for its future development, this paper presents a broad review of recent advances in element-wise ZSIR. Concretely, we first attempt to integrate the three basic ZSIR tasks of object recognition, compositional recognition, and foundation model-based open-world recognition into a unified element-wise perspective and provide a detailed taxonomy and analysis of the main research approaches. Then, we collect and summarize some key information and benchmarks, such as detailed technical implementations and common datasets. Finally, we sketch out the wide range of its related applications, discuss vital challenges, and suggest potential future directions. | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# ニューラルマシンアングレード
Neural Machine Unranking ( http://arxiv.org/abs/2408.05330v2 ) ライセンス: Link先を確認 | Jingrui Hou, Axel Finke, Georgina Cosma, | (参考訳) ニューラル・マシン・アンランキング(ニューラル・マシン・アンランキング、NuMuR)と呼ばれる、ニューラルネットワーク検索における機械学習の問題に取り組む。
機械学習における主要なタスクやモデルに依存しないアプローチの多くは、分類タスクのために設計された。
まず,これらの手法がニューラル情報検索によって引き起こされる独特な課題により,NuMuRのタスクに対して不十分に動作することを示す。
次に,NuMuR における Contrastive and Consistent Loss (CoCoL) という手法を開発し,データ忘れることの目的と性能保持を効果的にバランスさせる。
実験により,CoCoLは既存の技術よりも効率的かつ制御可能なデータ除去を容易にすることが示された。
We tackle the problem of machine unlearning within neural information retrieval, termed Neural Machine UnRanking (NuMuR) for short. Many of the mainstream task- or model-agnostic approaches for machine unlearning were designed for classification tasks. First, we demonstrate that these methods perform poorly on NuMuR tasks due to the unique challenges posed by neural information retrieval. Then, we develop a methodology for NuMuR named Contrastive and Consistent Loss (CoCoL), which effectively balances the objectives of data forgetting and model performance retention. Experimental results demonstrate that CoCoL facilitates more effective and controllable data removal than existing techniques. | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# 時空間融合ネットワークによる物体再同定と因果同一性マッチング
Object Re-identification via Spatial-temporal Fusion Networks and Causal Identity Matching ( http://arxiv.org/abs/2408.05558v2 ) ライセンス: Link先を確認 | Hye-Geun Kim, Yong-Hyuk Moon, Yeong-Jun Cho, | (参考訳) 大規模カメラネットワークにおけるオブジェクト再識別(ReID)は多くの課題に直面している。
まず、オブジェクトの類似した外観がReIDのパフォーマンスを低下させる。
第二に、ほとんどのReID研究は実験室で行われ、現実のシナリオを考慮しない。
これらの課題を克服するために、空間時間融合ネットワークと因果同一性マッチング(CIM)を活用する新しいReIDフレームワークを導入する。
本フレームワークは,提案した適応型Parzenウィンドウを用いてカメラネットワークトポロジを推定し,外観特徴と融合ネットワーク内の空間的時間的手がかりを組み合わせる。
このアプローチは、VeRi776、Vine-3I、Market-1501を含むいくつかのデータセットで顕著な性能を示し、99.70%のランク1の精度と95.5%のmAPを達成した。
さらに、カメラネットワークトポロジに基づいてギャラリーセットを動的に割り当てるCIMアプローチでは、実際の設定におけるReID精度とロバスト性をさらに向上させ、94.95% mAPと95.19%のF1スコアで証明された。
実験結果は、データ領域(例えば、車、人)に関係なく、空間時間情報とCIMを実世界のReIDシナリオに組み込むことの有効性を支持する。
Object re-identification (ReID) in large camera networks faces numerous challenges. First, the similar appearances of objects degrade ReID performance, a challenge that needs to be addressed by existing appearance-based ReID methods. Second, most ReID studies are performed in laboratory settings and do not consider real-world scenarios. To overcome these challenges, we introduce a novel ReID framework that leverages a spatial-temporal fusion network and causal identity matching (CIM). Our framework estimates camera network topology using a proposed adaptive Parzen window and combines appearance features with spatial-temporal cues within the fusion network. This approach has demonstrated outstanding performance across several datasets, including VeRi776, Vehicle-3I, and Market-1501, achieving up to 99.70% rank-1 accuracy and 95.5% mAP. Furthermore, the proposed CIM approach, which dynamically assigns gallery sets based on camera network topology, has further improved ReID accuracy and robustness in real-world settings, evidenced by a 94.95% mAP and a 95.19% F1 score on the Vehicle-3I dataset. The experimental results support the effectiveness of incorporating spatial-temporal information and CIM for real-world ReID scenarios, regardless of the data domain (e.g., vehicle, person). | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# 都市地域の事前学習とプロンプト:グラフに基づくアプローチ
Urban Region Pre-training and Prompting: A Graph-based Approach ( http://arxiv.org/abs/2408.05920v2 ) ライセンス: Link先を確認 | Jiahui Jin, Yifan Song, Dong Kan, Haojia Zhu, Xiangguo Sun, Zhicheng Li, Xigang Sun, Jinghui Zhang, | (参考訳) 都市域の表現は、様々な都市下流業務に不可欠である。
しかし, 手法の普及とその成功にもかかわらず, 都市部における一般知識の獲得と異なる課題への適応は依然として困難である。
以前の研究は、しばしば実体間の空間構造と機能的レイアウトを無視し、領域間で伝達可能な知識を捕捉する能力を制限する。
さらに、これらの手法は、異なる下流タスクに必要なユニークな特徴や関係を適切に扱えないため、特定の下流タスクに効果的に適応するのに苦労する。
本稿では、地域表現学習のための$\textbf{G}$raph-based $\textbf{U}$rban $\textbf{R}$egion $\textbf{P}$re-trainingおよび$\textbf{P}$rompting framework$\textbf{GURPP}$)を提案する。
具体的には、まず、より効果的な都市域表現のための詳細な空間実体データを統合する都市域グラフを構築する。
そこで我々は,サブグラフ中心の都市域事前学習モデルを構築し,異種・移動可能な実体間の相互作用パターンを抽出する。
異なるタスクへの埋め込みの適応性をさらに向上するため、明示的/隠蔽的なタスク知識を組み込むグラフベースの2つのプロンプト手法を設計する。
GURPPフレームワークの優れた性能を示すため,様々な都市域予測タスクと異なる都市を対象とした大規模な実験を行った。
コードとデータを紙の通知で公開します。
Urban region representation is crucial for various urban downstream tasks. However, despite the proliferation of methods and their success, acquiring general urban region knowledge and adapting to different tasks remains challenging. Previous work often neglects the spatial structures and functional layouts between entities, limiting their ability to capture transferable knowledge across regions. Further, these methods struggle to adapt effectively to specific downstream tasks, as they do not adequately address the unique features and relationships required for different downstream tasks. In this paper, we propose a $\textbf{G}$raph-based $\textbf{U}$rban $\textbf{R}$egion $\textbf{P}$re-training and $\textbf{P}$rompting framework ($\textbf{GURPP}$) for region representation learning. Specifically, we first construct an urban region graph that integrates detailed spatial entity data for more effective urban region representation. Then, we develop a subgraph-centric urban region pre-training model to capture the heterogeneous and transferable patterns of interactions among entities. To further enhance the adaptability of these embeddings to different tasks, we design two graph-based prompting methods to incorporate explicit/hidden task knowledge. Extensive experiments on various urban region prediction tasks and different cities demonstrate the superior performance of our GURPP framework. We wil release code and data upon paper notification. | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# 非エルミタントポロジカルバスにおけるキラル延長光電子放出状態
Chiral-Extended Photon-Emitter Dressed States in Non-Hermitian Topological Baths ( http://arxiv.org/abs/2408.07603v2 ) ライセンス: Link先を確認 | Zhao-Fan Cai, Xin Wang, Zi-Xuan Liang, Tao Liu, Franco Nori, | (参考訳) 量子エミッターと非エルミート構造浴の相互作用は近年注目されている。
そこで本研究では,非エルミート位相浴に結合した量子エミッタの非局所散逸を受ける1次元Su-Schrieffer-Heegerフォトニックチェーンにおいて,従来と異なる量子光学挙動を予測した。
中間線間隙におけるエルミート様キラル境界状態と点間隙内のスキンモード様隠れ境界状態に加えて,特異なギャップ内キラルおよび拡張光子-エミッタ型服装状態が同定された。
これは、トポロジカルエッジローカライゼーションと非ヘルミタンスキンモードローカライゼーションと非ブロックバルクバウンダリー対応との競合によるものである。
さらに、2つのエミッタが同じ浴槽に結合された場合、そのようなギャップ内装状態は、浴槽の消散によってのみ、非相互の長距離エミッタ-エミッタ相互作用を仲介することができる。
我々の研究は、より豊富な量子光学現象と、非エルミート位相浴に結合された量子エミッタを用いたエキゾチック多体物理学を研究するための扉を開く。
The interplay of quantum emitters and non-Hermitian structured baths has received increasing attention in recent years. Here, we predict unconventional quantum optical behaviors of quantum emitters coupled to a non-Hermitian topological bath, which is realized in a 1D Su-Schrieffer-Heeger photonic chain subjected to nonlocal dissipation. In addition to the Hermitian-like chiral bound states in the middle line gap and skin-mode-like hidden bound states inside the point gap, we identify peculiar in-gap chiral and extended photon-emitter dressed states. This is due to the competition of topological-edge localization and non-Hermitian skin-mode localization in combination with the non-Bloch bulk-boundary correspondence. Furthermore, when two emitters are coupled to the same bath, such in-gap dressed states can mediate the nonreciprocal long-range emitter-emitter interactions, with the interaction range limited only by the dissipation of the bath. Our work opens the door to further study rich quantum optical phenomena and exotic many-body physics utilizing quantum emitters coupled to non-Hermitian topological baths. | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# 振動場による電子の減速
Deceleration of electrons by an oscillating field ( http://arxiv.org/abs/2408.07664v2 ) ライセンス: Link先を確認 | O. V. Kibis, | (参考訳) 振動する電磁場の下での電子力学に対する量子補正は、周期的に駆動される量子系のフロケ理論の中で見られる。
磁場下で振動する電子による光子の放出がその前方運動の方向に対して非対称であることを示す。
それぞれの光子の放出は電子への運動量移動を伴うため、そのようなスクリュー放出は電子を減速させる量子リコイル力につながる。
レーザー照射により駆動される様々な電子系について、この現象の可能性を議論する。
Quantum corrections to electron dynamics under an oscillating electromagnetic field are found within the Floquet theory of periodically driven quantum systems. It is demonstrated that emission of photons by an electron oscillating under the field is asymmetric with respect to the direction of its forward movement. Since emission of each photon is accompanied by momentum transfer to the electron, such a skew emission leads to the quantum recoil force decelerating the electron. Possible manifestations of this phenomenon are discussed for various electronic systems driven by laser irradiation. | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# 絡み合い浄化計画から忠実度制約付きマルチフロールーティングへ
From Entanglement Purification Scheduling to Fidelity-constrained Multi-Flow Routing ( http://arxiv.org/abs/2408.08243v2 ) ライセンス: Link先を確認 | Ziyue Jia, Lin Chen, | (参考訳) 最近、破壊的なネットワークパラダイムとして出現し、量子ネットワークは量子粒子を物理的に転送することなく、量子ビットをテレポートする謎の量子絡み合いに依存している。
しかし、量子システムの状態は環境ノイズのために非常に脆弱である。
量子デコヒーレンスと戦うための有望な技術は、絡み合いの浄化である。
その利点を完全に活用するには、(1)絡み合いの経路が与えられた場合、最適な絡み合い浄化スケジュールは何かという2つの基本的な研究課題に答える必要がある。
2) 忠実度制約を受ける最小コストエンドツーエンドの絡み合い経路の計算法
本稿では,両問題に対するアルゴリズム的解法を提案する。
まず, 単一ホップケースに対する最適絡み合わせ浄化スケジューリングアルゴリズムを開発し, 最適条件の定式化により, マルチホップケースにおける \textsc{purify-and-swap} 戦略を解析する。
2つ目の問題として、$\epsilon$-optimal fidelity-constrained path を構成する多項式時間アルゴリズムを設計する。
また,提案アルゴリズムの有効性をシミュレーションにより数値的に検証した。
Recently emerged as a disruptive networking paradigm, quantum networks rely on the mysterious quantum entanglement to teleport qubits without physically transferring quantum particles. However, the state of quantum systems is extremely fragile due to environment noise. A promising technique to combat against quantum decoherence is entanglement purification. To fully exploit its benefit, two fundamental research questions need to be answered: (1) given an entanglement path, what is the optimal entanglement purification schedule? (2) how to compute min-cost end-to-end entanglement paths subject to fidelity constraint? In this paper, we give algorithmic solutions to both questions. For the first question, we develop an optimal entanglement purification scheduling algorithm for the single-hop case and analyze the \textsc{purify-and-swap} strategy in the multi-hop case by establishing the closed-form condition for its optimality. For the second question, we design a polynomial-time algorithm constructing an $\epsilon$-optimal fidelity-constrained path. The effectiveness of our algorithms are also numerically demonstrated by extensive simulations. | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# 大規模コードモデルのためのAPI誘導型データセット合成
API-guided Dataset Synthesis to Finetune Large Code Models ( http://arxiv.org/abs/2408.08343v2 ) ライセンス: Link先を確認 | Zongjie Li, Daoyuan Wu, Shuai Wang, Zhendong Su, | (参考訳) 大規模なコードモデル(LCM)は、大量のコードコーパスで事前訓練され、幅広いコード関連タスクで顕著なパフォーマンスを示している。
監視された微調整(SFT)は、これらのモデルを特定の要求と整合させ、特定の領域におけるそれらのパフォーマンスを高める上で重要な役割を担います。
しかし、高品質なSFTデータセットを合成することは、データセットの不均一な品質とドメイン固有のデータセットの不足のために大きな課題となる。
簡潔な構造でリッチなセマンティック情報をカプセル化するコードの高レベルの抽象化としてAPIに触発され,汎用シナリオとドメイン固有のシナリオの両方において,LCMのSFTプロセスを強化するように設計されたAPI誘導データセット合成フレームワークであるDataScopeを提案する。
DataScopeはDselとDgenの2つの主要コンポーネントで構成されている。
一方、DselはAPIカバレッジをコアメトリックとして採用し、既存の(不均一な)データセットのサブセットを高いAPIカバレッジで選択することで、一般的なシナリオでの効率的なデータセット合成を可能にする。
一方Dgenは、API仕様の高レベル機能と意図的に構成されたコードスケルトンを使用して具体的なコードを合成するプロセスとして、ドメインデータセットの合成を再キャストする。
大規模な実験では、DataScopeの有効性が実証され、合成データセットに微調整されたモデルは、最適化されていないデータセットで5倍の精度でチューニングされた。
さらに、モデル内部、関連するハイパーパラメータ、ケーススタディに関する一連の分析により、提案手法の有効性に関するさらなる証拠が得られた。
これらの知見は、高品質なデータセットを構築するための効率的で費用対効果の高いフレームワークを提供することにより、SFTにおけるデータセットの品質の重要性とLCMの分野を前進させるものである。
このコントリビューションにより、汎用シナリオとドメイン固有のシナリオの両方のパフォーマンスが向上し、より強力でカスタマイズされたLCMへの道が開かれた。
Large code models (LCMs), pre-trained on vast code corpora, have demonstrated remarkable performance across a wide array of code-related tasks. Supervised fine-tuning (SFT) plays a vital role in aligning these models with specific requirements and enhancing their performance in particular domains. However, synthesizing high-quality SFT datasets poses a significant challenge due to the uneven quality of datasets and the scarcity of domain-specific datasets. Inspired by APIs as high-level abstractions of code that encapsulate rich semantic information in a concise structure, we propose DataScope, an API-guided dataset synthesis framework designed to enhance the SFT process for LCMs in both general and domain-specific scenarios. DataScope comprises two main components: Dsel and Dgen. On one hand, Dsel employs API coverage as a core metric, enabling efficient dataset synthesis in general scenarios by selecting subsets of existing (uneven-quality) datasets with higher API coverage. On the other hand, Dgen recasts domain dataset synthesis as a process of using API-specified high-level functionality and deliberately-constituted code skeletons to synthesize concrete code. Extensive experiments demonstrate DataScope's effectiveness, with models fine-tuned on its synthesized datasets outperforming those tuned on unoptimized datasets five times larger. Furthermore, a series of analyses on model internals, relevant hyperparameters, and case studies provide additional evidence for the efficacy of our proposed methods. These findings underscore the significance of dataset quality in SFT and advance the field of LCMs by providing an efficient, cost-effective framework for constructing high-quality datasets. This contribution enhances performance across both general and domain-specific scenarios, paving the way for more powerful and tailored LCMs. | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# 何千もの領域にわたる電力消費プロファイルのモデル化のための効率よく説明可能な変圧器ベースFew-Shot学習
An Efficient and Explainable Transformer-Based Few-Shot Learning for Modeling Electricity Consumption Profiles Across Thousands of Domains ( http://arxiv.org/abs/2408.08399v2 ) ライセンス: Link先を確認 | Weijie Xia, Gao Peng, Chenguang Wang, Peter Palensky, Eric Pauwels, Pedro P. Vergara, | (参考訳) 電力消費プロファイル(ECP)は、特にソーラーパネルや電気自動車などの様々な低炭素技術の増加に伴い、電力流通システムの運用と計画に不可欠である。
従来のECPモデリング手法は、一般的に十分なECPデータの可用性を前提としている。
しかし、実際には、プライバシー上の問題や計測装置がないため、ECPデータのアクセシビリティは制限されている。
FSL(Few-shot Learning)は、データスカースシナリオにおけるECPモデリングのための有望なソリューションとして登場した。
しかしながら、画像に使用されるような標準のFSL法は、1) 十分なデータを持つ複数のソースドメインと複数のターゲットドメインを仮定するので、ECPモデリングには適さない。
しかし、ECPモデリングの文脈では、適度な量のデータと数千のターゲットドメインを持つ何千ものソースドメインが存在するかもしれません。
2)標準FSL法は通常,事前学習や微調整などの煩雑な知識伝達機構を含むが,ECPモデリングではより軽量な手法が必要である。
(3) 深層学習モデルは、しばしば説明責任を欠き、産業における応用を妨げる。
本稿では,トランスフォーマーとガウス混合モデル(GMM)を利用した新しいFSL手法を提案する。
以上の結果から,提案手法はECPデータを最小限(例:完全ドメインデータセットの1.6.%)で精度良く復元できる一方で,最新時系列モデリング手法よりも優れており,軽量かつ解釈可能な長所を保っていることがわかった。
プロジェクトはhttps://github.com/xiaweijie 1996/TransformerEM-GMM.gitでオープンソース化されている。
Electricity Consumption Profiles (ECPs) are crucial for operating and planning power distribution systems, especially with the increasing numbers of various low-carbon technologies such as solar panels and electric vehicles. Traditional ECP modeling methods typically assume the availability of sufficient ECP data. However, in practice, the accessibility of ECP data is limited due to privacy issues or the absence of metering devices. Few-shot learning (FSL) has emerged as a promising solution for ECP modeling in data-scarce scenarios. Nevertheless, standard FSL methods, such as those used for images, are unsuitable for ECP modeling because (1) these methods usually assume several source domains with sufficient data and several target domains. However, in the context of ECP modeling, there may be thousands of source domains with a moderate amount of data and thousands of target domains. (2) Standard FSL methods usually involve cumbersome knowledge transfer mechanisms, such as pre-training and fine-tuning, whereas ECP modeling requires more lightweight methods. (3) Deep learning models often lack explainability, hindering their application in industry. This paper proposes a novel FSL method that exploits Transformers and Gaussian Mixture Models (GMMs) for ECP modeling to address the above-described issues. Results show that our method can accurately restore the complex ECP distribution with a minimal amount of ECP data (e.g., only 1.6\% of the complete domain dataset) while it outperforms state-of-the-art time series modeling methods, maintaining the advantages of being both lightweight and interpretable. The project is open-sourced at https://github.com/xiaweijie1996/TransformerEM-GMM.git. | 翻訳日:2024-08-23 18:36:08 公開日:2024-08-22 |
# 大規模言語モデルのためのステアリングホイール、Prefix Guidance
Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks ( http://arxiv.org/abs/2408.08924v2 ) ライセンス: Link先を確認 | Jiawei Zhao, Kejiang Chen, Xiaojian Yuan, Weiming Zhang, | (参考訳) 近年,大規模言語モデル (LLM) の急速な開発が,様々なタスクにおいて顕著なパフォーマンスを達成している。
しかし、研究はLLMがジェイルブレイク攻撃に弱いことを示唆しており、敵は巧妙に作り上げたプロンプトを通じて有害なコンテンツの生成を誘導することができる。
この脆弱性は、LLMのセキュアな使用とプロモーションに重大な課題をもたらす。
既存の防御方法は異なる視点から保護を提供するが、しばしば不十分な効果やモデルの能力に重大な影響を及ぼす。
本稿では,モデル出力の最初の数個のトークンを直接設定することで,有害なプロンプトの識別をモデルに誘導する,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワーク,すなわちPrefix Guidance(PG)を提案する。
このアプローチは、モデル固有のセキュリティ機能と、ジェイルブレイク攻撃から防御するための外部分類器を組み合わせる。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
ベースラインと比較して、私たちのアプローチは概して平均よりも効果的です。
さらに、Just-Evalベンチマークの結果は、PGがモデルの性能を維持するのに優れていることをさらに裏付けている。
私たちのコードはhttps://github.com/weiyezhimeng/Prefix-Guidance.comで利用可能です。
In recent years, the rapid development of large language models (LLMs) has achieved remarkable performance across various tasks. However, research indicates that LLMs are vulnerable to jailbreak attacks, where adversaries can induce the generation of harmful content through meticulously crafted prompts. This vulnerability poses significant challenges to the secure use and promotion of LLMs. Existing defense methods offer protection from different perspectives but often suffer from insufficient effectiveness or a significant impact on the model's capabilities. In this paper, we propose a plug-and-play and easy-to-deploy jailbreak defense framework, namely Prefix Guidance (PG), which guides the model to identify harmful prompts by directly setting the first few tokens of the model's output. This approach combines the model's inherent security capabilities with an external classifier to defend against jailbreak attacks. We demonstrate the effectiveness of PG across three models and five attack methods. Compared to baselines, our approach is generally more effective on average. Additionally, results on the Just-Eval benchmark further confirm PG's superiority to preserve the model's performance. our code is available at https://github.com/weiyezhimeng/Prefix-Guidance. | 翻訳日:2024-08-23 18:26:17 公開日:2024-08-22 |
# 大規模投資モデル
Large Investment Model ( http://arxiv.org/abs/2408.10255v2 ) ライセンス: Link先を確認 | Jian Guo, Heung-Yeung Shum, | (参考訳) 伝統的な量的投資研究は、労働力の増加と時間的コストの増大と共に、リターンの減少に遭遇している。
これらの課題を克服するために,大規模投資モデル(Large Investment Model, LIM)を導入する。
LIMはエンド・ツー・エンドの学習とユニバーサル・モデリングを採用し、複数の取引所、機器、周波数にまたがる様々な財務データから包括的な信号パターンを自律的に学習できる上流基盤モデルを作成する。
これらの"グローバルパターン"はその後、ダウンストリーム戦略モデリングに転送され、特定のタスクのパフォーマンスを最適化する。
LIMのシステムアーキテクチャ設計について詳述し、このアプローチに固有の技術的課題に対処し、今後の研究の方向性を概説する。
LIMの利点は、商品先物取引のクロスストラクチャー予測に関する一連の数値実験を通じて示され、株式市場からの洞察を活用している。
Traditional quantitative investment research is encountering diminishing returns alongside rising labor and time costs. To overcome these challenges, we introduce the Large Investment Model (LIM), a novel research paradigm designed to enhance both performance and efficiency at scale. LIM employs end-to-end learning and universal modeling to create an upstream foundation model capable of autonomously learning comprehensive signal patterns from diverse financial data spanning multiple exchanges, instruments, and frequencies. These "global patterns" are subsequently transferred to downstream strategy modeling, optimizing performance for specific tasks. We detail the system architecture design of LIM, address the technical challenges inherent in this approach, and outline potential directions for future research. The advantages of LIM are demonstrated through a series of numerical experiments on cross-instrument prediction for commodity futures trading, leveraging insights from stock markets. | 翻訳日:2024-08-23 18:26:17 公開日:2024-08-22 |
# 金眼 : ハバナ症候群の理論
Golden Eye: The Theory of Havana Syndrome ( http://arxiv.org/abs/2408.12041v1 ) ライセンス: Link先を確認 | Adam Dorian Wong, | (参考訳) 2016年頃から、米国外交官は海外勤務中に異常な負傷を報告した。
人体は吐き気、めまい、方向転換などの症状に悩まされた。
ハバナ症候群(Havana Syndrome)は、ハバナ症候群(Havana syndrome)の略。
このホワイトペーパーは、これらの症状の潜在的な起源に関して競合する仮説を分析する。
ホワイトペーパーは2024年6月18日に公開された。
この白書で示される見解は著者の見解であり、ダコタ州立大学、陸軍州兵、陸軍、国防省、あるいはアメリカ合衆国政府の公式方針や立場を反映していない。
Beginning around 2016, US Diplomats reported unusual injuries while serving abroad. Personnel suffered from symptoms such as nausea, vertigo, and disorientation. The collective set of ailments was subbed "Havana Syndrome". This whitepaper delves into an analysis of competing hypotheses with respect to potential origins of these symptoms. Whitepaper cleared for release on 18 JUN 2024. The views expressed by this whitepaper are those of the author and do not reflect the official policy or position of Dakota State University, the N.H. Army National Guard, the U.S. Army, the Department of Defense, or the U.S. Government. | 翻訳日:2024-08-23 15:43:39 公開日:2024-08-22 |
# 地獄のダイバーたち:次世代非対称戦闘の暗黒未来
Hell Divers: The Dark Future of Next-Gen Asymmetric Warfighting ( http://arxiv.org/abs/2408.12045v1 ) ライセンス: Link先を確認 | Adam Dorian Wong, | (参考訳) このホワイトペーパーは、アメリカ陸軍訓練ドクトリンコマンド(TRADOC)マッドサイエンティストイニシアチブ(Mad Scientist Initiative)が主催する公開文書に反応して書かれた。
2024年、マッドサイエンティスト・ライティング・プラットは、次世代の非対称戦闘がどのようなものになるかについて、予測的な議論や架空の物語を要求した。
これは、歴史的文脈、現在の出来事、危機、そして世界的な不確実性から学んだ教訓に従う。
この白書で示される見解は著者の見解であり、ダコタ州立大学、陸軍州兵、陸軍、国防省、あるいはアメリカ合衆国政府の公式方針や立場を反映していない。
学術、政府、軍事ウェブサイトのハイパーリンクの出現は、いかなる形態の支持も構成していない。
ホワイトペーパーは、2024年6月30日に一般公開された。
This whitepaper was written in response to the open-to-public writing prompt hosted by the US Army Training & Doctrine Command (TRADOC) Mad Scientist Initiative. The 2024 Mad Scientist Writing Prompt called for a predictive discussion or fictional narrative regarding what the next-generation of asymmetric warfighting may look like. This follows lessons learned from historical context, current events or crises, and global uncertainty. The views expressed by this whitepaper are those of the author and do not reflect the official policy or position of Dakota State University, the N.H. Army National Guard, the U.S. Army, the Department of Defense, or the U.S. Government. The appearance of hyperlinks for academic, government, or military websites does not constitute any form of endorsement of the same. Whitepaper cleared for public release on 30 APR 2024. | 翻訳日:2024-08-23 15:43:39 公開日:2024-08-22 |
# 責任あるAIアーティファクトはステークホルダーのゴールを前進させるか? 法律と市民のステークホルダーが知覚する4つの重要な障壁
Do Responsible AI Artifacts Advance Stakeholder Goals? Four Key Barriers Perceived by Legal and Civil Stakeholders ( http://arxiv.org/abs/2408.12047v1 ) ライセンス: Link先を確認 | Anna Kawakami, Daricia Wilkinson, Alexandra Chouldechova, | (参考訳) 責任あるAI(RAI)コミュニティは、透明性を促進し、AIシステムのガバナンスをサポートするために、多数のプロセスとアーティファクト(モデルカード、透明性ノート、データカードなど)を導入している。
元々は、テクノロジー企業におけるAI開発プロセスの足場と文書化を目的として設計されたものだが、EU AI Actのような最近の規制の下で、これらのアーティファクトは規制コンプライアンスの中心的なコンポーネントになりつつある。
これまでの多くの作業は、新しいRAIアーティファクトの設計や、技術企業内の実践者による使用について調査してきた。
しかし、AIアーティファクトが外部監視を可能にする上で重要な役割を担い始めるにつれて、利害関係者(特に業界AIデプロイメントを管理し監査する技術企業の外にいるもの)が、AIアーティファクトの有効性をどう理解するかを理解することが重要になる。
本研究では、責任あるAI活動に関する政策や擁護を通知する19の政府、法律、市民社会の利害関係者を対象に、半構造化されたインタビューとデザイン活動を行う。
参加者はRAIアーティファクトがより広範なAIガバナンスエコシステムへの価値ある貢献であると信じているが、多くの人々が、意図しない長期的な影響をテクノロジー企業以外のアクター(下流のエンドユーザ、政策立案者、市民社会のステークホルダーなど)に懸念している。
我々は、これらの信念を4つの障壁にまとめ、RAIアーティファクトが(必然的に)市民社会、政府、産業にまたがる権力関係を再構成し、市民社会と法的な利害関係者が、下流のエンドユーザーを潜在的なAI被害から保護する能力を妨げているかを説明するのに役立ちます。
参加者は、RAIアーティファクトの設計、使用、管理方法の変更とともに、構造的変化がどのようにして、アーティファクトの役割をリダイレクトし、AIシステムのより協力的で積極的な外部監視を支援するのかを想像する。
RAIアーティファクトの研究と政策について論じる。
The responsible AI (RAI) community has introduced numerous processes and artifacts (e.g., Model Cards, Transparency Notes, Data Cards) to facilitate transparency and support the governance of AI systems. While originally designed to scaffold and document AI development processes in technology companies, these artifacts are becoming central components of regulatory compliance under recent regulations such as the EU AI Act. Much prior work has explored the design of new RAI artifacts or their use by practitioners within technology companies. However, as RAI artifacts begin to play key roles in enabling external oversight, it becomes critical to understand how stakeholders--particularly those situated outside of technology companies who govern and audit industry AI deployments--perceive the efficacy of RAI artifacts. In this study, we conduct semi-structured interviews and design activities with 19 government, legal, and civil society stakeholders who inform policy and advocacy around responsible AI efforts. While participants believe that RAI artifacts are a valuable contribution to the broader AI governance ecosystem, many are concerned about their potential unintended, longer-term impacts on actors outside of technology companies (e.g., downstream end-users, policymakers, civil society stakeholders). We organize these beliefs into four barriers that help explain how RAI artifacts may (inadvertently) reconfigure power relations across civil society, government, and industry, impeding civil society and legal stakeholders' ability to protect downstream end-users from potential AI harms. Participants envision how structural changes, along with changes in how RAI artifacts are designed, used, and governed, could help redirect the role of artifacts to support more collaborative and proactive external oversight of AI systems. We discuss research and policy implications for RAI artifacts. | 翻訳日:2024-08-23 15:43:39 公開日:2024-08-22 |
# ISETHDR:高ダイナミックレンジ駆動シーンのための物理ベースの合成放射データセット
ISETHDR: A Physics-based Synthetic Radiance Dataset for High Dynamic Range Driving Scenes ( http://arxiv.org/abs/2408.12048v1 ) ライセンス: Link先を確認 | Zhenyi Liu, Devesh Shah, Brian Wandell, | (参考訳) 本稿では,物理に基づく画像システムのためのエンドツーエンドソフトウェアシミュレーションについて述べる。
本研究では,高ダイナミックレンジ(HDR)環境において,日中トンネルを走行したり,夜間の条件下での運転などの性能向上を目的としたセンサの探索を行う。
我々は、物理的にリアルなHDRスペクトル放射像を合成し、異なる系の光学とセンサーをモデル化するデジタルツインへの入力として使用する。
本論文の主な貢献は3つある。
(a)HDR運転シーンの合成放射率データセットをラベル付き(インスタントセグメンテーションと深度)作成する。
b) エンド・ツー・エンド・シミュレーション・フレームワークの開発と検証について述べる。
(c)HDR用に設計された2つの単発センサの比較分析を行った。
データセットとソフトウェアの両方をオープンソースにしています。
This paper describes a physics-based end-to-end software simulation for image systems. We use the software to explore sensors designed to enhance performance in high dynamic range (HDR) environments, such as driving through daytime tunnels and under nighttime conditions. We synthesize physically realistic HDR spectral radiance images and use them as the input to digital twins that model the optics and sensors of different systems. This paper makes three main contributions: (a) We create a labeled (instance segmentation and depth), synthetic radiance dataset of HDR driving scenes. (b) We describe the development and validation of the end-to-end simulation framework. (c) We present a comparative analysis of two single-shot sensors designed for HDR. We open-source both the dataset and the software. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# 商品フェアネスのための(医療)LCMの調整
Aligning (Medical) LLMs for (Counterfactual) Fairness ( http://arxiv.org/abs/2408.12055v1 ) ライセンス: Link先を確認 | Raphael Poulain, Hamed Fayyaz, Rahmatollah Beheshti, | (参考訳) 大規模言語モデル (LLMs) は、様々な医学的・臨床的意思決定支援アプリケーションのための有望な解決策として登場した。
しかし、LSMは様々な種類のバイアスを受けており、個人の不公平な治療、健康格差の悪化、AIが強化された医療ツールへの信頼の低下につながる可能性がある。
本研究は, この課題に対処するために, 知識蒸留フレームワーク内での選好最適化手法を用いてLLMを整列するモデルアライメント手法を提案する。
提案手法を提示する前に,我々はまず,医学的応用に使用されるLCMの既存バイアスの種類と性質を明らかにするために,総合的な(我々の知識に最も大きな)経験的評価を行うための評価枠組みを用いた。
次に、保護属性によって識別される異なるサブグループ間でのLCM出力の不公平なパターンを低減するバイアス緩和手法を提案する。
本手法は,観察された偏りパターンの低減に有効であることを示す。
私たちのコードは、 \url{https://github.com/healthylaife/FairAlignmentLLM}で公開されています。
Large Language Models (LLMs) have emerged as promising solutions for a variety of medical and clinical decision support applications. However, LLMs are often subject to different types of biases, which can lead to unfair treatment of individuals, worsening health disparities, and reducing trust in AI-augmented medical tools. Aiming to address this important issue, in this study, we present a new model alignment approach for aligning LLMs using a preference optimization method within a knowledge distillation framework. Prior to presenting our proposed method, we first use an evaluation framework to conduct a comprehensive (largest to our knowledge) empirical evaluation to reveal the type and nature of existing biases in LLMs used for medical applications. We then offer a bias mitigation technique to reduce the unfair patterns in LLM outputs across different subgroups identified by the protected attributes. We show that our mitigation method is effective in significantly reducing observed biased patterns. Our code is publicly available at \url{https://github.com/healthylaife/FairAlignmentLLM}. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# 設計規則によるLCMによる自動プログラム修復の強化
Enhancing LLM-Based Automated Program Repair with Design Rationales ( http://arxiv.org/abs/2408.12056v1 ) ライセンス: Link先を確認 | Jiuang Zhao, Donghao Yang, Li Zhang, Xiaoli Lian, Zitian Yang, | (参考訳) 自動プログラム修正(APR)は、バグ解決、新機能開発、機能強化の3つのカテゴリを含む、特定のプロジェクト内の問題を自律的に修正する試みである。
様々な方法論を提唱する広範な研究にもかかわらず、実際の問題に対処する効果は相変わらず不十分である。
一般的に、エンジニアは、ソリューション計画のソリューションと基本的な理由のセットについて、設計の合理性(DR)を持っています。
オープンソースプロジェクトでは、これらのDRはJiraのようなプロジェクト管理ツールを通じて、イシューログにキャプチャされることが多い。
問題ログに散在するDRを活用して、APRを効率的に拡張するにはどうすればよいのか?
DRCodePilot は GPT-4-Turbo の APR 機能を強化し,DR をプロンプト命令に組み込む手法である。
さらに, GPT-4のプロジェクトコンテキストを十分に把握する上での制約や, 正確な識別子を生成する上での欠点を考慮し, フィードバックに基づく自己回帰フレームワークを考案し, 提案したパッチや提案した識別子を参照して, GPT-4のアウトプットを再検討し, 改善するよう促した。
GitHubとJiraにホストされている2つのオープンソースリポジトリからソースされた938のイシューパッチペアからなるベンチマークを確立しました。
DRCodePilotはGPT-4を直接利用するよりも4.7倍高いフルマッチ比を達成しています。
さらに、CodeBLEUスコアも有望な拡張を示している。
さらに,本研究では, DRのスタンドアロン適用により, ベンチマークスイート内でのCodeLlama, GPT-3.5, GPT-4間のフルマッチ比が向上する可能性が示唆された。
我々は、DRCodePilotイニシアチブが、APRの分野を前進させる新しい人道となると信じている。
Automatic Program Repair (APR) endeavors to autonomously rectify issues within specific projects, which generally encompasses three categories of tasks: bug resolution, new feature development, and feature enhancement. Despite extensive research proposing various methodologies, their efficacy in addressing real issues remains unsatisfactory. It's worth noting that, typically, engineers have design rationales (DR) on solution-planed solutions and a set of underlying reasons-before they start patching code. In open-source projects, these DRs are frequently captured in issue logs through project management tools like Jira. This raises a compelling question: How can we leverage DR scattered across the issue logs to efficiently enhance APR? To investigate this premise, we introduce DRCodePilot, an approach designed to augment GPT-4-Turbo's APR capabilities by incorporating DR into the prompt instruction. Furthermore, given GPT-4's constraints in fully grasping the broader project context and occasional shortcomings in generating precise identifiers, we have devised a feedback-based self-reflective framework, in which we prompt GPT-4 to reconsider and refine its outputs by referencing a provided patch and suggested identifiers. We have established a benchmark comprising 938 issue-patch pairs sourced from two open-source repositories hosted on GitHub and Jira. Our experimental results are impressive: DRCodePilot achieves a full-match ratio that is a remarkable 4.7x higher than when GPT-4 is utilized directly. Additionally, the CodeBLEU scores also exhibit promising enhancements. Moreover, our findings reveal that the standalone application of DR can yield promising increase in the full-match ratio across CodeLlama, GPT-3.5, and GPT-4 within our benchmark suite. We believe that our DRCodePilot initiative heralds a novel human-in-the-loop avenue for advancing the field of APR. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# 機械学習を用いたISMバンドにおけるMACプロトコルの分類
MAC protocol classification in the ISM band using machine learning methods ( http://arxiv.org/abs/2408.12059v1 ) ライセンス: Link先を確認 | Hanieh Rashidpour, Hossein Bahramgiri, | (参考訳) 新たな技術の出現と無線ネットワークの増加に伴い、電波スペクトル不足の問題に直面している。
結果として、無線チャネルスペクトルを特定して、チャンネルのアイドル状態を利用すると同時に、ネットワークセキュリティを向上することが重要な問題である。
MACサブレイヤにおけるプロトコルの検出と分類により、Cognitive Radioユーザはスペクトル利用を改善し、潜在的な干渉を最小限に抑えることができる。
In this paper, we classified the Wi-Fi and Bluetooth protocol, which is the most widely used MAC sublayer protocol in the ISM radio band。
特に2.4GHz帯では、様々な無線技術が出現し、ISM周波数スペクトルは混雑し、スペクトルリソースの欠如やユーザ干渉に直面している。
したがって、プロトコルの識別と分類は効果的で有用な方法である。
高度な分類能力で知られている機械学習とディープラーニング技術を活用し、機械学習アルゴリズムであるSupport Vector MachineとK-Nearest Neighborsアルゴリズムを適用し、プロトコルをWi-Fi、Wi-Fi Beacon、Bluetoothの3つのクラスに分類する。
これらの信号を捕捉するために,USRP N210 Software Defined Radio デバイスを用いて,これらの2つのプロトコルの送信機と受信機の有無の異なる条件下で,屋内環境における実際のデータをサンプリングする。
このデータセットを組み立て、プロトコルの時間と周波数の特徴を研究することにより、時間的特徴として2フレーム間のフレーム幅とサイレントギャップを、電力的特徴として各フレームのPAPRを抽出する。
異なる条件下でのプロトコル分類の出力を比較し、ガウスノイズを付加することにより、RBFとKNN関数を用いた非線形SVM法のサンプルは、それぞれ97.83%と98.12%の分類精度で最高の性能を示した。
With the emergence of new technologies and a growing number of wireless networks, we face the problem of radio spectrum shortages. As a result, identifying the wireless channel spectrum to exploit the channel's idle state while also boosting network security is a pivotal issue. Detecting and classifying protocols in the MAC sublayer enables Cognitive Radio users to improve spectrum utilization and minimize potential interference. In this paper, we classify the Wi-Fi and Bluetooth protocols, which are the most widely used MAC sublayer protocols in the ISM radio band. With the advent of various wireless technologies, especially in the 2.4 GHz frequency band, the ISM frequency spectrum has become crowded and high-traffic, which faces a lack of spectrum resources and user interference. Therefore, identifying and classifying protocols is an effective and useful method. Leveraging machine learning and deep learning techniques, known for their advanced classification capabilities, we apply Support Vector Machine and K-Nearest Neighbors algorithms, which are machine learning algorithms, to classify protocols into three classes: Wi-Fi, Wi-Fi Beacon, and Bluetooth. To capture the signals, we use the USRP N210 Software Defined Radio device and sample the real data in the indoor environment in different conditions of the presence and absence of transmitters and receivers for these two protocols. By assembling this dataset and studying the time and frequency features of the protocols, we extract the frame width and the silence gap between the two frames as time features and the PAPR of each frame as a power feature. By comparing the output of the protocols classification in different conditions and also adding Gaussian noise, it was found that the samples in the nonlinear SVM method with RBF and KNN functions have the best performance, with 97.83% and 98.12% classification accuracy, respectively. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# LLMを用いたRAGとFew-Shot In-Context Learningを用いたエビデンス支援Fact Checking
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs ( http://arxiv.org/abs/2408.12060v1 ) ライセンス: Link先を確認 | Ronit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das, | (参考訳) ソーシャルメディア上で偽情報の拡散が広まる中、オンラインクレームのファクトチェック機構を実装することが不可欠である。
すべてのクレームを手動で検証することは極めて困難であり、自動化されたファクトチェックシステムの必要性を強調している。
本稿では,この問題に対処するためのシステムについて述べる。
我々はAveritecデータセットを用いてクレームの正確性を評価する。
精度予測に加えて,本システムでは,データセットから抽出した証拠を裏付ける。
本研究では,知識ベースから関連するエビデンス文を抽出する検索・生成(RAG)パイプラインを開発し,そのクレームとともに分類のための大規模言語モデル(LLM)に入力する。
また,複数のLLMのICL(In-Context Learning)機能についても検討した。
本システムでは,ベースラインに対する22%の絶対改善である0.33の「平均」スコアを達成している。
すべてのコードはhttps://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-lea rning-with-llmsで利用可能になる。
Given the widespread dissemination of misinformation on social media, implementing fact-checking mechanisms for online claims is essential. Manually verifying every claim is highly challenging, underscoring the need for an automated fact-checking system. This paper presents our system designed to address this issue. We utilize the Averitec dataset to assess the veracity of claims. In addition to veracity prediction, our system provides supporting evidence, which is extracted from the dataset. We develop a Retrieve and Generate (RAG) pipeline to extract relevant evidence sentences from a knowledge base, which are then inputted along with the claim into a large language model (LLM) for classification. We also evaluate the few-shot In-Context Learning (ICL) capabilities of multiple LLMs. Our system achieves an 'Averitec' score of 0.33, which is a 22% absolute improvement over the baseline. All code will be made available on All code will be made available on https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-lea rning-with-llms. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# ロバストポイントクラウド分類のためのサンプリングプロトコルの強化
Enhancing Sampling Protocol for Robust Point Cloud Classification ( http://arxiv.org/abs/2408.12062v1 ) ライセンス: Link先を確認 | Chongshou Li, Pin Tang, Xinke Li, Tianrui Li, | (参考訳) Farthest Point Smpling (FPS) や Fixed Sample Size (FSS) などの3Dポイント・クラウド・ラーニングのためのサンプリング・プロトコルは、長い間認識され、利用されてきた。
しかし、実世界のデータは、現在のプロトコルにおける点雲の良性の仮定に反するセンサノイズのような余計な問題に悩まされることが多い。
その結果、これらは特に騒音に弱いため、自動運転のような重要なアプリケーションにおいて、重大な安全性のリスクが生じる。
これらの問題に対処するために,2つのコンポーネントからなるポイントクラウドサンプリングプロトコルであるPointDRを提案する。
1)キーポイント識別及びダウンサンプリング
2) フレキシブルサンプルサイズに対するリサンプリング。
さらに、訓練と推論のプロセスのために異なる戦略が実装されている。
特に、局所密度を考慮した孤立度重みをダウンサンプリング法のために設計し、トレーニングフェーズでランダムなキーポイント選択を行い、推論フェーズでノイズを回避できるようにする。
局所幾何保存アップサンプリングは再サンプリングに組み込まれ、トレーニング段階で確率的なサンプルサイズを維持し、推論において不十分なデータを完備する。
提案プロトコルはモデルアーキテクチャの変更や余分な学習が不要であることに注意する必要がある。
単純さにもかかわらず、これはポイントクラウド学習の堅牢性を大幅に改善し、破損したポイントクラウド分類の複数のベンチマークで最先端の手法よりも優れていることを示した。
コードは論文の受理時に入手できます。
Established sampling protocols for 3D point cloud learning, such as Farthest Point Sampling (FPS) and Fixed Sample Size (FSS), have long been recognized and utilized. However, real-world data often suffer from corrputions such as sensor noise, which violates the benignness assumption of point cloud in current protocols. Consequently, they are notably vulnerable to noise, posing significant safety risks in critical applications like autonomous driving. To address these issues, we propose an enhanced point cloud sampling protocol, PointDR, which comprises two components: 1) Downsampling for key point identification and 2) Resampling for flexible sample size. Furthermore, differentiated strategies are implemented for training and inference processes. Particularly, an isolation-rated weight considering local density is designed for the downsampling method, assisting it in performing random key points selection in the training phase and bypassing noise in the inference phase. A local-geometry-preserved upsampling is incorporated into resampling, facilitating it to maintain a stochastic sample size in the training stage and complete insufficient data in the inference. It is crucial to note that the proposed protocol is free of model architecture altering and extra learning, thus minimal efforts are demanded for its replacement of the existing one. Despite the simplicity, it substantially improves the robustness of point cloud learning, showcased by outperforming the state-of-the-art methods on multiple benchmarks of corrupted point cloud classification. The code will be available upon the paper's acceptance. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# 気候モデルバイアス補正への解答的アプローチ
A Deconfounding Approach to Climate Model Bias Correction ( http://arxiv.org/abs/2408.12063v1 ) ライセンス: Link先を確認 | Wentao Gao, Jiuyong Li, Debo Cheng, Lin Liu, Jixue Liu, Thuc Duy Le, Xiaojing Du, Xiongren Chen, Yanchang Zhao, Yun Chen, | (参考訳) 地球温暖化モデル(GCM)は、地球系をシミュレートすることで、将来の気候変動を予測するのに不可欠である。
しかし、GCMの出力は、モデルの不確実性、パラメータ化の単純化、複雑な気候現象の不十分な表現による体系的なバイアスを示す。
歴史的観測データと統計技術に依存する伝統的なバイアス補正法は、しばしば観測されていない共同設立者を無視し、バイアスのある結果をもたらす。
本稿では,GCMと観測データの両方を用いて,多原因共同創設者を捉える因子モデルを学習するための新しいバイアス補正手法を提案する。
因果関係に基づく時系列分割の最近の進歩にインスパイアされた本手法は,まず,過去のデータから潜在的共同創設者を学習するための因子モデルを構築し,先進的な時系列予測モデルを用いてバイアス補正プロセスを強化する。
その結果, 降水量の精度は有意に向上した。
観測されていない共同創設者に対処することで、我々のアプローチは、気候モデルバイアス補正のための堅牢で理論的に根拠付けられたソリューションを提供する。
Global Climate Models (GCMs) are crucial for predicting future climate changes by simulating the Earth systems. However, GCM outputs exhibit systematic biases due to model uncertainties, parameterization simplifications, and inadequate representation of complex climate phenomena. Traditional bias correction methods, which rely on historical observation data and statistical techniques, often neglect unobserved confounders, leading to biased results. This paper proposes a novel bias correction approach to utilize both GCM and observational data to learn a factor model that captures multi-cause latent confounders. Inspired by recent advances in causality based time series deconfounding, our method first constructs a factor model to learn latent confounders from historical data and then applies them to enhance the bias correction process using advanced time series forecasting models. The experimental results demonstrate significant improvements in the accuracy of precipitation outputs. By addressing unobserved confounders, our approach offers a robust and theoretically grounded solution for climate model bias correction. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# 量子コンピュータのベンチマークと評価の実践的紹介
A Practical Introduction to Benchmarking and Characterization of Quantum Computers ( http://arxiv.org/abs/2408.12064v1 ) ライセンス: Link先を確認 | Akel Hashim, Long B. Nguyen, Noah Goss, Brian Marinelli, Ravi K. Naik, Trevor Chistolini, Jordan Hines, J. P. Marceaux, Yosep Kim, Pranav Gokhale, Teague Tomesh, Senrui Chen, Liang Jiang, Samuele Ferracin, Kenneth Rudinger, Timothy Proctor, Kevin C. Young, Robin Blume-Kohout, Irfan Siddiqi, | (参考訳) 量子技術の急速な進歩は、量子コンピューティングと量子情報科学を理論的可能性から具体的な工学的課題に転換した。
量子アルゴリズム、量子シミュレーション、量子エラー補正のブレークスルーは、有用な量子計算を実効に近づけている。
これらの顕著な成果は、量子キャラクタリゼーション、検証、検証(QCVV)の進歩によって促進されてきた。
QCVVの手法とプロトコルにより、科学者や技術者は量子情報処理装置の性能を精査し、理解し、向上することができる。
本稿では,QCVVを支える基本原理を概観し,量子研究者が使用する様々なQCVVツールを紹介する。
我々は、QCVVの中核モデルと概念(量子状態、測定、プロセス)を定義し、これらのビルディングブロックをどのように活用してターゲットシステムや運用を調べるかを説明する。
簡単な量子ビットのキャラクタリゼーションから高度なベンチマーク手法まで幅広いプロトコルを探索し紹介する。
その過程で、プロトコルの例と詳細な説明を提供し、それぞれの利点とデメリットを強調し、将来の大規模量子コンピュータへの潜在的なスケーラビリティについて議論する。
このチュートリアルは、量子コンピュータのベンチマークやキャラクタリゼーションに精通していない研究者のためのガイドブックや、経験豊富な実践者のための詳細なリファレンスとしても機能する。
Rapid progress in quantum technology has transformed quantum computing and quantum information science from theoretical possibilities into tangible engineering challenges. Breakthroughs in quantum algorithms, quantum simulations, and quantum error correction are bringing useful quantum computation closer to fruition. These remarkable achievements have been facilitated by advances in quantum characterization, verification, and validation (QCVV). QCVV methods and protocols enable scientists and engineers to scrutinize, understand, and enhance the performance of quantum information-processing devices. In this Tutorial, we review the fundamental principles underpinning QCVV, and introduce a diverse array of QCVV tools used by quantum researchers. We define and explain QCVV's core models and concepts -- quantum states, measurements, and processes -- and illustrate how these building blocks are leveraged to examine a target system or operation. We survey and introduce protocols ranging from simple qubit characterization to advanced benchmarking methods. Along the way, we provide illustrated examples and detailed descriptions of the protocols, highlight the advantages and disadvantages of each, and discuss their potential scalability to future large-scale quantum computers. This Tutorial serves as a guidebook for researchers unfamiliar with the benchmarking and characterization of quantum computers, and also as a detailed reference for experienced practitioners. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# ソロモノフ誘導の近似としてのトランスフォーマー
Transformers As Approximations of Solomonoff Induction ( http://arxiv.org/abs/2408.12065v1 ) ライセンス: Link先を確認 | Nathan Young, Michael Witbrock, | (参考訳) ソロモノフ誘導(英: Solomonoff induction)は、任意の計算可能な確率分布のベイズ混合を表現し、任意の計算可能な列を最適に予測するアルゴリズムである。
計算シーケンス予測の最適な形式であるため、他のシーケンス予測方法と比較できるモデルとして用いられる可能性が考えられる。
我々は,トランスフォーマーモデル - 大規模言語モデルの基礎 - が,既存のどのシーケンス予測法よりもソロモノフ誘導を近似する仮説を提唱し,検討した。
我々は、この仮説の証拠を探求し、この証拠を考慮に入れた代替仮説を与え、トランスフォーマーや他の種類のAIをこのようにモデル化する次のステップを概説する。
Solomonoff Induction is an optimal-in-the-limit unbounded algorithm for sequence prediction, representing a Bayesian mixture of every computable probability distribution and performing close to optimally in predicting any computable sequence. Being an optimal form of computational sequence prediction, it seems plausible that it may be used as a model against which other methods of sequence prediction might be compared. We put forth and explore the hypothesis that Transformer models - the basis of Large Language Models - approximate Solomonoff Induction better than any other extant sequence prediction method. We explore evidence for and against this hypothesis, give alternate hypotheses that take this evidence into account, and outline next steps for modelling Transformers and other kinds of AI in this way. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# マルチエージェント強化学習に基づく高密度小形MISOシステムの分散非コヒーレント継手伝送
Distributed Noncoherent Joint Transmission Based on Multi-Agent Reinforcement Learning for Dense Small Cell MISO Systems ( http://arxiv.org/abs/2408.12067v1 ) ライセンス: Link先を確認 | Shaozhuang Bai, Zhenzhen Gao, Xuewen Liao, | (参考訳) 本研究では,マルチアンテナ小セル基地局(SBS)が共有周波数帯域上で単一アンテナユーザへデータを送信する高密度小型セルネットワークについて考察する。
キャパシティを高めるため、非コヒーレントジョイントトランスミッション(JT)と呼ばれる最先端技術を適用し、複数のSBSからデータを受信することができる。
しかし、非コヒーレント JT の和率最大化問題は本質的に非凸かつNPハードである。
既存の最適化ベースの非コヒーレントJTアルゴリズムは、ほぼ最適性能を提供することができるが、大域的なチャネル状態情報(CSI)と多重反復を必要とするため、DSCネットワークに実装が難しい。これらの課題を克服するためには、まず、最適ビームフォーミング構造が電力最小化問題と和率最大化問題の両方で同じであることを証明し、次いで、最適ビームフォーミング構造は、電力最小化問題を解くことにより、両方の問題に対して最適ビームフォーミング構造を数学的に導出する。
シミュレーションの結果,提案手法は,集中型反復最適化手法に比べて計算複雑性と情報オーバーヘッドが著しく低く,実用的展開がより魅力的であることを示す。
We consider a dense small cell (DSC) network where multi-antenna small cell base stations (SBSs) transmit data to single-antenna users over a shared frequency band. To enhance capacity, a state-of-the-art technique known as noncoherent joint transmission (JT) is applied, enabling users to receive data from multiple coordinated SBSs. However, the sum rate maximization problem with noncoherent JT is inherently nonconvex and NP-hard. While existing optimization-based noncoherent JT algorithms can provide near-optimal performance, they require global channel state information (CSI) and multiple iterations, which makes them difficult to be implemeted in DSC networks.To overcome these challenges, we first prove that the optimal beamforming structure is the same for both the power minimization problem and the sum rate maximization problem, and then mathematically derive the optimal beamforming structure for both problems by solving the power minimization problem.The optimal beamforming structure can effectively reduces the variable dimensions.By exploiting the optimal beamforming structure, we propose a deep deterministic policy gradient-based distributed noncoherent JT scheme to maximize the system sum rate.In the proposed scheme, each SBS utilizes global information for training and uses local CSI to determine beamforming vectors. Simulation results demonstrate that the proposed scheme achieves comparable performance with considerably lower computational complexity and information overhead compared to centralized iterative optimization-based techniques, making it more attractive for practical deployment. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# 長期連続予測のためのアンタングル依存符号化による簡易マンバ
Simplified Mamba with Disentangled Dependency Encoding for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2408.12068v1 ) ライセンス: Link先を確認 | Zixuan Weng, Jindong Han, Wenzhao Jiang, Hao Liu, | (参考訳) 近年,長期時系列予測(LTSF)のためのディープラーニングモデルが多数提案されている。
従来の文献から,時間次元の順序と意味的依存関係と相互依存性という,予測精度を向上させる3つの重要なパターンを同定した。
しかし、予測モデルを開発する際に、順序と意味的依存関係を同時に考慮する努力はほとんど行われていない。
さらに, 従来の手法では, 異なるタイムスタンプや変数からの情報を混合することで, 時間次元に無関係あるいは有害な異種情報を導入し, 予測性能を著しく損なう可能性がある。
これらの制限を克服するため、LTSF における Mamba の可能性を調査し、予測に有利な2つの重要な利点を発見する。
(i)選択メカニズムにより、Mambaは特定の入力にフォーカスしたり無視したりし、セマンティック依存を簡単に学習することができる。
(ii)Mambaは配列を再帰的に処理することで順序依存を保存する。
その後、マンバで使用される非線形アクティベーションが意味的にスパースな時系列データには不要であることが実証的に判明した。
そこで本研究では,不整合依存性符号化を持つ簡易マンバSAMBAを提案する。
具体的には,まずMambaの非線形性を取り除き,LTSFに適合させる。
さらに,時間と変動次元の干渉を低減しつつ,多変量依存性モデリング機能を備えたMambaを実現するために,アンタングル型依存性符号化方式を提案する。
7つの実世界のデータセットに対する大規模な実験結果は、最先端の予測モデルに対するSAMBAの有効性を示す。
Recently many deep learning models have been proposed for Long-term Time Series Forecasting (LTSF). Based on previous literature, we identify three critical patterns that can improve forecasting accuracy: the order and semantic dependencies in time dimension as well as cross-variate dependency. However, little effort has been made to simultaneously consider order and semantic dependencies when developing forecasting models. Moreover, existing approaches utilize cross-variate dependency by mixing information from different timestamps and variates, which may introduce irrelevant or harmful cross-variate information to the time dimension and largely hinder forecasting performance. To overcome these limitations, we investigate the potential of Mamba for LTSF and discover two key advantages benefiting forecasting: (i) the selection mechanism makes Mamba focus on or ignore specific inputs and learn semantic dependency easily, and (ii) Mamba preserves order dependency by processing sequences recursively. After that, we empirically find that the non-linear activation used in Mamba is unnecessary for semantically sparse time series data. Therefore, we further propose SAMBA, a Simplified Mamba with disentangled dependency encoding. Specifically, we first remove the non-linearities of Mamba to make it more suitable for LTSF. Furthermore, we propose a disentangled dependency encoding strategy to endow Mamba with cross-variate dependency modeling capabilities while reducing the interference between time and variate dimensions. Extensive experimental results on seven real-world datasets demonstrate the effectiveness of SAMBA over state-of-the-art forecasting models. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# デバッグの改善: 説明可能なクラッシングフォールトローカライゼーションのための静的解析とLLMを組み合わせる
Better Debugging: Combining Static Analysis and LLMs for Explainable Crashing Fault Localization ( http://arxiv.org/abs/2408.12070v1 ) ライセンス: Link先を確認 | Jiwei Yan, Jinhao Huang, Chunrong Fang, Jun Yan, Jian Zhang, | (参考訳) 現在、多くのアプリケーションは独立して存在するのではなく、様々なフレームワークやライブラリに依存している。
頻繁な進化とフレームワークAPIの複雑な実装は、リリース後の予期せぬクラッシュを引き起こします。
クラッシュスタックトレースから始めると、既存のアプローチは直接コールグラフ(CG)トレースを実行するか、同様のクラッシュ修正レコードを持つデータセットを構築してバグのあるメソッドを見つける。
しかし、これらのアプローチはCGの完全性によって制限されるか、または過去の固定記録に依存している。
さらに、彼らは衝突点との関係を明らかにすることで、バグのある候補を説明することができませんでした。
このギャップを埋めるために,静的解析とLLM技術を組み合わせた説明可能なクラッシュ断層定位手法を提案する。
フレームワークコードで例外をスローするステートメントのセマンティクスを理解することは、バグだらけのメソッドをアプリコードで見つけて認識するのに役立ちます。
この考え方に基づいて、まず、各フレームワーク固有の例外に関連するキー要素を記述した例外スローの要約(ETS)を設計し、静的解析を行うことでETSを抽出する。
そして、その重要な要素をデータ追跡して、与えられたクラッシュのバグのある候補を特定し、ソートします。
その後,LLMを導入し,ローカライズ結果の説明性を向上させる。
有効なLCMプロンプトを構築するために,複数のタイプの説明関連コンテキストを記述した候補情報要約(CIS)を設計し,静的解析によりCISを抽出する。
当社のアプローチは,Androidフレームワーク固有のクラッシュ障害の特定と,ツールのCrashTrackerの実装という,ひとつの典型的なシナリオに適用しています。
フォールトローカライゼーションでは、MRR全体の精度は0.91であった。
故障説明では, 静的解析のみによって生成された単純な説明に比べ, LLMを用いた説明は, ユーザの満足度スコアが67.04%向上した。
Nowadays, many applications do not exist independently but rely on various frameworks or libraries. The frequent evolution and the complex implementation of framework APIs induce many unexpected post-release crashes. Starting from the crash stack traces, existing approaches either perform direct call graph (CG) tracing or construct datasets with similar crash-fixing records to locate buggy methods. However, these approaches are limited by the completeness of CG or dependent on historical fixing records. Moreover, they fail to explain the buggy candidates by revealing their relationship with the crashing point. To fill the gap, we propose an explainable crashing fault localization approach by combining static analysis and LLM techniques. Our primary insight is that understanding the semantics of exception-throwing statements in the framework code can help find and apprehend the buggy methods in the app code. Based on this idea, first, we design the exception-thrown summary (ETS) that describes the key elements related to each framework-specific exception and extract ETSs by performing static analysis. Then we make data-tracking of its key elements to identify and sort buggy candidates for the given crash. After that, we introduce LLMs to improve the explainability of the localization results. To construct effective LLM prompts, we design the candidate information summary (CIS) that describes multiple types of explanation-related contexts and then extract CISs via static analysis. We apply our approach to one typical scenario, i.e., locating Android framework-specific crashing faults, and implement a tool CrashTracker. For fault localization, it exhibited an overall MRR value of 0.91 in precision. For fault explanation, compared to the naive one produced by static analysis only, the LLM-powered explanation achieved a 67.04% improvement in users' satisfaction score. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# クラスタリングエントロピー誘導を用いたマルチタスクグラフコントラスト学習
Multi-Task Curriculum Graph Contrastive Learning with Clustering Entropy Guidance ( http://arxiv.org/abs/2408.12071v1 ) ライセンス: Link先を確認 | Chusheng Zeng, Bocheng Wang, Jinghui Yuan, Rong Wang, Mulin Chen, | (参考訳) 教師なし深層グラフクラスタリングの最近の進歩は、対照的な学習によって著しく促進されている。
しかし、グラフの対照的な学習モデルのほとんどは、課題に直面しています。
1) グラフ拡張は,学習の多様性を向上させるために使用されるが,一般的に使用されるランダム拡張法は,固有の意味論を破壊し,騒音を引き起こす可能性がある。
2) 固定正・負のサンプル選択戦略は, 複雑な実データを扱うために制限されるため, 詳細なパターンや関係を把握できない。
これらの問題を解決するために,クラスタリング誘導型Curriculum Graph contrastive Learning (CCGL) フレームワークを提案する。
CCGLは以下のグラフ拡張とコントラスト学習のガイダンスとしてクラスタリングエントロピーを使用している。
具体的には,クラスタリングのエントロピーにより,クラス内エッジと重要な特徴が強調される。
そこで,マルチタスクのカリキュラム学習手法を提案し,識別タスクからクラスタリングタスクへ焦点を移すためのクラスタリング指導手法を提案する。
このように、コントラスト学習のサンプル選択戦略は、初期から後期まで適応的に調整できるため、複雑なデータ構造に対するモデルの柔軟性が向上する。
実験の結果,CCGLは最先端の競合に比べて優れた性能を示した。
Recent advances in unsupervised deep graph clustering have been significantly promoted by contrastive learning. Despite the strides, most graph contrastive learning models face challenges: 1) graph augmentation is used to improve learning diversity, but commonly used random augmentation methods may destroy inherent semantics and cause noise; 2) the fixed positive and negative sample selection strategy is limited to deal with complex real data, thereby impeding the model's capability to capture fine-grained patterns and relationships. To reduce these problems, we propose the Clustering-guided Curriculum Graph contrastive Learning (CCGL) framework. CCGL uses clustering entropy as the guidance of the following graph augmentation and contrastive learning. Specifically, according to the clustering entropy, the intra-class edges and important features are emphasized in augmentation. Then, a multi-task curriculum learning scheme is proposed, which employs the clustering guidance to shift the focus from the discrimination task to the clustering task. In this way, the sample selection strategy of contrastive learning can be adjusted adaptively from early to late stage, which enhances the model's flexibility for complex data structure. Experimental results demonstrate that CCGL has achieved excellent performance compared to state-of-the-art competitors. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# 電磁誘導による高核スピンイオンの透明冷却
Electromagnetically-Induced-Transparency Cooling of High-Nuclear-Spin Ions ( http://arxiv.org/abs/2408.12075v1 ) ライセンス: Link先を確認 | Chuanxin Huang, Chenxi Wang, Hongxuan Zhang, Hongyuan Hu, Zuqing Wang, Zhichao Mao, Shijiao Li, Panyu Hou, Yukai Wu, Zichao Zhou, Luming Duan, | (参考訳) 我々は、将来の大規模トラップ型イオン量子コンピューティングにおいて、量子ビットのよい候補である$I=3/2$の核スピンを持つ$^{137}\mathrm{Ba}^{+}$イオンの電磁誘導透過性(EIT)冷却を報告した。
複雑な基底状態構造を持つ原子やイオンのEIT冷却は、冷却効率を下げるために、人口が$\Lambda$システムから逃れられるため、孤立した$\Lambda$システムがないために困難である。
我々は、EITポンプレーザを利用して冷却部分空間を再人口化し、連続的で効果的なEIT冷却を確保することで、この問題を克服する。
我々は1つの$^{137}\mathrm{Ba}^{+}$イオンの2つの放射モードをそれぞれ0.08(5)と0.15(7)の平均運動占有に冷却する。
同じレーザーパラメータを用いて、5イオン鎖の10個の放射モードを基底状態近くまで冷却する。
我々のアプローチは、同様のレベルの構造を持つ原子種に適応することができる。
EIT Fanoライクなスペクトルのエンジニアリングが可能で、広い周波数範囲にわたるモードの同時冷却に役立ち、大規模に閉じ込められたイオン量子情報処理に役立てることができる。
We report the electromagnetically-induced-transparency (EIT) cooling of $^{137}\mathrm{Ba}^{+}$ ions with a nuclear spin of $I=3/2$, which are a good candidate of qubits for future large-scale trapped ion quantum computing. EIT cooling of atoms or ions with a complex ground-state level structure is challenging due to the lack of an isolated $\Lambda$ system, as the population can escape from the $\Lambda$ system to reduce the cooling efficiency. We overcome this issue by leveraging an EIT pumping laser to repopulate the cooling subspace, ensuring continuous and effective EIT cooling. We cool the two radial modes of a single $^{137}\mathrm{Ba}^{+}$ ion to average motional occupations of 0.08(5) and 0.15(7) respectively. Using the same laser parameters, we also cool all the ten radial modes of a five-ion chain to near their ground states. Our approach can be adapted to atomic species possessing similar level structures. It allows engineering of the EIT Fano-like spectrum, which can be useful for simultaneous cooling of modes across a wide frequency range, aiding in large-scale trapped-ion quantum information processing. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# ConflictBank: LLMにおける知識衝突の影響を評価するベンチマーク
ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM ( http://arxiv.org/abs/2408.12076v1 ) ライセンス: Link先を確認 | Zhaochen Su, Jun Zhang, Xiaoye Qu, Tong Zhu, Yanshu Li, Jiashuo Sun, Juntao Li, Min Zhang, Yu Cheng, | (参考訳) 大規模言語モデル (LLM) は様々な分野にわたって顕著な進歩を遂げてきたが、幻覚の主要な原因である知識紛争の重大な問題は研究されることはめったにない。
LLMの本質的な知識と得られた文脈的知識の相違を調査する研究はごくわずかである。
しかし、LLMにおける知識紛争の徹底的な評価はいまだに欠落している。
この研究ギャップによって動機づけられたConflictBankは、3つの側面から知識衝突を体系的に評価するために開発された最初の総合的なベンチマークである。
一 回収された知識に遭遇する紛争
(二 模型の符号化知識内の紛争、及び
(三)これらの対立形態の相互作用
本研究は, 誤情報, 時間的相違, 意味的相違から生じる対立を慎重に分析し, 4つのモデルファミリーと12個のLLMインスタンスに分類した。
提案する新規構築フレームワークに基づいて,7,453,853個のクレーム-エビデンス対と53,117個のQA対を生成する。
モデルスケール,紛争原因,紛争タイプに関する多くの知見を提示する。
ConflictBankのベンチマークは、コミュニティが紛争のモデル行動をよりよく理解し、より信頼性の高いLCMを開発するのに役立つことを願っています。
Large language models (LLMs) have achieved impressive advancements across numerous disciplines, yet the critical issue of knowledge conflicts, a major source of hallucinations, has rarely been studied. Only a few research explored the conflicts between the inherent knowledge of LLMs and the retrieved contextual knowledge. However, a thorough assessment of knowledge conflict in LLMs is still missing. Motivated by this research gap, we present ConflictBank, the first comprehensive benchmark developed to systematically evaluate knowledge conflicts from three aspects: (i) conflicts encountered in retrieved knowledge, (ii) conflicts within the models' encoded knowledge, and (iii) the interplay between these conflict forms. Our investigation delves into four model families and twelve LLM instances, meticulously analyzing conflicts stemming from misinformation, temporal discrepancies, and semantic divergences. Based on our proposed novel construction framework, we create 7,453,853 claim-evidence pairs and 553,117 QA pairs. We present numerous findings on model scale, conflict causes, and conflict types. We hope our ConflictBank benchmark will help the community better understand model behavior in conflicts and develop more reliable LLMs. | 翻訳日:2024-08-23 15:33:26 公開日:2024-08-22 |
# 結合型バルク-正弦波振り子モデルに基づく壁面放射能マイクロドップラー信号表現法
Through-the-Wall Radar Human Activity Micro-Doppler Signature Representation Method Based on Joint Boulic-Sinusoidal Pendulum Model ( http://arxiv.org/abs/2408.12077v1 ) ライセンス: Link先を確認 | Xiaopeng Yang, Weicheng Gao, Xiaodong Qu, Zeyu Ma, Hao Zhang, | (参考訳) マイクロドップラーシグネチャの助けを借りて、UWB(Ultra-wideband through-the-wall radar, TWR)により、手足ノードの射程と速度情報を再構築し、室内の人間の活動を正確に識別することができる。
しかし、既存の手法は通常、高特徴冗長性と一般化能力の低いレンジタイムマップ(RTM)とドップラータイムマップ(DTM)を用いて、直接的に訓練され、検証される。
そこで本研究では, 結合型バルク-正弦波振り子運動モデルに基づく人間活動型マイクロドップラーシグネチャ表現法を提案する。
本稿では, 頭, 胴体, 両手, 足の動作を, ボリック・タルマンの運動モデルから改善することによる, 簡易な関節・正弦波振子動作モデルを提案する。
またドップラー情報とマイクロドップラー情報を記述するのに必要なキーポイントの最小数を十分に計算する。
本手法の有効性を検証するため,数値シミュレーションと実験を行った。
その結果,提案したマイクロドップラーシグネチャのキーポイント数は,室内のヒト四肢節運動特性を正確に表現することができ,既存手法の一般化能力を大幅に向上させることができることがわかった。
With the help of micro-Doppler signature, ultra-wideband (UWB) through-the-wall radar (TWR) enables the reconstruction of range and velocity information of limb nodes to accurately identify indoor human activities. However, existing methods are usually trained and validated directly using range-time maps (RTM) and Doppler-time maps (DTM), which have high feature redundancy and poor generalization ability. In order to solve this problem, this paper proposes a human activity micro-Doppler signature representation method based on joint Boulic-sinusoidal pendulum motion model. In detail, this paper presents a simplified joint Boulic-sinusoidal pendulum human motion model by taking head, torso, both hands and feet into consideration improved from Boulic-Thalmann kinematic model. The paper also calculates the minimum number of key points needed to describe the Doppler and micro-Doppler information sufficiently. Both numerical simulations and experiments are conducted to verify the effectiveness. The results demonstrate that the proposed number of key points of micro-Doppler signature can precisely represent the indoor human limb node motion characteristics, and substantially improve the generalization capability of the existing methods for different testers. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# 低リソースNMTのための高品質データ拡張--変換メモリ, GANジェネレータ, フィルタを併用して-
High-Quality Data Augmentation for Low-Resource NMT: Combining a Translation Memory, a GAN Generator, and Filtering ( http://arxiv.org/abs/2408.12079v1 ) ライセンス: Link先を確認 | Hengjie Liu, Ruibo Hou, Yves Lepage, | (参考訳) データセットを拡張する技術としてのバック翻訳は、低リソース言語翻訳タスクの研究者によって広く利用されている。
典型的には、高品質な翻訳結果を保証するために、ターゲットからソース言語に変換される。
本稿では,低リソース環境下でのニューラルネットワーク翻訳(NMT)を支援するために,ソース側でモノリンガルコーパスを利用する新しい手法を提案する。
この概念はGAN(Generative Adversarial Network)を用いて,低品質な合成モノリンガル翻訳とジェネレータとの干渉を緩和しつつ,識別器のトレーニングデータを増強する。
さらに,NMTとTM(Translation Memory)を統合し,生成元に利用可能なデータ量を増やす。
さらに, 合成文ペアを拡張処理中にフィルタリングし, 高品質なデータを実現する手法を提案する。
Back translation, as a technique for extending a dataset, is widely used by researchers in low-resource language translation tasks. It typically translates from the target to the source language to ensure high-quality translation results. This paper proposes a novel way of utilizing a monolingual corpus on the source side to assist Neural Machine Translation (NMT) in low-resource settings. We realize this concept by employing a Generative Adversarial Network (GAN), which augments the training data for the discriminator while mitigating the interference of low-quality synthetic monolingual translations with the generator. Additionally, this paper integrates Translation Memory (TM) with NMT, increasing the amount of data available to the generator. Moreover, we propose a novel procedure to filter the synthetic sentence pairs during the augmentation process, ensuring the high quality of the data. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# シームレス位置決めのための大規模言語モデルを用いた自動データ標準化の可能性を探る
Exploring the Feasibility of Automated Data Standardization using Large Language Models for Seamless Positioning ( http://arxiv.org/abs/2408.12080v1 ) ライセンス: Link先を確認 | Max J. L. Lee, Ju Lin, Li-Ta Hsu, | (参考訳) 本研究では,Large Language Models (LLMs) を利用したリアルタイム自動データ標準化の実現可能性の検討を行い,IoT環境におけるシームレスな位置決めシステムを実現する。
スマートフォンやIoTデバイス,UWB(Ultra-Wideband)などの専用システムからの異種センサデータを統合,標準化することにより,データの互換性を確保し,拡張カルマンフィルタ(EKF)を用いた位置決め精度を向上させる。
コアコンポーネントには、さまざまなセンサデータを標準化フォーマットに変換するために微調整のLLMを使用するIntelligent Data Standardization Module(IDSM)と、進行中のデータ標準化のための変換ルールとスクリプトの作成を自動化するTransform Rule Generation Module(TRGM)がある。
本研究は, リアルタイム環境の評価を行い, 適応性と拡張性を示し, シームレスナビゲーションにおける操作効率と精度を向上する。
この研究は、センサーデータ統合の複雑さを克服し、よりスケーラブルで正確なIoTナビゲーションソリューションを実現するための先進的なLCMの可能性を強調します。
We propose a feasibility study for real-time automated data standardization leveraging Large Language Models (LLMs) to enhance seamless positioning systems in IoT environments. By integrating and standardizing heterogeneous sensor data from smartphones, IoT devices, and dedicated systems such as Ultra-Wideband (UWB), our study ensures data compatibility and improves positioning accuracy using the Extended Kalman Filter (EKF). The core components include the Intelligent Data Standardization Module (IDSM), which employs a fine-tuned LLM to convert varied sensor data into a standardized format, and the Transformation Rule Generation Module (TRGM), which automates the creation of transformation rules and scripts for ongoing data standardization. Evaluated in real-time environments, our study demonstrates adaptability and scalability, enhancing operational efficiency and accuracy in seamless navigation. This study underscores the potential of advanced LLMs in overcoming sensor data integration complexities, paving the way for more scalable and precise IoT navigation solutions. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# IoTコンテキスト共有プラットフォームの脅威モデリングに向けて
Towards Threat Modelling of IoT Context-Sharing Platforms ( http://arxiv.org/abs/2408.12081v1 ) ライセンス: Link先を確認 | Mohammad Goudarzi, Arash Shaghaghi, Simon Finn, Burkhard Stiller, Sanjay Jha, | (参考訳) IoT(Internet of Things)には、相互運用性と情報交換のためのコンテキスト共有プラットフォームに依存する、複雑で相互接続されたシステムとデバイスが含まれている。
したがって、これらのプラットフォームは、実際のIoTデプロイメントの重要なコンポーネントであり、セキュリティがこれらの‘システムのシステム’のレジリエンスと信頼性を保証するために不可欠である。
本稿では,IoTコンテキスト共有プラットフォームのセキュリティを体系的かつ包括的に対処する上で,まず第一歩を踏み出す。
我々は、MITRE ATT&CKフレームワークを用いて、一般的なIoTコンテキスト共有ソリューションの脅威モデリングとセキュリティ分析のためのフレームワークを提案する。
業界が出資するさまざまなプロジェクトや学術研究の評価を通じて、IoTコンテキスト共有プラットフォームの設計において重要なセキュリティ上の課題を特定します。
我々の脅威モデリングは、これらのシステムを利用する技術とサブテクニックの敵の詳細な分析を提供し、レジリエントなソリューションを開発することを目的とした将来の研究に貴重な洞察を提供する。
さらに,既存のコンテキスト共有プラットフォームのセキュリティ評価や強化に使用可能な,詳細な脅威モデリングを組み込んだオープンソースの脅威解析ツールも開発した。
The Internet of Things (IoT) involves complex, interconnected systems and devices that depend on context-sharing platforms for interoperability and information exchange. These platforms are, therefore, critical components of real-world IoT deployments, making their security essential to ensure the resilience and reliability of these 'systems of systems'. In this paper, we take the first steps toward systematically and comprehensively addressing the security of IoT context-sharing platforms. We propose a framework for threat modelling and security analysis of a generic IoT context-sharing solution, employing the MITRE ATT&CK framework. Through an evaluation of various industry-funded projects and academic research, we identify significant security challenges in the design of IoT context-sharing platforms. Our threat modelling provides an in-depth analysis of the techniques and sub-techniques adversaries may use to exploit these systems, offering valuable insights for future research aimed at developing resilient solutions. Additionally, we have developed an open-source threat analysis tool that incorporates our detailed threat modelling, which can be used to evaluate and enhance the security of existing context-sharing platforms. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# 小型衛星における非協調目標・部品の視覚による検出
Vision-Based Detection of Uncooperative Targets and Components on Small Satellites ( http://arxiv.org/abs/2408.12084v1 ) ライセンス: Link先を確認 | Hannah Grauer, Elena-Sorina Lupu, Connor Lee, Soon-Jo Chung, Darren Rowen, Benjamen Bycroft, Phaedrus Leeds, John Brader, | (参考訳) 宇宙デブリや不活性衛星は、運用宇宙船の安全性と完全性に脅威を与え、宇宙状況認識技術の必要性を動機付けている。
これらの非協力的な標的は、それらの特徴、軌道、あるいは存在についての事前の知識が不足しているため、困難な追跡と検出の問題を生じさせる。
コンピュータビジョンモデルの最近の進歩は、そのような非協調的な目標を追跡する既存の方法を改善するために使用することができ、ターゲットの広範囲な性質に対してより堅牢で信頼性の高いものにすることができる。
本稿では,これらの物体を学習とコンピュータビジョンを用いて識別・監視する自律検出モデルを提案する。
自律的検出法は、様々な状況において、異なるカメラスペクトル感度、照明、背景を含む、非協調目標を特定し、正確に追跡することを目的としている。
本手法は、観測衛星と目標との相対距離に適応し、距離に基づいて異なる検出方法が調整される。
より広い距離では,マルチタスク畳み込みニューラルネットワーク (CNN) であるYou Only Look Once (YOLOv8) を用いて,ターゲットのゼロショットとドメイン固有の単一ショットリアルタイム検出を行う。
短い距離で、我々は知識蒸留を用いて、視覚基礎モデルと軽量な高速セグメンテーションCNN(Fast-SCNN)を組み合わせることで、宇宙船コンポーネントを低ストレージ要件と高速な推論時間でセグメント化し、地球からの重量更新とオンボードトレーニングを可能にする。
最後に、宇宙空間で遭遇するユニークな条件をシミュレートするカスタムデータセットと、公開されているデータセットを用いて、本手法をテストする。
Space debris and inactive satellites pose a threat to the safety and integrity of operational spacecraft and motivate the need for space situational awareness techniques. These uncooperative targets create a challenging tracking and detection problem due to a lack of prior knowledge of their features, trajectories, or even existence. Recent advancements in computer vision models can be used to improve upon existing methods for tracking such uncooperative targets to make them more robust and reliable to the wide-ranging nature of the target. This paper introduces an autonomous detection model designed to identify and monitor these objects using learning and computer vision. The autonomous detection method aims to identify and accurately track the uncooperative targets in varied circumstances, including different camera spectral sensitivities, lighting, and backgrounds. Our method adapts to the relative distance between the observing spacecraft and the target, and different detection strategies are adjusted based on distance. At larger distances, we utilize You Only Look Once (YOLOv8), a multitask Convolutional Neural Network (CNN), for zero-shot and domain-specific single-shot real time detection of the target. At shorter distances, we use knowledge distillation to combine visual foundation models with a lightweight fast segmentation CNN (Fast-SCNN) to segment the spacecraft components with low storage requirements and fast inference times, and to enable weight updates from earth and possible onboard training. Lastly, we test our method on a custom dataset simulating the unique conditions encountered in space, as well as a publicly-available dataset. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# カモフラージュに寄与する属性のアンロック:テキストとビジュアル分析の併用戦略
Unlocking Attributes' Contribution to Successful Camouflage: A Combined Textual and VisualAnalysis Strategy ( http://arxiv.org/abs/2408.12086v1 ) ライセンス: Link先を確認 | Hong Zhang, Yixuan Lyu, Qian Yu, Hanyang Liu, Huimin Ma, Ding Yuan, Yifan Yang, | (参考訳) カモフラージュ・オブジェクト・セグメンテーション(COS)の領域では、セグメンテーション性能が継続的に改善されているにもかかわらず、効果的なカモフラージュのメカニズムはブラックボックスと同様に理解されていない。
このギャップに対処するため,カモフラージュ特性がカモフラージュパターンの有効性に与える影響を総合的に検討し,カモフラージュ設計評価のための定量的枠組みを提供する。
この分析を支援するために、我々は、COD-Text And X-attributions (COD-TAX)と呼ばれる、カモフラージュされたオブジェクトとその属性のコントリビューションを記述した最初のデータセットをコンパイルした。
さらに、人間が情報を処理する階層的なプロセスからインスピレーションを得ており、その内容は、局所的な中レベルの要約から、詳細な分析のための低レベルのピクセルデータまで、上位シナリオの高レベルテキスト記述から導かれる。
我々は、COSのタスクのためのテキスト情報と視覚情報を組み合わせた堅牢なフレームワーク、Attribution CUe Modeling with Eye-fixation Network (ACUMEN)を開発した。
ACUMENは優れたパフォーマンスを示し、3つの広く使用されているデータセットで9つのリードメソッドを上回っている。
本研究の結論は,本研究で同定された属性から得られた重要な知見を明らかにすることである。
コード:https://github.com/lyu-yx/ACUMEN.com
In the domain of Camouflaged Object Segmentation (COS), despite continuous improvements in segmentation performance, the underlying mechanisms of effective camouflage remain poorly understood, akin to a black box. To address this gap, we present the first comprehensive study to examine the impact of camouflage attributes on the effectiveness of camouflage patterns, offering a quantitative framework for the evaluation of camouflage designs. To support this analysis, we have compiled the first dataset comprising descriptions of camouflaged objects and their attribute contributions, termed COD-Text And X-attributions (COD-TAX). Moreover, drawing inspiration from the hierarchical process by which humans process information: from high-level textual descriptions of overarching scenarios, through mid-level summaries of local areas, to low-level pixel data for detailed analysis. We have developed a robust framework that combines textual and visual information for the task of COS, named Attribution CUe Modeling with Eye-fixation Network (ACUMEN). ACUMEN demonstrates superior performance, outperforming nine leading methods across three widely-used datasets. We conclude by highlighting key insights derived from the attributes identified in our study. Code: https://github.com/lyu-yx/ACUMEN. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# メンタル・パーセンティブ:メンタルヘルスアセスメントのためのオーディオ・テキスト・マルチモーダル学習
Mental-Perceiver: Audio-Textual Multimodal Learning for Mental Health Assessment ( http://arxiv.org/abs/2408.12088v1 ) ライセンス: Link先を確認 | Jinghui Qin, Changsong Liu, Tianchi Tang, Dahuang Liu, Minghao Wang, Qianying Huang, Yang Xu, Rumin Zhang, | (参考訳) 不安や抑うつといった精神障害は、さまざまな年齢の人々の生活に影響を及ぼす世界的な問題となっている。
適切な検出と治療がなければ、不安と抑うつは患者の研究、仕事、日常生活を妨げうる。
幸いなことに、デジタルおよびAI技術の最近の進歩は、より良いメンタルヘルスに新たな機会を与え、自動不安とうつ病評価技術の開発に多くの取り組みがなされている。
しかし、この分野には、AIベースの技術の開発と評価を容易にする、公開可能な大規模なデータセットがない。
この制限に対処するため,マンダリン話者の不安度と抑うつ度を指標として,新しい大規模 \textbf{M}ulti-\textbf{M}odal \textbf{Psy}chological Assessment corpus (MMPsy) を構築した。
MMPsyは、自己申告された不安や抑うつの評価と、標準的メンタルヘルスアセスメントのアンケートによる参加者の自己申告された不安や抑うつの評価から、音声と反応の書き起こしを含む。
我々のデータセットには、不安評価のためのインタビューの7,700件、うつ病評価のための4,200件以上の記録が含まれています。
このデータセットを用いて,記録された音声および転写データから不安/抑うつ的精神状態を検出するための,新しい深層学習型精神障害推定モデルである「textbf{Mental-Perceiver}」を開発した。
MMPsyと一般的に使用されているDAIC-WOZデータセットの大規模な実験は、不安と抑うつの検出において提案したメンタル・パーセンテージモデルの有効性と優位性を示した。
MMPsyデータセットは後に公開され、メンタルヘルス分野におけるAIベースの技術の研究と開発を促進する。
Mental disorders, such as anxiety and depression, have become a global issue that affects the regular lives of people across different ages. Without proper detection and treatment, anxiety and depression can hinder the sufferer's study, work, and daily life. Fortunately, recent advancements of digital and AI technologies provide new opportunities for better mental health care and many efforts have been made in developing automatic anxiety and depression assessment techniques. However, this field still lacks a publicly available large-scale dataset that can facilitate the development and evaluation of AI-based techniques. To address this limitation, we have constructed a new large-scale \textbf{M}ulti-\textbf{M}odal \textbf{Psy}chological assessment corpus (MMPsy) on anxiety and depression assessment of Mandarin-speaking adolescents. The MMPsy contains audios and extracted transcripts of responses from automated anxiety or depression assessment interviews along with the self-reported anxiety or depression evaluations of the participants using standard mental health assessment questionnaires. Our dataset contains over 7,700 post-processed recordings of interviews for anxiety assessment and over 4,200 recordings for depression assessment. Using this dataset, we have developed a novel deep-learning based mental disorder estimation model, named \textbf{Mental-Perceiver}, to detect anxious/depressive mental states from recorded audio and transcript data. Extensive experiments on our MMPsy and the commonly-used DAIC-WOZ datasets have shown the effectiveness and superiority of our proposed Mental-Perceiver model in anxiety and depression detection. The MMPsy dataset will be made publicly available later to facilitate the research and development of AI-based techniques in the mental health care field. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# ボソニック・ガウス力学における情報スクランブル
Information Scrambling in Bosonic Gaussian Dynamics ( http://arxiv.org/abs/2408.12089v1 ) ライセンス: Link先を確認 | Ali Mollabashi, Saleh Rahimi-Keshari, | (参考訳) 多モードボソニック系に対する二次ハミルトン系のランダム性は、カオス系で見られることを反映して、特定の情報を揺るがす診断結果をもたらすことを示す。
具体的には、初期ガウス状態を考えると、絡み合いのダイナミクスにおけるメモリ効果の消失と三部情報の負の値が観察される。
しかし、カオスシステムとは対照的に、スペクトル形状因子は非線形ランプを示し、時間外相関器は電力法的な成長を示す。
これらの結果から,ランダム性に関連する情報のスクランブルは,量子カオスとは別の特徴であることが示唆された。
さらに,量子情報処理に有用な連続変数系のガウス状態のダイナミクスについて考察した。
We show that randomness in quadratic Hamiltonians for multimode bosonic systems results in certain information scrambling diagnostics, mirroring those seen in chaotic systems. Specifically, considering initial Gaussian states, we observe the disappearance of the memory effect in entanglement dynamics and the negative value of tripartite mutual information. However, in contrast to chaotic systems, we find that the spectral form factor exhibits a non-linear ramp and the out-of-time-ordered correlators display a power law growth. These results show that information scrambling, associated with randomness, is a distinct feature from quantum chaos. Moreover, our results provide insight into the dynamics of Gaussian states of continuous-variable systems that are useful and available resources for quantum information processing. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# 多視点データにおける共有・私的幾何学の教師なし発見
Unsupervised discovery of the shared and private geometry in multi-view data ( http://arxiv.org/abs/2408.12091v1 ) ライセンス: Link先を確認 | Sai Koukuntla, Joshua B. Julian, Jesse C. Kaminsky, Manuel Schottdorf, David W. Tank, Carlos D. Brody, Adam S. Charles, | (参考訳) 現代の応用は、しばしば研究対象の複数の視点を利用する。
神経科学では、複数の脳領域にまたがる大規模な同時記録への関心が高まっている。
ビュー間の関係(例えば、各領域の神経活動)を理解することは、各表現の特徴とシステムに関する基本的な原則を明らかにすることができる。
しかし、そのような関係を特徴づける既存の方法は、複雑な非線形性を捉えるのに必要な表現性を欠くか、ビュー間で共有される分散の源のみを記述するか、データの解釈に不可欠な幾何学的情報を捨てるかのいずれかである。
そこで本研究では,高次元ビューのペア化されたサンプルを与えられた非線形ニューラルネットワークを用いて,これらのビューの基盤となる低次元の共有変数とプライベート変数を分離し,本質的なデータ幾何を保存する。
複数のシミュレートされた実データにまたがって,本手法が競合する手法よりも優れていることを示す。
側方生成核(LGN)とV1ニューロンの模擬集団を用いて、異なるノイズ条件で解釈可能な共有構造とプライベート構造を発見する能力を示す。
回転しないが無作為に回転するMNIST桁のデータセット上では、回転する図形に対して、回転する図形に対して回転角を符号化し、1-d多様体上に角度表現を配置する。
本手法を海馬と前頭前皮質の同時記録に応用し, マウスが直線軌道を走行している間に, 動物の位置を符号化する低次元の潜伏空間を発見する。
本稿では,ペア化データセットの簡潔かつ解釈可能な記述を,非絡み合わされた共有変数とプライベート潜伏変数の観点から検索する汎用的手法として提案する。
Modern applications often leverage multiple views of a subject of study. Within neuroscience, there is growing interest in large-scale simultaneous recordings across multiple brain regions. Understanding the relationship between views (e.g., the neural activity in each region recorded) can reveal fundamental principles about the characteristics of each representation and about the system. However, existing methods to characterize such relationships either lack the expressivity required to capture complex nonlinearities, describe only sources of variance that are shared between views, or discard geometric information that is crucial to interpreting the data. Here, we develop a nonlinear neural network-based method that, given paired samples of high-dimensional views, disentangles low-dimensional shared and private latent variables underlying these views while preserving intrinsic data geometry. Across multiple simulated and real datasets, we demonstrate that our method outperforms competing methods. Using simulated populations of lateral geniculate nucleus (LGN) and V1 neurons we demonstrate our model's ability to discover interpretable shared and private structure across different noise conditions. On a dataset of unrotated and corresponding but randomly rotated MNIST digits, we recover private latents for the rotated view that encode rotation angle regardless of digit class, and places the angle representation on a 1-d manifold, while shared latents encode digit class but not rotation angle. Applying our method to simultaneous Neuropixels recordings of hippocampus and prefrontal cortex while mice run on a linear track, we discover a low-dimensional shared latent space that encodes the animal's position. We propose our approach as a general-purpose method for finding succinct and interpretable descriptions of paired data sets in terms of disentangled shared and private latent variables. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# 住宅再配置のためのLLM強化シーングラフ学習
LLM-enhanced Scene Graph Learning for Household Rearrangement ( http://arxiv.org/abs/2408.12093v1 ) ライセンス: Link先を確認 | Wenhao Li, Zhiyuan Yu, Qijin She, Zhinan Yu, Yuqing Lan, Chenyang Zhu, Ruizhen Hu, Kai Xu, | (参考訳) 住宅再配置作業は、場所を間違えた物体を現場に配置し、適切な場所に収容することである。
客観的側面の常識知識と主観的側面の人間の嗜好の両方に依存する。
このような課題を達成するために,人間の介入に頼ることなく,シーンから直接,ユーザの好みのアライメントでオブジェクト機能をマイニングすることを提案する。
そこで我々は,シーングラフ表現を用いて,入力シーングラフを情報強化ノードと新たに発見されたエッジ(関係)を備えたアベイランス強化グラフ(AEG)に変換するLLM強化シーングラフ学習を提案する。
AEGでは、レセプタクルオブジェクトに対応するノードは、その上にどのようなキャリヤブルオブジェクトを配置できるかをエンコードするコンテキスト依存のアベイランスで拡張される。
新しい縁は、新たに発見された非局所的な関係によって発見される。
AEGでは,不適切なキャリブルを検出し,それぞれに適切な配置を決定することで,シーン再構成のためのタスクプランニングを行う。
提案手法は,シミュレータに階層型ロボットを実装してテストし,新しいベンチマークで評価を行う。
大規模評価の結果,提案手法は誤り検出および次回の再配置計画における最先端性能を実現する。
The household rearrangement task involves spotting misplaced objects in a scene and accommodate them with proper places. It depends both on common-sense knowledge on the objective side and human user preference on the subjective side. In achieving such task, we propose to mine object functionality with user preference alignment directly from the scene itself, without relying on human intervention. To do so, we work with scene graph representation and propose LLM-enhanced scene graph learning which transforms the input scene graph into an affordance-enhanced graph (AEG) with information-enhanced nodes and newly discovered edges (relations). In AEG, the nodes corresponding to the receptacle objects are augmented with context-induced affordance which encodes what kind of carriable objects can be placed on it. New edges are discovered with newly discovered non-local relations. With AEG, we perform task planning for scene rearrangement by detecting misplaced carriables and determining a proper placement for each of them. We test our method by implementing a tiding robot in simulator and perform evaluation on a new benchmark we build. Extensive evaluations demonstrate that our method achieves state-of-the-art performance on misplacement detection and the following rearrangement planning. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# uMedSum: 医学的抽象的な要約を促進する統一フレームワーク
uMedSum: A Unified Framework for Advancing Medical Abstractive Summarization ( http://arxiv.org/abs/2408.12095v1 ) ライセンス: Link先を確認 | Aishik Nagar, Yutong Liu, Andy T. Liu, Viktor Schlegel, Vijay Prakash Dwivedi, Arun-Kumar Kaliya-Perumal, Guna Pratheep Kalanchiam, Yili Tang, Robby T. Tan, | (参考訳) 医学的抽象的な要約は、忠実さと情報性のバランスをとるという課題に直面している。
現在の方法では、重要な情報を忠実に犠牲にしたり、情報提供の優先順位付けを行うときに信条を導入する場合が多い。
近年のICL(In-context Learning)や微調整( fine-tuning)といった手法の進歩は、医学的な要約を改善する一方で、モデル推論や自己改善といった高度な手法を考慮せずに、忠実さや情報提供といった重要な側面を見落としていることが多い。
さらに、フィールドには統一されたベンチマークがなく、さまざまなメトリクスやデータセットによる体系的な評価を妨げる。
本稿では,5つの標準化されたメトリクスを用いて,3つのデータセットにまたがる6つの高度な抽象的要約手法の総合的なベンチマークを提示することによって,これらのギャップに対処する。
これらの知見に基づいて, 逐次的な折り畳み除去に新たなアプローチを導入し, 鍵を欠いた情報追加を行い, 忠実さと情報提供性を両立させる, モジュール型ハイブリッド要約フレームワーク uMedSum を提案する。
本研究は,従来のGPT-4をベースとしたSOTA(State-of-the-art Medical summarization)法を改良し,定量的評価と定性的ドメインエキスパート評価の両面で有意な成績を示した。
特に,従来のSOTAよりも11.8%の参照なしメトリクスの相対的な性能向上を実現している。
uMedSumのサマリーが従来のSOTAより6倍多いと医師は考えている。
これらの結果は、uMedSumの有効性と様々なデータセットやメトリクスの一般化性を強調しており、医学的な要約の著しい進歩を示している。
Medical abstractive summarization faces the challenge of balancing faithfulness and informativeness. Current methods often sacrifice key information for faithfulness or introduce confabulations when prioritizing informativeness. While recent advancements in techniques like in-context learning (ICL) and fine-tuning have improved medical summarization, they often overlook crucial aspects such as faithfulness and informativeness without considering advanced methods like model reasoning and self-improvement. Moreover, the field lacks a unified benchmark, hindering systematic evaluation due to varied metrics and datasets. This paper addresses these gaps by presenting a comprehensive benchmark of six advanced abstractive summarization methods across three diverse datasets using five standardized metrics. Building on these findings, we propose uMedSum, a modular hybrid summarization framework that introduces novel approaches for sequential confabulation removal followed by key missing information addition, ensuring both faithfulness and informativeness. Our work improves upon previous GPT-4-based state-of-the-art (SOTA) medical summarization methods, significantly outperforming them in both quantitative metrics and qualitative domain expert evaluations. Notably, we achieve an average relative performance improvement of 11.8% in reference-free metrics over the previous SOTA. Doctors prefer uMedSum's summaries 6 times more than previous SOTA in difficult cases where there are chances of confabulations or missing information. These results highlight uMedSum's effectiveness and generalizability across various datasets and metrics, marking a significant advancement in medical summarization. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# 学術論文からの研究目的・機械学習モデル名・データセット名抽出とLLMとネットワーク分析による相互関係の分析
Extraction of Research Objectives, Machine Learning Model Names, and Dataset Names from Academic Papers and Analysis of Their Interrelationships Using LLM and Network Analysis ( http://arxiv.org/abs/2408.12097v1 ) ライセンス: Link先を確認 | S. Nishio, H. Nonaka, N. Tsuchiya, A. Migita, Y. Banno, T. Hayashi, H. Sakaji, T. Sakumoto, K. Watabe, | (参考訳) 機械学習は様々な産業で広く利用されている。
機械学習の効果的な産業的応用には、特定のタスクに適した機械学習モデルとデータセットを特定することが不可欠である。
しかし、これは機械学習と関連するドメインの両方で専門知識を必要とするため、高い学習コストにつながる。
そのため、課題や機械学習モデル、データセットの組み合わせを学術論文から抽出することに焦点を当てた研究が重要である。
学術論文からの従来の情報抽出方法は、機械学習モデルやその他のエンティティを名前付きエンティティとして特定することに限定されてきた。
そこで本研究では,科学論文からタスクや機械学習手法,データセットを抽出し,LLM,埋め込みモデル,ネットワーククラスタリングを用いてそれらの情報間の関係を解析する手法を提案する。
提案手法の表現抽出性能は,Llama3を用いた場合,各カテゴリのFスコアが0.8を超え,実用性を確認している。
ファイナンシャル・ドメイン・ペーパーのベンチマーク結果は、ESG(環境・社会・ガバナンス)データを含む最新のデータセットの使用に関する洞察を与え、この手法の有効性を実証している。
Machine learning is widely utilized across various industries. Identifying the appropriate machine learning models and datasets for specific tasks is crucial for the effective industrial application of machine learning. However, this requires expertise in both machine learning and the relevant domain, leading to a high learning cost. Therefore, research focused on extracting combinations of tasks, machine learning models, and datasets from academic papers is critically important, as it can facilitate the automatic recommendation of suitable methods. Conventional information extraction methods from academic papers have been limited to identifying machine learning models and other entities as named entities. To address this issue, this study proposes a methodology extracting tasks, machine learning methods, and dataset names from scientific papers and analyzing the relationships between these information by using LLM, embedding model, and network clustering. The proposed method's expression extraction performance, when using Llama3, achieves an F-score exceeding 0.8 across various categories, confirming its practical utility. Benchmarking results on financial domain papers have demonstrated the effectiveness of this method, providing insights into the use of the latest datasets, including those related to ESG (Environmental, Social, and Governance) data. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# スティル化ロゴを用いたクェリ効率のよいビデオ逆アタック
Query-Efficient Video Adversarial Attack with Stylized Logo ( http://arxiv.org/abs/2408.12099v1 ) ライセンス: Link先を確認 | Duoxun Tang, Yuxin Cao, Xi Xiao, Derui Wang, Sheng Wen, Tianqing Zhu, | (参考訳) ディープニューラルネットワーク(DNN)に基づく映像分類システムは,映像コンテンツを正確に検証する上で優れた性能を示した。
しかし、近年の研究では、DNNは敵の例に対して非常に脆弱であることが示されている。
したがって、敵の攻撃に対する深い理解は、非常事態に対応できる。
攻撃性能を改善するため、多くのスタイル転送ベースの攻撃とパッチベースの攻撃が提案されている。
しかし、前者の世界的な摂動は、不自然なグローバルカラーをもたらすが、後者は、限られた摂動空間のため、標的攻撃で成功するのは難しい。
さらに、画像分類器を対象とする多くの手法と比較して、ビデオの敵対攻撃はそれほど人気がない。
そこで我々は,低予算で敵の例を生成し,高い精度で提供するため,Stylized Logo Attack (SLA) と呼ばれる新しいブラックボックス・ビデオアタック・フレームワークを提案する。
SLAは3つのステップで行われます。
最初のステップは、生成した例をより自然なものにするだけでなく、ターゲットとする攻撃でより多くのターゲットクラス機能を持つ、ロゴ用のスタイル参照セットを構築することである。
次に、ビデオ内のロゴのスタイル参照と位置パラメータを決定するために強化学習(RL)を用いる。
最後に、摂動最適化は、摂動を最適化し、ステップバイステップで不正行為率を改善するように設計されている。
十分な実験結果から, SLAは最先端の手法よりも優れた性能を達成でき, 様々な防御手法に直面する際には, 優れた騙し効果を維持できることが示唆された。
Video classification systems based on Deep Neural Networks (DNNs) have demonstrated excellent performance in accurately verifying video content. However, recent studies have shown that DNNs are highly vulnerable to adversarial examples. Therefore, a deep understanding of adversarial attacks can better respond to emergency situations. In order to improve attack performance, many style-transfer-based attacks and patch-based attacks have been proposed. However, the global perturbation of the former will bring unnatural global color, while the latter is difficult to achieve success in targeted attacks due to the limited perturbation space. Moreover, compared to a plethora of methods targeting image classifiers, video adversarial attacks are still not that popular. Therefore, to generate adversarial examples with a low budget and to provide them with a higher verisimilitude, we propose a novel black-box video attack framework, called Stylized Logo Attack (SLA). SLA is conducted through three steps. The first step involves building a style references set for logos, which can not only make the generated examples more natural, but also carry more target class features in the targeted attacks. Then, reinforcement learning (RL) is employed to determine the style reference and position parameters of the logo within the video, which ensures that the stylized logo is placed in the video with optimal attributes. Finally, perturbation optimization is designed to optimize perturbations to improve the fooling rate in a step-by-step manner. Sufficient experimental results indicate that, SLA can achieve better performance than state-of-the-art methods and still maintain good deception effects when facing various defense methods. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# 分割凸性問題に対するLandweber演算子を用いた一元化プラグアンドプレイアルゴリズム
A Unified Plug-and-Play Algorithm with Projected Landweber Operator for Split Convex Feasibility Problems ( http://arxiv.org/abs/2408.12100v1 ) ライセンス: Link先を確認 | Shuchang Zhang, Hongxia Wang, | (参考訳) 近年,プラグアンドプレイ法(PnP)は,近位演算子をデノイザに置き換えることで,逆画像問題における最先端性能を実現している。
近似勾配法に基づいてPnPのいくつかの理論的結果が出現し, 適切なステップサイズが収束解析に不可欠である。
しかし、現実的な応用では、理論的に保証されたステップサイズを持つPnP法の適用は困難であり、これらのアルゴリズムはガウス雑音に限られる。
本稿では,分割凸実現可能性問題(SCFP)の観点から,これらの問題に対処するために,Projected Landweber Operator (PnP-PLO) を用いた適応型PnPアルゴリズムを提案する。
画像劣化、超分解能、圧縮センシングMRI実験の数値実験により、理論的に保証されたPnP-PLOはREDやRED-PROのような最先端の手法よりも優れていることが示された。
In recent years Plug-and-Play (PnP) methods have achieved state-of-the-art performance in inverse imaging problems by replacing proximal operators with denoisers. Based on the proximal gradient method, some theoretical results of PnP have appeared, where appropriate step size is crucial for convergence analysis. However, in practical applications, applying PnP methods with theoretically guaranteed step sizes is difficult, and these algorithms are limited to Gaussian noise. In this paper,from a perspective of split convex feasibility problems (SCFP), an adaptive PnP algorithm with Projected Landweber Operator (PnP-PLO) is proposed to address these issues. Numerical experiments on image deblurring, super-resolution, and compressed sensing MRI experiments illustrate that PnP-PLO with theoretical guarantees outperforms state-of-the-art methods such as RED and RED-PRO. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# マルチモーダル話者ダイアリゼーションのための音声・視覚・意味情報の統合
Integrating Audio, Visual, and Semantic Information for Enhanced Multimodal Speaker Diarization ( http://arxiv.org/abs/2408.12102v1 ) ライセンス: Link先を確認 | Luyao Cheng, Hui Wang, Siqi Zheng, Yafeng Chen, Rongjie Huang, Qinglin Zhang, Qian Chen, Xihao Li, | (参考訳) 話者ダイアリゼーションは、音声ストリームや書き起こされた音声内容を話者識別に基づく均質な分割に分割するプロセスであり、人間の音声の解釈と分析において重要な役割を果たす。
既存の話者ダイアリゼーションシステムの多くは、単調な音響情報のみに依存しており、音声信号の生来の曖昧さのために特に困難である。
近年,音声・視覚・音声・セマンティック・モデリングへの取り組みが盛んに行われている。
しかし、最大2つのモダリティが組み込まれても、自発的で非構造的な会話の複雑さに対処するには、しばしば不足する。
より意味のある対話パターンを活用するために,音声,視覚,意味的手がかりを併用して話者ダイアリゼーションを向上する,新しいマルチモーダルアプローチを提案する。
本手法は制約付き最適化問題としてマルチモーダルモデリングをエレガントに定式化する。
まず、アクティブな話者間の視覚的つながりと、音声コンテンツ内の意味的相互作用に関する洞察を構築し、十分なペアワイズ制約を確立する。
次に、これらの視覚的制約と意味的制約に基づいて、クラスタ話者に一対の制約伝搬アルゴリズムを導入する。
この積分は、個々の話者埋め込み間の親和性推定を精査し、異なるモードの相補的な強度を効果的に活用する。
複数のマルチモーダルデータセットに対して行われた大規模な実験により、我々のアプローチは最先端の話者ダイアリゼーション法より一貫して優れていることが示された。
Speaker diarization, the process of segmenting an audio stream or transcribed speech content into homogenous partitions based on speaker identity, plays a crucial role in the interpretation and analysis of human speech. Most existing speaker diarization systems rely exclusively on unimodal acoustic information, making the task particularly challenging due to the innate ambiguities of audio signals. Recent studies have made tremendous efforts towards audio-visual or audio-semantic modeling to enhance performance. However, even the incorporation of up to two modalities often falls short in addressing the complexities of spontaneous and unstructured conversations. To exploit more meaningful dialogue patterns, we propose a novel multimodal approach that jointly utilizes audio, visual, and semantic cues to enhance speaker diarization. Our method elegantly formulates the multimodal modeling as a constrained optimization problem. First, we build insights into the visual connections among active speakers and the semantic interactions within spoken content, thereby establishing abundant pairwise constraints. Then we introduce a joint pairwise constraint propagation algorithm to cluster speakers based on these visual and semantic constraints. This integration effectively leverages the complementary strengths of different modalities, refining the affinity estimation between individual speaker embeddings. Extensive experiments conducted on multiple multimodal datasets demonstrate that our approach consistently outperforms state-of-the-art speaker diarization methods. | 翻訳日:2024-08-23 15:23:41 公開日:2024-08-22 |
# 一度だけマージする: 優先順位対応モデルマージのParetoセットを学ぶ
You Only Merge Once: Learning the Pareto Set of Preference-Aware Model Merging ( http://arxiv.org/abs/2408.12105v1 ) ライセンス: Link先を確認 | Weiyu Chen, James Kwok, | (参考訳) 複数のモデルを1つのモデルに組み合わせたモデルマージが近年人気を集めている。
元のトレーニングデータを使わずに、様々なモデルの機能を効率的に統合することにより、パラメータカウントとメモリ使用量を大幅に削減できる。
しかし、現在の手法では単一のマージモデルしか生成できない。
これは、様々なモデル間の対立によるパフォーマンス上のトレードオフを必要とし、結果として得られる1サイズフィットのモデルは、特定のモデルを他のモデルよりも優先する可能性のある異なるユーザの好みと一致しないかもしれない。
この問題に対処するため、我々は、各ベースモデルのタスクにおけるマージモデルの性能を目的として扱う多目的最適化問題として、嗜好を考慮したモデルマージを提案し、これを定式化する。
1つのマージプロセスのみにおいて、提案したパラメータ効率構造は、与えられたユーザが指定した好みに対して、Pareto-optimalモデルを表す、マージされたモデルのパレート集合全体を生成することができる。
マージされたモデルは、異なるユーザの好みに合わせてカスタマイズされた学習されたParetoセットから選択することもできる。
複数のベンチマークデータセットによる実験結果から,提案した嗜好を意識したPareto Mergingは,さまざまなトレードオフモデルを得ることができ,ベースラインをマージする最先端モデルよりも優れることが示された。
Model merging, which combines multiple models into a single model, has gained increasing popularity in recent years. By efficiently integrating the capabilities of various models without their original training data, this significantly reduces the parameter count and memory usage. However, current methods can only produce one single merged model. This necessitates a performance trade-off due to conflicts among the various models, and the resultant one-size-fits-all model may not align with the preferences of different users who may prioritize certain models over others. To address this issue, we propose preference-aware model merging, and formulate this as a multi-objective optimization problem in which the performance of the merged model on each base model's task is treated as an objective. In only one merging process, the proposed parameter-efficient structure can generate the whole Pareto set of merged models, each representing the Pareto-optimal model for a given user-specified preference. Merged models can also be selected from the learned Pareto set that are tailored to different user preferences. Experimental results on a number of benchmark datasets demonstrate that the proposed preference-aware Pareto Merging can obtain a diverse set of trade-off models and outperforms state-of-the-art model merging baselines. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# 量子トーラス表面上の多重非エルミタン相転移
Multiple non-hermitian phase transitions on quantum torus surface ( http://arxiv.org/abs/2408.12108v1 ) ライセンス: Link先を確認 | José A. S. Lourenço, Ygor Pará, J. Furtado, | (参考訳) 本稿では,量子トーラス表面における非エルミタン相転移の発生について検討する。
量子トーラス表面上での移動に制限されたディラック方程式によって力学が支配される単一のフェルミオンを考える。
幾何学の影響は、四角形形式とスピン接続を用いて考慮される。
ディラック方程式は各スピノル成分に対して2つの結合した1階微分方程式をもたらす。
各スピノル成分の固有値と固有関数を数値計算し、トーラスの幾何学的特徴と質量の虚像成分の大きさから非エルミタン相転移を考察した。
In this paper we investigate the arising of non-hermitian phase transitions on quantum torus surfaces. We consider a single fermion whose dynamics is governed by the Dirac equation confined to move on a quantum torus surface. The effects of the geometry are take into account by using the tetrad formalism and the spin connection. The Dirac equation gives rise to two coupled first-order differential equations for each spinor component. The eigenvalues and eigenfunctions for each spinor component are computed numerically and the non-hermitian phase transitions are investigated in terms of the geometric features of the torus and the magnitude of the imaginary component of the mass. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# RoVRM:補助的テキスト参照データにより最適化されたロバストなビジュアルリワードモデル
RoVRM: A Robust Visual Reward Model Optimized via Auxiliary Textual Preference Data ( http://arxiv.org/abs/2408.12109v1 ) ライセンス: Link先を確認 | Chenglong Wang, Yang Gan, Yifu Huo, Yongyu Mu, Murun Yang, Qiaozhi He, Tong Xiao, Chunliang Zhang, Tongran Liu, Quan Du, Di Yang, Jingbo Zhu, | (参考訳) 大規模な視覚言語モデル(LVLM)は人間の好みと一致せず、適切な視覚的コンテキスト(幻覚としても知られる)を伴わない誤解を招くような問題を引き起こす。
この問題に対する有望な解決策は、ベスト・オブ・nサンプリングや強化学習など、人間の嗜好アライメント技術を使用することである。
しかし、これらの手法は、視覚的報酬モデル(VRM)のトレーニングに必要な視覚的嗜好データの不足に起因する困難に直面している。
この研究において、我々は研究のラインを継続する。
本稿では,LVLMのヒューマン・参照アライメントを改善するロバスト・ビジュアル・リワード・モデル(RoVRM)を提案する。
RoVRMは、3段階のプログレッシブトレーニングと最適なトランスポートベースの選好データ選択を通じて補助的なテキスト選好データを活用し、視覚選好データの不足を効果的に軽減する。
我々は,LLaVA-1.5-7Bモデルと-13Bモデルに基づく視覚言語タスクにおいて,RoVRMを用いて実験を行った。
実験の結果、RoVRMは従来のVRMよりも一貫して優れていた。
さらに,3段階のプログレッシブトレーニングと選好データ選択アプローチにより,直接選好最適化などのランキングベースのアライメント手法よりも一貫した性能向上が得られる。
Large vision-language models (LVLMs) often fail to align with human preferences, leading to issues like generating misleading content without proper visual context (also known as hallucination). A promising solution to this problem is using human-preference alignment techniques, such as best-of-n sampling and reinforcement learning. However, these techniques face the difficulty arising from the scarcity of visual preference data, which is required to train a visual reward model (VRM). In this work, we continue the line of research. We present a Robust Visual Reward Model (RoVRM) which improves human-preference alignment for LVLMs. RoVRM leverages auxiliary textual preference data through a three-phase progressive training and optimal transport-based preference data selection to effectively mitigate the scarcity of visual preference data. We experiment with RoVRM on the commonly used vision-language tasks based on the LLaVA-1.5-7B and -13B models. Experimental results demonstrate that RoVRM consistently outperforms traditional VRMs. Furthermore, our three-phase progressive training and preference data selection approaches can yield consistent performance gains over ranking-based alignment techniques, such as direct preference optimization. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# Pareto Inverse Reinforcement Learning for Diverse Expert Policy Generation
Pareto Inverse Reinforcement Learning for Diverse Expert Policy Generation ( http://arxiv.org/abs/2408.12110v1 ) ライセンス: Link先を確認 | Woo Kyung Kim, Minjong Yoo, Honguk Woo, | (参考訳) データ駆動のオフライン強化学習と模倣学習アプローチは、シーケンシャルな意思決定問題に対処するために人気を集めている。
しかし、これらのアプローチは、専門家データセットの限られたプールからパレート最適化ポリシーを学ぶことを考えることは滅多にない。
これは特に、複数の矛盾する目標が存在し、各専門家がこれらの目的に対してユニークな最適化の選好を保持するような、すべての選好に対して包括的なデータセットを取得するという、実践的な制限によって特徴付けられる。
本稿では,識別器の正則化のための報酬距離推定を用いて,逆強化学習(IRL)を適用する。
これにより、複数の目的に対するさまざまな嗜好に対応する一連のポリシーをプログレッシブに生成できると同時に、それぞれ異なる専門家選好に関連付けられた2つのデータセットのみを使用することが可能になる。
そこで我々は,これらの限られたデータセットから設定したParetoポリシーを確立するPareto IRLフレームワーク(ParIRL)を提案する。
このフレームワークでは、Paretoポリシーセットを単一の好み条件付き拡散モデルに蒸留し、ユーザーが好きな専門家のパターンを即座に指定できるようにする。
実験により、ParIRLは様々な多目的制御タスクに対して他のIRLアルゴリズムよりも優れており、パレートフロンティアの密度近似が達成されていることを示す。
また,CARLAにおけるParIRLの自律運転への適用性を実証した。
Data-driven offline reinforcement learning and imitation learning approaches have been gaining popularity in addressing sequential decision-making problems. Yet, these approaches rarely consider learning Pareto-optimal policies from a limited pool of expert datasets. This becomes particularly marked due to practical limitations in obtaining comprehensive datasets for all preferences, where multiple conflicting objectives exist and each expert might hold a unique optimization preference for these objectives. In this paper, we adapt inverse reinforcement learning (IRL) by using reward distance estimates for regularizing the discriminator. This enables progressive generation of a set of policies that accommodate diverse preferences on the multiple objectives, while using only two distinct datasets, each associated with a different expert preference. In doing so, we present a Pareto IRL framework (ParIRL) that establishes a Pareto policy set from these limited datasets. In the framework, the Pareto policy set is then distilled into a single, preference-conditioned diffusion model, thus allowing users to immediately specify which expert's patterns they prefer. Through experiments, we show that ParIRL outperforms other IRL algorithms for various multi-objective control tasks, achieving the dense approximation of the Pareto frontier. We also demonstrate the applicability of ParIRL with autonomous driving in CARLA. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# ZipGait: 歩行認識向上のための拡散モデルによる骨格とシルエットのブリッジ化
ZipGait: Bridging Skeleton and Silhouette with Diffusion Model for Advancing Gait Recognition ( http://arxiv.org/abs/2408.12111v1 ) ライセンス: Link先を確認 | Fanxu Min, Qing Cai, Shaoxiang Guo, Yang Yu, Hao Fan, Junyu Dong, | (参考訳) 現在の歩行認識研究は主に外見の特徴を効果的に抽出することに焦点を当てているが、その性能は制約のないシーン下でのシルエットの脆弱性によって著しく損なわれている。
その結果、多くの研究が、特に骨格配列の本質的な情報を十分に活用することによって、様々なモデルからの情報を利用する方法を探っている。
これらのモデルに基づく手法は大きな性能を達成したが、外観に基づく手法と比較しても大きなギャップがあり、シルエットや骨格をブリッジする可能性を示している。
本研究は,拡散モデルを用いて個々の骨格分布から高密度な体形を再構築する試みであり,モデルに基づく手法を改善するために,本質的な特徴のみに焦点をあてるのではなく,クロスモーダルな特徴を結合する新しいアプローチを実証するものである。
そこで本研究では,歩行認識に適した4つの具体的適応を備えた歩行拡散モデルDiffGaitを提案する。
さらに,再建したシルエットや骨格を効果的に活用するために,2段階のプロセスを通じて異なる歩行特徴を統合するためにパーセプション・ゲイト統合(PGI)を導入する。
これらの修正を取り入れることで、ZipGaitと呼ばれる効率的なモデルベースの歩行認識フレームワークが実現される。
4つの公開ベンチマークに関する広範な実験を通じて、ZipGaitは優れたパフォーマンスを示し、ドメイン間およびドメイン内両方の設定において最先端のメソッドよりも大きなマージンで性能を向上し、プラグアンドプレイのパフォーマンスが大幅に向上した。
Current gait recognition research predominantly focuses on extracting appearance features effectively, but the performance is severely compromised by the vulnerability of silhouettes under unconstrained scenes. Consequently, numerous studies have explored how to harness information from various models, particularly by sufficiently utilizing the intrinsic information of skeleton sequences. While these model-based methods have achieved significant performance, there is still a huge gap compared to appearance-based methods, which implies the potential value of bridging silhouettes and skeletons. In this work, we make the first attempt to reconstruct dense body shapes from discrete skeleton distributions via the diffusion model, demonstrating a new approach that connects cross-modal features rather than focusing solely on intrinsic features to improve model-based methods. To realize this idea, we propose a novel gait diffusion model named DiffGait, which has been designed with four specific adaptations suitable for gait recognition. Furthermore, to effectively utilize the reconstructed silhouettes and skeletons, we introduce Perception Gait Integration (PGI) to integrate different gait features through a two-stage process. Incorporating those modifications leads to an efficient model-based gait recognition framework called ZipGait. Through extensive experiments on four public benchmarks, ZipGait demonstrates superior performance, outperforming the state-of-the-art methods by a large margin under both cross-domain and intra-domain settings, while achieving significant plug-and-play performance improvements. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# バランス法:LLM設計レスバンドリワードの優先順位付け戦略
Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards ( http://arxiv.org/abs/2408.12112v1 ) ライセンス: Link先を確認 | Shresth Verma, Niclas Boehmer, Lingkai Kong, Milind Tambe, | (参考訳) LLMは、強化学習(Reinforcement Learning, RL)において、人間の好みに基づいた報酬関数の設計にますます利用されている。
エージェント間で限られたリソースを割り当てるフレームワークであるRestless Multi-Armed BanditsのLLM設計の報酬に焦点をあてる。
公衆衛生などの応用において、このアプローチは、草の根労働者に対して、コミュニティのニーズに対する自動割り当て決定を調整する権限を与える。
複数のエージェントが存在する場合、人間の嗜好に基づく報酬関数の変更はサブポピュレーションに大きく影響し、複雑なトレードオフと多目的資源割り当て問題を引き起こす。
LLMが設計したマルチエージェントプランナーに対する報酬と、特にレスレスバンディットのトレードオフを扱うための、社会選択言語モデル(Social Choice Language Model)と呼ばれる原則を最初に提示する。
我々のモデルでは, ユーザ選択型社会福祉機能を通じて複雑なトレードオフを制御する, LLM の外部にある, 適応子と呼ばれる透明で構成可能な選択成分が新たに導入されている。
本実験は,LLMに基づく手法と比較して,モデルがより効果的で整合性があり,バランスの取れた報酬関数を確実に選択することを示した。
LLMs are increasingly used to design reward functions based on human preferences in Reinforcement Learning (RL). We focus on LLM-designed rewards for Restless Multi-Armed Bandits, a framework for allocating limited resources among agents. In applications such as public health, this approach empowers grassroots health workers to tailor automated allocation decisions to community needs. In the presence of multiple agents, altering the reward function based on human preferences can impact subpopulations very differently, leading to complex tradeoffs and a multi-objective resource allocation problem. We are the first to present a principled method termed Social Choice Language Model for dealing with these tradeoffs for LLM-designed rewards for multiagent planners in general and restless bandits in particular. The novel part of our model is a transparent and configurable selection component, called an adjudicator, external to the LLM that controls complex tradeoffs via a user-selected social welfare function. Our experiments demonstrate that our model reliably selects more effective, aligned, and balanced reward functions compared to purely LLM-based approaches. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# 量子領域畳み込みニューラルネットワークによる顧客関係管理におけるリスク分析-短期記憶とクロスアテンション機構-
Risk Analysis in Customer Relationship Management via Quantile Region Convolutional Neural Network-Long Short-Term Memory and Cross-Attention Mechanism ( http://arxiv.org/abs/2408.12113v1 ) ライセンス: Link先を確認 | Yaowen Huang, Jun Der Leu, Baoli Lu, Yan Zhou, | (参考訳) リスク分析は、顧客関係管理(CRM)における重要なビジネス意思決定支援タスクであり、顧客満足度、維持率、全体的なビジネスパフォーマンスに影響を与える可能性のある潜在的なリスクや課題を特定する。
本稿では、CRMにおけるリスク分析を強化するために、QRCNN-LSTM(quantile region convolutional neural network-long short-term memory)とモデリングのためのクロスアテンション機構の利点を組み合わせた。
QRCNN-LSTMモデルは、シーケンスモデリングと自然言語処理タスクで一般的に使用されるディープラーニングアーキテクチャを組み合わせることで、シーケンスデータにおける局所的およびグローバルな依存関係のキャプチャを可能にする。
クロスアテンションメカニズムは、異なる入力データ部分間のインタラクションを強化し、モデルがCRMのリスク分析に関連する特定の領域や機能に集中できるようにする。
CRMのリスク分析にQRCNN-LSTMとクロスアテンションメカニズムを適用することで、このアプローチが潜在的リスクを効果的に識別し、データ駆動によるビジネス意思決定を支援することを実証できる。
Risk analysis is an important business decision support task in customer relationship management (CRM), involving the identification of potential risks or challenges that may affect customer satisfaction, retention rates, and overall business performance. To enhance risk analysis in CRM, this paper combines the advantages of quantile region convolutional neural network-long short-term memory (QRCNN-LSTM) and cross-attention mechanisms for modeling. The QRCNN-LSTM model combines sequence modeling with deep learning architectures commonly used in natural language processing tasks, enabling the capture of both local and global dependencies in sequence data. The cross-attention mechanism enhances interactions between different input data parts, allowing the model to focus on specific areas or features relevant to CRM risk analysis. By applying QRCNN-LSTM and cross-attention mechanisms to CRM risk analysis, empirical evidence demonstrates that this approach can effectively identify potential risks and provide data-driven support for business decisions. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# SPARK:大規模ビジョンランゲージモデルのためのマルチビジョンセンサ知覚と推論ベンチマーク
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models ( http://arxiv.org/abs/2408.12114v1 ) ライセンス: Link先を確認 | Youngjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro, | (参考訳) 大規模ビジョンランゲージモデル (LVLM) はテキスト・アライン・ビジョン・インプットによって大幅に進歩している。
彼らは、テキストモダリティを視覚入力と整合させることにより、コンピュータビジョンタスクにおいて顕著な進歩を遂げた。
熱、深度、医療用X線画像など、RGB以外のマルチビジョンセンサーを組み込む試みもある。
しかし、現在のLVLMは、マルチビジョンセンサの物理的特性を考慮せずに、同じRGB領域にあるかのように、マルチビジョンセンサから撮影した画像を見ることができる。
データセットとそれに対応するコンテキスト知識から、基本的なマルチビジョンセンサー情報を適切に伝達することができない。
その結果、実際の物理的環境から得られる情報とテキストとの整合性は正しくは得られず、物理的環境を考慮した複雑なセンサ関連質問への回答が困難になる。
本稿では,画像とマルチビジョンセンサ間の基本的なマルチビジョンセンサ情報ギャップを低減するために,SPARKと呼ばれるマルチビジョンセンサ知覚と推論ベンチマークを確立することを目的とする。
6,248個の視覚言語検定サンプルを自動生成し,多視点感覚知覚と多視点感覚推論を,様々な種類のセンサ関連質問を対象とする物理センサ知識習熟度に基づいて検討した。
我々は,これらの試料を用いて,LVLMを10個評価した。
その結果、ほとんどのモデルでは、様々な範囲で多視点感覚理論の欠陥が見られた。
コードとデータはhttps://github.com/top-yun/SPARKで公開されている。
Large-scale Vision-Language Models (LVLMs) have significantly advanced with text-aligned vision inputs. They have made remarkable progress in computer vision tasks by aligning text modality with vision inputs. There are also endeavors to incorporate multi-vision sensors beyond RGB, including thermal, depth, and medical X-ray images. However, we observe that current LVLMs view images taken from multi-vision sensors as if they were in the same RGB domain without considering the physical characteristics of multi-vision sensors. They fail to convey the fundamental multi-vision sensor information from the dataset and the corresponding contextual knowledge properly. Consequently, alignment between the information from the actual physical environment and the text is not achieved correctly, making it difficult to answer complex sensor-related questions that consider the physical environment. In this paper, we aim to establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK that can reduce the fundamental multi-vision sensor information gap between images and multi-vision sensors. We generated 6,248 vision-language test samples automatically to investigate multi-vision sensory perception and multi-vision sensory reasoning on physical sensor knowledge proficiency across different formats, covering different types of sensor-related questions. We utilized these samples to assess ten leading LVLMs. The results showed that most models displayed deficiencies in multi-vision sensory reasoning to varying extents. Codes and data are available at https://github.com/top-yun/SPARK | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# 時系列解析のための混合ニューラルネットワークによるクロスボーダー商品価格戦略最適化
Cross-border Commodity Pricing Strategy Optimization via Mixed Neural Network for Time Series Analysis ( http://arxiv.org/abs/2408.12115v1 ) ライセンス: Link先を確認 | Lijuan Wang, Yijia Hu, Yan Zhou, | (参考訳) 世界貿易の文脈では、国境を越えた商品価格が企業の競争力と市場シェアを決定づけている。
しかしながら、既存の方法論は、動的国際市場への効果的な対応に必要な俊敏性や精度が欠如しているため、しばしば不十分である。
時系列データは商品価格において非常に重要であり、市場のダイナミクスやトレンドを明らかにすることができる。
そこで本研究では,ハイブリッドニューラルネットワークモデルCNN-BiGRU-SSAに基づく新しい手法を提案する。
本研究の目的は,時系列データの詳細な分析と最適化を通じて,国境を越えた商品価格戦略の正確な予測と最適化を実現することである。
我々のモデルは、複数のデータセットにまたがって実験的な検証を行っている。
その結果,UNCTAD,IMF,WITS,中国税関などのデータセットにおいて,本手法が顕著な性能上の優位性を達成できることが示唆された。
例えば、UNCTADデータセットでは、我々のモデルはMAEを4.357、RMSEを5.406、R2を0.961に減らし、他のモデルよりもかなり良い。
また,IMF および WITS データセットにおいて,本手法も同様に優れた性能を示す。
これらの実験結果は、国境を越えた商品価格の分野におけるモデルの有効性と信頼性を検証した。
本研究は、企業にとって、より合理的で効果的な国境を越えた商品価格戦略を定式化し、市場競争力と収益性を高めるための重要な基準となる。
同時に,本手法は,国際貿易・経済戦略最適化の分野における深層学習の活用の基盤も築き上げている。
In the context of global trade, cross-border commodity pricing largely determines the competitiveness and market share of businesses. However, existing methodologies often prove inadequate, as they lack the agility and precision required to effectively respond to the dynamic international markets. Time series data is of great significance in commodity pricing and can reveal market dynamics and trends. Therefore, we propose a new method based on the hybrid neural network model CNN-BiGRU-SSA. The goal is to achieve accurate prediction and optimization of cross-border commodity pricing strategies through in-depth analysis and optimization of time series data. Our model undergoes experimental validation across multiple datasets. The results show that our method achieves significant performance advantages on datasets such as UNCTAD, IMF, WITS and China Customs. For example, on the UNCTAD dataset, our model reduces MAE to 4.357, RMSE to 5.406, and R2 to 0.961, significantly better than other models. On the IMF and WITS datasets, our method also achieves similar excellent performance. These experimental results verify the effectiveness and reliability of our model in the field of cross-border commodity pricing. Overall, this study provides an important reference for enterprises to formulate more reasonable and effective cross-border commodity pricing strategies, thereby enhancing market competitiveness and profitability. At the same time, our method also lays a foundation for the application of deep learning in the fields of international trade and economic strategy optimization, which has important theoretical and practical significance. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# 時空間学習のためのジェネリックエンハンスである大規模言語モデルからのジオロケーション表現
Geolocation Representation from Large Language Models are Generic Enhancers for Spatio-Temporal Learning ( http://arxiv.org/abs/2408.12116v1 ) ライセンス: Link先を確認 | Junlin He, Tong Nie, Wei Ma, | (参考訳) 地理空間領域では、普遍表現モデルは自然言語処理やコンピュータビジョンにおいて広く使われるよりもはるかに少ない。
この相違は主に、しばしばストリートビューやモビリティデータを必要とする既存の表現モデルの入力に伴う高コストから生じる。
そこで我々は,大規模言語モデル(LLM)とOpenStreetMapからの補助地図データを利用して位置情報表現(LLMGeovec)を導出する,新しい学習自由な手法を開発した。
LLMGeovecは、時空間学習のための一般的なエンハンサーとして機能する都市、国、グローバルスケールの地理的意味論を表現することができる。
具体的には,地理的予測 (GP), 長期時系列予測 (LTSF), グラフベースの時空間予測 (GSTF) など,複数の時空間的タスクをシンプルかつ効果的に拡張するパラダイムを導入する。
LLMGeovecは、幅広い時空間学習モデルにシームレスに統合することができ、即時的な拡張を提供する。
実験結果から,LLMGeovecはGP,LTSF,GSTFモデルの性能を大幅に向上することが示された。
In the geospatial domain, universal representation models are significantly less prevalent than their extensive use in natural language processing and computer vision. This discrepancy arises primarily from the high costs associated with the input of existing representation models, which often require street views and mobility data. To address this, we develop a novel, training-free method that leverages large language models (LLMs) and auxiliary map data from OpenStreetMap to derive geolocation representations (LLMGeovec). LLMGeovec can represent the geographic semantics of city, country, and global scales, which acts as a generic enhancer for spatio-temporal learning. Specifically, by direct feature concatenation, we introduce a simple yet effective paradigm for enhancing multiple spatio-temporal tasks including geographic prediction (GP), long-term time series forecasting (LTSF), and graph-based spatio-temporal forecasting (GSTF). LLMGeovec can seamlessly integrate into a wide spectrum of spatio-temporal learning models, providing immediate enhancements. Experimental results demonstrate that LLMGeovec achieves global coverage and significantly boosts the performance of leading GP, LTSF, and GSTF models. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# 理論的観点からのフェデレーション学習におけるデータ再構成漏れの理解
Understanding Data Reconstruction Leakage in Federated Learning from a Theoretical Perspective ( http://arxiv.org/abs/2408.12119v1 ) ライセンス: Link先を確認 | Zifan Wang, Binghui Zhang, Meng Pang, Yuan Hong, Binghui Wang, | (参考訳) フェデレートラーニング(Federated Learning, FL)は、データプライバシ保護を目的とした、新たなコラボレーティブラーニングパラダイムである。
残念ながら、最近の研究は、FLアルゴリズムが深刻なデータ再構成攻撃に対して脆弱であることを示している。
しかし、既存の研究は、デバイスのデータがどの程度再構成可能か、そしてそれらの不安定な性能のためにこれらの攻撃の有効性を公平に比較できないかという理論的基盤を欠いている。
この欠陥に対処するために、FLに対するデータ再構成攻撃を理解するための理論的枠組みを提案する。
我々のフレームワークは、データ再構成エラーをバウンドし、攻撃のエラーバウンドはその固有の攻撃効果を反映する。
この枠組みでは,既存の攻撃の有効性を理論的に比較できる。
例えば、複数のデータセットに対する我々の結果は、iDLG攻撃が本質的にDLG攻撃を上回っていることを検証する。
Federated learning (FL) is an emerging collaborative learning paradigm that aims to protect data privacy. Unfortunately, recent works show FL algorithms are vulnerable to the serious data reconstruction attacks. However, existing works lack a theoretical foundation on to what extent the devices' data can be reconstructed and the effectiveness of these attacks cannot be compared fairly due to their unstable performance. To address this deficiency, we propose a theoretical framework to understand data reconstruction attacks to FL. Our framework involves bounding the data reconstruction error and an attack's error bound reflects its inherent attack effectiveness. Under the framework, we can theoretically compare the effectiveness of existing attacks. For instance, our results on multiple datasets validate that the iDLG attack inherently outperforms the DLG attack. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# テストメトリクスの組合せがソフトウェアプロジェクトの成功を予測できるか?-1年間のプロジェクトコースを事例として-
Which Combination of Test Metrics Can Predict Success of a Software Project? A Case Study in a Year-Long Project Course ( http://arxiv.org/abs/2408.12120v1 ) ライセンス: Link先を確認 | Marina Filipovic, Fabian Gilson, | (参考訳) テストはソフトウェア開発プロジェクトの成功を確保する上で重要な役割を担います。
これまでの研究は、振る舞い駆動開発手法で受け入れテストを適用する効果を実証してきた。
本研究では,様々な種類のテストが機能的適合性,すなわちユーザの機能的期待に適合するソフトウェアに与える影響を定量化できるかどうかを検討する。
ソフトウェアテスト(自動および手動、受け入れテストを含む)のどの組み合わせを適用すれば、期待される機能要件が満たされるか、また、開発イテレーション中にテストの欠如がプロジェクトの修正に要する労力を大幅に増加させるかどうかを検討する。
これらの質問に答えるために、私たちは1年間のソフトウェアエンジニアリングプロジェクトコースからデータを収集、分析しました。
手動による観察と統計手法、すなわち線形混合影響モデリングを組み合わせることで、カバレッジメトリクスの効果と5つのスクラムスプリントで通過したストーリーに対する時間的労力を評価しました。
その結果、自動化されたユニットテスト、受け入れテスト、手動テストのすべてに対する高いコードカバレッジの組み合わせは、機能的な適合性に大きな影響を与えることが示唆された。
同様に、より低い範囲では、フロントエンドの単体テストと手動テストは、独立して行うソフトウェアデリバリの成功を予測することができる。
ユーザストーリーの低バックエンドテストと遅延(つまり延期)の間には,大きな影響がみられた。
Testing plays an important role in securing the success of a software development project. Prior studies have demonstrated beneficial effects of applying acceptance testing within a Behavioural-Driven Development method. In this research, we investigate whether we can quantify the effects various types of testing have on functional suitability, i.e. the software conformance to users' functional expectations. We explore which combination of software testing (automated and manual, including acceptance testing) should be applied to ensure the expected functional requirements are met, as well as whether the lack of testing during a development iteration causes a significant increase of effort spent fixing the project later on. To answer those questions, we collected and analysed data from a year-long software engineering project course. We combined manual observations and statistical methods, namely Linear Mixed-Effects Modelling, to evaluate the effects of coverage metrics as well as time effort on passed stories over 5 Scrum sprints. The results suggest that a combination of a high code coverage for all of automated unit, acceptance, and manual testing has a significant impact on functional suitability. Similarly, but to a lower extent, front-end unit testing and manual testing can predict the success of a software delivery when taken independently. We observed a close-to-significant effect between low back-end testing and deferral (i.e. postponement) of user stories. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# Emotion-Agent:連続感情脳波解析のための分布型逆流を用いた教師なし深層強化学習
Emotion-Agent: Unsupervised Deep Reinforcement Learning with Distribution-Prototype Reward for Continuous Emotional EEG Analysis ( http://arxiv.org/abs/2408.12121v1 ) ライセンス: Link先を確認 | Zhihao Zhou, Qile Liu, Jiyuan Wang, Zhen Liang, | (参考訳) 連続脳波(EEG)信号は、感情脳-コンピュータインターフェース(aBCI)の応用に広く用いられている。
しかし、連続的に収集されたすべての脳波信号が、手元にあるタスク(例えば、不思議に思う思考)に関連がある、あるいは意味があるわけではない。
一方、タスクや個人によって異なるエンゲージメントパターンがあるため、手動で関連部分をラベル付けすることはほぼ不可能である。
したがって、連続脳波記録から重要な部分を効果的かつ効率的に同定することは、結果の正確性や信頼性に直接影響を与えるため、下流のBCIタスクには不可欠である。
本稿では,脳波信号から関連性および情報的感情モーメントを自動的に識別する,非教師なしの深層強化学習フレームワークであるEmotion-Agentを提案する。
具体的には、Emotion-Agentは、教師なしの深い強化学習とヒューリスティックなアルゴリズムを組み合わせる。
我々はまず、このヒューリスティックアルゴリズムを用いて、脳波信号の最初のグローバル検索とプロトタイプ表現を行い、信号空間の効率的な探索と潜在的関心領域の同定を容易にする。
そして,分布型報酬関数を設計し,サンプルとプロトタイプ間の相互作用を推定し,同定された部位が関連し,基礎となる感情状態を表すことを保証する。
Emotion-AgentはPPO(Proximal Policy Optimization)を用いて訓練され、安定かつ効率的な収束を実現する。
実験では,感情認識の有無とパフォーマンスを比較した。
その結果、下流タスクに入力する前に関連性のある感情的部分を選択することで、ABCIアプリケーションの正確性と信頼性が向上することが示された。
Continuous electroencephalography (EEG) signals are widely used in affective brain-computer interface (aBCI) applications. However, not all continuously collected EEG signals are relevant or meaningful to the task at hand (e.g., wondering thoughts). On the other hand, manually labeling the relevant parts is nearly impossible due to varying engagement patterns across different tasks and individuals. Therefore, effectively and efficiently identifying the important parts from continuous EEG recordings is crucial for downstream BCI tasks, as it directly impacts the accuracy and reliability of the results. In this paper, we propose a novel unsupervised deep reinforcement learning framework, called Emotion-Agent, to automatically identify relevant and informative emotional moments from continuous EEG signals. Specifically, Emotion-Agent involves unsupervised deep reinforcement learning combined with a heuristic algorithm. We first use the heuristic algorithm to perform an initial global search and form prototype representations of the EEG signals, which facilitates the efficient exploration of the signal space and identify potential regions of interest. Then, we design distribution-prototype reward functions to estimate the interactions between samples and prototypes, ensuring that the identified parts are both relevant and representative of the underlying emotional states. Emotion-Agent is trained using Proximal Policy Optimization (PPO) to achieve stable and efficient convergence. Our experiments compare the performance with and without Emotion-Agent. The results demonstrate that selecting relevant and informative emotional parts before inputting them into downstream tasks enhances the accuracy and reliability of aBCI applications. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# 物理界における物体検出器に対するバックドア攻撃の信頼性について
On the Credibility of Backdoor Attacks Against Object Detectors in the Physical World ( http://arxiv.org/abs/2408.12122v1 ) ライセンス: Link先を確認 | Bao Gia Doan, Dang Quang Nguyen, Callum Lindquist, Paul Montague, Tamas Abraham, Olivier De Vel, Seyit Camtepe, Salil S. Kanhere, Ehsan Abbasnejad, Damith C. Ranasinghe, | (参考訳) 物体検出器はバックドア攻撃に弱い。
分類器とは対照的に、検出器はアーキテクチャ上およびタスク実行時に特有の特性を持ち、しばしば、自動運転車の交通標識を検出するなどの困難な状況で動作している。
しかし、我々の知識は「デジタルドメイン」における分類器やテストに対する攻撃を支配している。
この重要なギャップに対処するため、我々は複数の検出器アーキテクチャを対象とし、実環境における2つの困難な検出タスクである交通標識と車両について広範な実験を行った。
運転車や飛行ドローンから収集した多種多様なビデオを用いて、実際のシーンに物理的なオブジェクトトリガーを配置し、アプリケーション環境における物理的オブジェクトトリガーによるバックドア攻撃の可能性を検証した。
その結果,8つの重要な知見が得られた。
重要なことに、バックドアをモデルに注入する一般的な「デジタル」データ中毒法は、分類タスクで有効であるにもかかわらず、現実世界の検出器に対する効果的な攻撃にはならない。
我々は、MORPHingと呼ばれる新しいコスト効率の高い攻撃方法を構築し、物理オブジェクトトリガーのバックドアを注入することに成功し、物理的オブジェクトトリガーのバックドアの成功を損なうことなく、クリーンなラベルアノテーションや目に見えないトリガーでトリガーを中毒させることに成功した。
このような攻撃に対して検知器を保護するのに、硬化した防御装置が不備であることが判明した。
脅威の深刻さを強調し、さらなる研究を促進するために、私たちは初めて、現実世界のバックドア攻撃の広範なビデオテストセットをリリースしました。
我々の研究は、この脅威の信頼性と真剣さを確立するだけでなく、物体検出の文脈において、バックドア防御を進めるための研究コミュニティへの呼びかけにも役立ちます。
Object detectors are vulnerable to backdoor attacks. In contrast to classifiers, detectors possess unique characteristics, architecturally and in task execution; often operating in challenging conditions, for instance, detecting traffic signs in autonomous cars. But, our knowledge dominates attacks against classifiers and tests in the "digital domain". To address this critical gap, we conducted an extensive empirical study targeting multiple detector architectures and two challenging detection tasks in real-world settings: traffic signs and vehicles. Using the diverse, methodically collected videos captured from driving cars and flying drones, incorporating physical object trigger deployments in authentic scenes, we investigated the viability of physical object-triggered backdoor attacks in application settings. Our findings revealed 8 key insights. Importantly, the prevalent "digital" data poisoning method for injecting backdoors into models does not lead to effective attacks against detectors in the real world, although proven effective in classification tasks. We construct a new, cost-efficient attack method, dubbed MORPHING, incorporating the unique nature of detection tasks; ours is remarkably successful in injecting physical object-triggered backdoors, even capable of poisoning triggers with clean label annotations or invisible triggers without diminishing the success of physical object triggered backdoors. We discovered that the defenses curated are ill-equipped to safeguard detectors against such attacks. To underscore the severity of the threat and foster further research, we, for the first time, release an extensive video test set of real-world backdoor attacks. Our study not only establishes the credibility and seriousness of this threat but also serves as a clarion call to the research community to advance backdoor defenses in the context of object detection. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# 双方向長期記憶ネットワークを用いたウェアラブル脳波デバイスを用いた音楽聴取時の脳活動記録
Recording Brain Activity While Listening to Music Using Wearable EEG Devices Combined with Bidirectional Long Short-Term Memory Networks ( http://arxiv.org/abs/2408.12124v1 ) ライセンス: Link先を確認 | Jingyi Wang, Zhiqun Wang, Guiran Liu, | (参考訳) 脳波(EEG)信号は脳機能や認知過程を研究する上で重要である。
本研究は,感情状態を認識するために音楽を聴きながら高次元脳波信号を効率的に記録・解析することの課題に対処することを目的とする。
脳波信号処理のための2方向長短期記憶(Bidirectional Long Short-Term Memory, Bi-LSTM)ネットワークとアテンション機構を組み合わせた手法を提案する。
ウェアラブル脳波デバイスを用いて、音楽を聴く参加者の脳活動データを収集した。
データは前処理され,セグメント化され,差分エントロピー(DE)の特徴が抽出された。
次に、重要特徴抽出を強化し、感情認識精度を向上させるために、Bi-LSTMモデルを構築し、訓練した。
SEEDおよびDEAPデータセットを用いて実験を行った。
Bi-LSTM-AttGWモデルは、SEEDデータセットで98.28%、DEAデータセットで92.46%の精度を達成し、SVMやEEG-Netといった従来のモデルよりも大幅に優れていた。
本研究では,Bi-LSTMとアテンション機構を組み合わせることにより,脳-コンピュータインタフェース(BCI)や情緒的コンピューティングにおけるアプリケーションに対して,堅牢な技術サポートを提供する。
今後は、デバイス設計の改善、マルチモーダルデータの導入、感情認識の精度の向上に注力し、現実のシナリオにおける実用的な応用の実現を目指している。
Electroencephalography (EEG) signals are crucial for investigating brain function and cognitive processes. This study aims to address the challenges of efficiently recording and analyzing high-dimensional EEG signals while listening to music to recognize emotional states. We propose a method combining Bidirectional Long Short-Term Memory (Bi-LSTM) networks with attention mechanisms for EEG signal processing. Using wearable EEG devices, we collected brain activity data from participants listening to music. The data was preprocessed, segmented, and Differential Entropy (DE) features were extracted. We then constructed and trained a Bi-LSTM model to enhance key feature extraction and improve emotion recognition accuracy. Experiments were conducted on the SEED and DEAP datasets. The Bi-LSTM-AttGW model achieved 98.28% accuracy on the SEED dataset and 92.46% on the DEAP dataset in multi-class emotion recognition tasks, significantly outperforming traditional models such as SVM and EEG-Net. This study demonstrates the effectiveness of combining Bi-LSTM with attention mechanisms, providing robust technical support for applications in brain-computer interfaces (BCI) and affective computing. Future work will focus on improving device design, incorporating multimodal data, and further enhancing emotion recognition accuracy, aiming to achieve practical applications in real-world scenarios. | 翻訳日:2024-08-23 15:13:16 公開日:2024-08-22 |
# AutoTest: テストケースによる進化的コードソリューションの選択
AutoTest: Evolutionary Code Solution Selection with Test Cases ( http://arxiv.org/abs/2408.12125v1 ) ライセンス: Link先を確認 | Zhihua Duan, Jialin Wang, | (参考訳) コード生成技術の開発により、複数の候補ソリューションから正しいコードソリューションを選択することが重要な課題となっている。
本研究では,自動テストケース生成とコードソリューション実行を組み合わせた新しい手法であるAutoTestを提案し,進化的遺伝的アルゴリズムを用いて選択プロセスを最適化する。
まず、AutoTestはCodegen-16B、Code-davinci-002、incoder-6Bといった、トレーニング済みの大規模な言語モデルを使用して、コードソリューションと対応するテストケースを提供する。
そして、コードソリューションを実行し、テストケース上でのパフォーマンスを評価することにより、コンセンサスセットを形成する。
微粒なランク付けは、進化的遺伝的アルゴリズムに基づく選択、突然変異、交叉機構によって達成され、アルファパラメータとベータパラメータの調整が行われる。
最後に、最良のコードソリューションが選択されます。
AutoTestはHumanEvalベンチマークテストで大幅なパフォーマンス向上を示している。
HumanEvalデータセットは164のプログラミング問題で構成されており、AutoTestはpass@1スコアでベースラインメソッドよりも約10%改善されている。
With the development of code generation techniques, selecting the correct code solution from multiple candidate solutions has become a crucial task. This study proposes AutoTest, a novel technique that combines automated test case generation with code solution execution to optimize the selection process using an evolutionary genetic algorithm. Firstly, AutoTest utilizes large pre-trained language models such as codegen-16B, code-davinci-002, and incoder-6B to provide code solutions and their corresponding test cases. Then, by executing the code solutions and evaluating their performance on the test cases, a consensus set is formed. Fine-grained ranking is achieved through the selection, mutation, and crossover mechanisms based on the evolutionary genetic algorithm, with the adjustment of alpha and beta parameters. Finally, the best code solution is chosen. AutoTest demonstrates significant performance improvements on the HumanEval benchmark test. The HumanEval dataset consists of 164 programming problems, and AutoTest achieves approximately a 10% improvement over the baseline method in terms of pass@1 score. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# 拡散に基づくビジュアルアート創造 : 調査と新たな展望
Diffusion-Based Visual Art Creation: A Survey and New Perspectives ( http://arxiv.org/abs/2408.12128v1 ) ライセンス: Link先を確認 | Bingyuan Wang, Qifeng Chen, Zeyu Wang, | (参考訳) ビジュアルアートにおける生成AIの統合は、ビジュアルコンテンツの生成方法だけでなく、AIが基礎となるドメイン知識と相互作用し、反映する方法にも革命をもたらした。
本調査は,拡散に基づく視覚芸術創造の新たな領域を探求し,その発展を芸術的,技術的両面から検討する。
データの特徴とフレームワークの識別,構造化されたコーディングプロセスを用いた詳細な分析,オープンな将来展望の3つのフェーズで構成されている。
本研究は,芸術的要件が技術的課題にどのように変換されるかを明らかにし,視覚芸術創造における拡散法の設計と応用を強調した。
我々はまた、技術とシナジスティックの観点から将来の方向性についての洞察を提供し、生成的AIとアートの融合が創造的パラダイムをシフトさせ、新たな可能性を開くことを示唆している。
この新たな学際領域の発展と動向を要約することで、AIシステムがエミュレートし、潜在的に人間の能力を高めるメカニズムを解明し、芸術的知覚と創造性を高めることを目指している。
The integration of generative AI in visual art has revolutionized not only how visual content is created but also how AI interacts with and reflects the underlying domain knowledge. This survey explores the emerging realm of diffusion-based visual art creation, examining its development from both artistic and technical perspectives. We structure the survey into three phases, data feature and framework identification, detailed analyses using a structured coding process, and open-ended prospective outlooks. Our findings reveal how artistic requirements are transformed into technical challenges and highlight the design and application of diffusion-based methods within visual art creation. We also provide insights into future directions from technical and synergistic perspectives, suggesting that the confluence of generative AI and art has shifted the creative paradigm and opened up new possibilities. By summarizing the development and trends of this emerging interdisciplinary area, we aim to shed light on the mechanisms through which AI systems emulate and possibly, enhance human capacities in artistic perception and creativity. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# スマートグリッドスタートアップ戦略のための時系列データの深部分析:トランスフォーマー-LSTM-PSOモデルアプローチ
Deep Analysis of Time Series Data for Smart Grid Startup Strategies: A Transformer-LSTM-PSO Model Approach ( http://arxiv.org/abs/2408.12129v1 ) ライセンス: Link先を確認 | Zecheng Zhang, | (参考訳) 電力システムの不可欠なコンポーネントであるグリッドスタートアップは、電力グリッドの信頼性と効率を確保するための戦略的重要性を持っている。
しかし、詳細な分析とグリッド起動シナリオの正確な予測のための現在の手法は不十分である。
これらの課題に対処するため,Transformer-LSTM-PSOモデルに基づく新しい手法を提案する。
このモデルは、Transformerの自己アテンション機構、LSTMの時間モデリング機能、およびパーティクルスウォーム最適化アルゴリズムのパラメータチューニング機能を組み合わせたものである。
グリッド起動方式における複雑な時間的関係をより効果的に捉えるように設計されている。
実験では,既存のベンチマークと比較すると,RMSEとMAEの値は低いが,特に,RMSEを約15%削減し,MAEを従来のモデルに比べて20%削減したNYISO Electric Marketデータセットにおいて,大きな改善が見られた。
我々の主な貢献は、スマートグリッド起動予測の精度と効率を大幅に向上させるTransformer-LSTM-PSOモデルの開発である。
Transformer-LSTM-PSOモデルの適用は、スマートグリッド予測分析の大幅な進歩を示し、より信頼性が高くインテリジェントなグリッド管理システムの開発を同時に促進する。
Grid startup, an integral component of the power system, holds strategic importance for ensuring the reliability and efficiency of the electrical grid. However, current methodologies for in-depth analysis and precise prediction of grid startup scenarios are inadequate. To address these challenges, we propose a novel method based on the Transformer-LSTM-PSO model. This model uniquely combines the Transformer's self-attention mechanism, LSTM's temporal modeling capabilities, and the parameter tuning features of the particle swarm optimization algorithm. It is designed to more effectively capture the complex temporal relationships in grid startup schemes. Our experiments demonstrate significant improvements, with our model achieving lower RMSE and MAE values across multiple datasets compared to existing benchmarks, particularly in the NYISO Electric Market dataset where the RMSE was reduced by approximately 15% and the MAE by 20% compared to conventional models. Our main contribution is the development of a Transformer-LSTM-PSO model that significantly enhances the accuracy and efficiency of smart grid startup predictions. The application of the Transformer-LSTM-PSO model represents a significant advancement in smart grid predictive analytics, concurrently fostering the development of more reliable and intelligent grid management systems. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# S-EPOA: スキル駆動型推論に基づく強化学習によるアノテーションの識別可能性の克服
S-EPOA: Overcoming the Indivisibility of Annotations with Skill-Driven Preference-Based Reinforcement Learning ( http://arxiv.org/abs/2408.12130v1 ) ライセンス: Link先を確認 | Ni Mu, Yao Luan, Yiqin Yang, Qing-shan Jia, | (参考訳) 嗜好に基づく強化学習(PbRL)は、人間の嗜好を直接報酬信号として利用し、複雑な報酬工学の必要性をなくすことで際立っている。
しかし、その可能性にもかかわらず、従来のPbRL法は、しばしばアノテーションの識別性によって制約され、学習過程を阻害する。
本稿では,S-EPOA(Skill-Enhanced Preference Optimization Algorithm, S-EPOA)を提案する。
具体的には、まず教師なしプレトレーニングを行い、有用なスキルを学ぶ。
そこで本研究では,学習スキル空間上での情報獲得と識別可能性のバランスをとるために,新しいクエリ選択機構を提案する。
S-EPOAは、ロボット操作や移動を含む様々なタスクの実験結果から、ロバスト性および学習効率の両面で従来のPbRL法よりも優れていたことが示されている。
その結果,アノテーションの多様性がもたらす課題を克服する上で,スキル駆動型学習の有効性が浮き彫りになった。
Preference-based reinforcement learning (PbRL) stands out by utilizing human preferences as a direct reward signal, eliminating the need for intricate reward engineering. However, despite its potential, traditional PbRL methods are often constrained by the indivisibility of annotations, which impedes the learning process. In this paper, we introduce a groundbreaking approach, Skill-Enhanced Preference Optimization Algorithm~(S-EPOA), which addresses the annotation indivisibility issue by integrating skill mechanisms into the preference learning framework. Specifically, we first conduct the unsupervised pretraining to learn useful skills. Then, we propose a novel query selection mechanism to balance the information gain and discriminability over the learned skill space. Experimental results on a range of tasks, including robotic manipulation and locomotion, demonstrate that S-EPOA significantly outperforms conventional PbRL methods in terms of both robustness and learning efficiency. The results highlight the effectiveness of skill-driven learning in overcoming the challenges posed by annotation indivisibility. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# 地理空間AIのための自己教師型学習
Self-supervised Learning for Geospatial AI: A Survey ( http://arxiv.org/abs/2408.12133v1 ) ライセンス: Link先を確認 | Yile Chen, Weiming Huang, Kaiqi Zhao, Yue Jiang, Gao Cong, | (参考訳) 都市・地域環境における地理空間データの拡散は,様々な都市分野での地理空間人工知能(GeoAI)の発展を著しく促進している。
地理的データの性質が広く、本質的には疎いことから、ラベル付きデータセットに大きく依存することなく、そのようなデータを効果的に活用できる技術が不可欠である。
この要件は自己教師付き学習(SSL)の原則と一致しており、地理空間データへの導入に注目が集まっている。
本稿では,地空間ベクトルデータ(点,ポリライン,ポリゴン)で広く使われている3つの一次データ(幾何学的)タイプに対して,SSL技術の適用および開発に関する包括的かつ最新の調査を行う。
我々は,さまざまなSSL手法を予測的・コントラスト的手法に体系的に分類し,各データタイプについて,様々な下流タスクにおける一般化の促進について論じる。
さらに,GeoAIにおけるSSLの今後の動向や,タスク固有のSSL技術についても概説する。
最後に,本研究におけるいくつかの重要な課題について論じ,今後の研究に向けての有望な方向性を概説する。
本論文は、関連する研究の構造化分析によって、SSLとGeoAIの統合の継続的な進歩を刺激し、地理空間データのパワーを活用する革新的な手法を奨励することを目的としている。
The proliferation of geospatial data in urban and territorial environments has significantly facilitated the development of geospatial artificial intelligence (GeoAI) across various urban applications. Given the vast yet inherently sparse labeled nature of geospatial data, there is a critical need for techniques that can effectively leverage such data without heavy reliance on labeled datasets. This requirement aligns with the principles of self-supervised learning (SSL), which has attracted increasing attention for its adoption in geospatial data. This paper conducts a comprehensive and up-to-date survey of SSL techniques applied to or developed for three primary data (geometric) types prevalent in geospatial vector data: points, polylines, and polygons. We systematically categorize various SSL techniques into predictive and contrastive methods, discussing their application with respect to each data type in enhancing generalization across various downstream tasks. Furthermore, we review the emerging trends of SSL for GeoAI, and several task-specific SSL techniques. Finally, we discuss several key challenges in the current research and outline promising directions for future investigation. By presenting a structured analysis of relevant studies, this paper aims to inspire continued advancements in the integration of SSL with GeoAI, encouraging innovative methods to harnessing the power of geospatial data. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# 整合合成による曲面符号の復号化精度の向上
Improved accuracy for decoding surface codes with matching synthesis ( http://arxiv.org/abs/2408.12135v1 ) ライセンス: Link先を確認 | Cody Jones, | (参考訳) 本稿では、デコーダのアンサンブルからエラーの高次割当を生成する量子コードデコードのためのマッチング合成法を提案する。
マッチング合成を適用し、Libra というデコーダを開発し、Libra が誤差圧縮比 $\Lambda$ を約10\%$ 増加させることを示す。
マッチング合成は、最小ウェイトなハイパーグラフマッチング問題に対する近似解の集合の解を取り、局所性がハイパーグラフに依存する最適な局所解を組み合わせた新しい解を生成する。
本稿では,空間と時間に局所的なハイパーエッジを持つハイパーグラフを誘導する従来の回路モデルにおいて,誤り相関付き曲面符号の復号化問題に対してマッチング合成を適用した。
我々はマッチング合成デコーダLibraと呼び、この例では、アンサンブルメンバー毎にランダムに摂動誤差の確率を持つ異なるハイパーグラフを用いて、相関する最小限のマッチングからなる。
さらに、マッチング合成を拡張して、複数の低ウェイト解の確率の和と計算オーバーヘッドを小さくし、同値クラスの確率を近似する。
一致合成は60のアンサンブルサイズで精度が飽和し始め、誤差分布の正確なモデルを持つ場合、ほぼ最適復号精度でリアルタイム復号を行う経路について述べる。
We present a method, called matching synthesis, for decoding quantum codes that produces an enhanced assignment of errors from an ensemble of decoders. We apply matching synthesis to develop a decoder named Libra, and show in simulations that Libra increases the error-suppression ratio $\Lambda$ by about $10\%$. Matching synthesis takes the solutions of an ensemble of approximate solvers for the minimum-weight hypergraph matching problem, and produces a new solution that combines the best local solutions, where locality depends on the hypergraph. We apply matching synthesis to an example problem of decoding surface codes with error correlations in the conventional circuit model, which induces a hypergraph with hyperedges that are local in space and time. We call the matching-synthesis decoder Libra, and in this example the ensemble consists of correlated minimum-weight matching using a different hypergraph with randomly perturbed error probabilities for each ensemble member. Furthermore, we extend matching synthesis to perform summation of probability for multiple low-weight solutions and at small computational overhead, approximating the probability of an equivalence class; in our surface code problem, this shows a modest additional benefit. We show that matching synthesis has favorable scaling properties where accuracy begins to saturate with an ensemble size of 60, and we remark on pathways to real-time decoding at near-optimal decoding accuracy if one has an accurate model for the distribution of errors. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# 限定サンプルを用いたオフライン強化学習のためのドメイン適応
Domain Adaptation for Offline Reinforcement Learning with Limited Samples ( http://arxiv.org/abs/2408.12136v1 ) ライセンス: Link先を確認 | Weiqin Chen, Sandipan Mishra, Santiago Paternain, | (参考訳) オフライン強化学習(RL)は、静的ターゲットデータセットから効果的なポリシーを学習する。
最先端(SOTA)のオフラインRLアルゴリズムが有望であるにもかかわらず、ターゲットデータセットの品質に強く依存している。
SOTAアルゴリズムの性能は、ターゲットデータセット内の限られたサンプルを持つシナリオで劣化する可能性がある。
この問題に対処するために、関連するソースデータセット(シミュレータなど)の補助的なサンプルを活用するドメイン適応が有用である。
この文脈では、ソースとターゲットデータセットをトレードオフする最適な方法を決定することは、オフラインRLにおいて重要な課題である。
本稿では,各データセットに割り当てられた重みがオフラインRLの性能に与える影響を理論的,実験的に検討する最初のフレームワークを提案する。
我々はフレームワークの性能境界と収束近傍を確立し、どちらもウェイトの選択に依存する。
さらに,2つのデータセットのバランスをとるために最適な重みが存在することも確認した。
すべての理論的保証と最適なウェイトは、ソースデータセットの品質とターゲットデータセットのサイズに依存する。
有名な Procgen Benchmark に関する実証的な結果は、我々の理論的な貢献を裏付けるものである。
Offline reinforcement learning (RL) learns effective policies from a static target dataset. Despite state-of-the-art (SOTA) offline RL algorithms being promising, they highly rely on the quality of the target dataset. The performance of SOTA algorithms can degrade in scenarios with limited samples in the target dataset, which is often the case in real-world applications. To address this issue, domain adaptation that leverages auxiliary samples from related source datasets (such as simulators) can be beneficial. In this context, determining the optimal way to trade off the source and target datasets remains a critical challenge in offline RL. To the best of our knowledge, this paper proposes the first framework that theoretically and experimentally explores how the weight assigned to each dataset affects the performance of offline RL. We establish the performance bounds and convergence neighborhood of our framework, both of which depend on the selection of the weight. Furthermore, we identify the existence of an optimal weight for balancing the two datasets. All theoretical guarantees and optimal weight depend on the quality of the source dataset and the size of the target dataset. Our empirical results on the well-known Procgen Benchmark substantiate our theoretical contributions. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# 計算と化学における自己組織化 - AlChemyへの回帰
Self-Organization in Computation & Chemistry: Return to AlChemy ( http://arxiv.org/abs/2408.12137v1 ) ライセンス: Link先を確認 | Cole Mathis, Devansh Patel, Westley Weimer, Stephanie Forrest, | (参考訳) 生命のような複雑な適応システムは、単純な構成部品からどのように現われるのか?
1990年代、Walter Fontana と Leo Buss は、$\lambda$ calculus として知られる公式な計算モデルに基づく新しいモデリング手法を提案した。
このモデルでは、単純な規則が組み合わさって大きな可能性空間に埋め込まれ、複雑な、動的に安定な組織を生み出し、生化学反応ネットワークを思い起こさせることを示した。
ここでは、この古典的なモデルであるAlChemyを再考する。
元の結果を再現し、現在利用可能なより大きな計算資源を用いて、これらの結果の堅牢性について研究する。
我々の分析では、システムの予期せぬいくつかの特徴が明らかとなり、動的堅牢性と脆弱性が驚くほど混在していることが示されている。
具体的には、複雑で安定した組織は、以前予想されていたよりも頻繁に出現し、これらの組織は、自明な固定点への崩壊に対して堅牢であるが、これらの安定した組織は、より高次のエンティティに簡単に統合できない。
また、2つのランダムな表現生成器が生成したオブジェクトの初期分布を特徴付けるモデルで使用されるランダムな生成器の役割とその結果への影響について検討した。
最後に、型付き $\lambda$ calculus, \textcolor{black}{could に基づくモデルの拡張が、任意の化学反応ネットワークにおける任意の状態間の遷移をシミュレートし、AlChemy と化学反応ネットワークの間の具体的な接続を示す構成的証明を提供する。
本稿では,現代プログラミング言語における自己組織化へのAlChemyの応用の可能性と,生命の起源に対する定量的アプローチについて論じる。
How do complex adaptive systems, such as life, emerge from simple constituent parts? In the 1990s Walter Fontana and Leo Buss proposed a novel modeling approach to this question, based on a formal model of computation known as $\lambda$ calculus. The model demonstrated how simple rules, embedded in a combinatorially large space of possibilities, could yield complex, dynamically stable organizations, reminiscent of biochemical reaction networks. Here, we revisit this classic model, called AlChemy, which has been understudied over the past thirty years. We reproduce the original results and study the robustness of those results using the greater computing resources available today. Our analysis reveals several unanticipated features of the system, demonstrating a surprising mix of dynamical robustness and fragility. Specifically, we find that complex, stable organizations emerge more frequently than previously expected, that these organizations are robust against collapse into trivial fixed-points, but that these stable organizations cannot be easily combined into higher order entities. We also study the role played by the random generators used in the model, characterizing the initial distribution of objects produced by two random expression generators, and their consequences on the results. Finally, we provide a constructive proof that shows how an extension of the model, based on typed $\lambda$ calculus, \textcolor{black}{could simulate transitions between arbitrary states in any possible chemical reaction network, thus indicating a concrete connection between AlChemy and chemical reaction networks}. We conclude with a discussion of possible applications of AlChemy to self-organization in modern programming languages and quantitative approaches to the origin of life. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# DRExplainer: グラフ畳み込みネットワークを用いた薬物応答予測における定量解釈可能性
DRExplainer: Quantifiable Interpretability in Drug Response Prediction with Directed Graph Convolutional Network ( http://arxiv.org/abs/2408.12139v1 ) ライセンス: Link先を確認 | Haoyuan Shi, Tao Xu, Xiaodi Li, Qian Gao, Junfeng Xia, Zhenyu Yue, | (参考訳) がん細胞株の治療薬に対する応答を予測することは、パーソナライズされた医療にとって重要な要素である。
薬物反応予測のために開発された多くの深層学習手法にもかかわらず、生物学的実体に関する多様な情報を統合し、指向性反応を予測することは大きな課題である。
本稿では,有向グラフ畳み込みネットワークを利用した新しい解釈可能な予測モデルDRExplainerを提案する。
DRExplainerは、細胞株のマルチオミクスプロファイル、薬物の化学構造、および既知の薬物応答を統合して、有向予測を実現する、有向二部ネットワークを構築する。
そして、DRExplainerは、この有向二部ネットワークにおける各予測に関する最も関連性の高いサブグラフをマスクを学習し、重要な医療的意思決定を促進する。
さらに,生物学的特徴から算出した基底真理ベンチマークデータセットを活用するモデル解釈可能性の定量化手法を提案する。
計算実験では、DRExplainerは、同じ実験環境下で最先端の予測手法とグラフに基づく別の説明手法より優れている。
最後に, DRExplainerの薬物応答予測における解釈可能性および有効性について検討した。
私たちのコードは、https://github.com/vshy-dream/DRExplainer.comで利用可能です。
Predicting the response of a cancer cell line to a therapeutic drug is pivotal for personalized medicine. Despite numerous deep learning methods that have been developed for drug response prediction, integrating diverse information about biological entities and predicting the directional response remain major challenges. Here, we propose a novel interpretable predictive model, DRExplainer, which leverages a directed graph convolutional network to enhance the prediction in a directed bipartite network framework. DRExplainer constructs a directed bipartite network integrating multi-omics profiles of cell lines, the chemical structure of drugs and known drug response to achieve directed prediction. Then, DRExplainer identifies the most relevant subgraph to each prediction in this directed bipartite network by learning a mask, facilitating critical medical decision-making. Additionally, we introduce a quantifiable method for model interpretability that leverages a ground truth benchmark dataset curated from biological features. In computational experiments, DRExplainer outperforms state-of-the-art predictive methods and another graph-based explanation method under the same experimental setting. Finally, the case studies further validate the interpretability and the effectiveness of DRExplainer in predictive novel drug response. Our code is available at: https://github.com/vshy-dream/DRExplainer. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# TRRG: クロスモーダル病による大規模言語モデルの構築に向けて
TRRG: Towards Truthful Radiology Report Generation With Cross-modal Disease Clue Enhanced Large Language Model ( http://arxiv.org/abs/2408.12141v1 ) ライセンス: Link先を確認 | Yuhao Wang, Chao Hao, Yawen Cui, Xinqi Su, Weicheng Xie, Tao Tan, Zitong Yu, | (参考訳) マルチモーダルな大規模言語モデルの視覚言語モデリング能力はコミュニティから広く注目を集めている。
しかし,医用領域では,放射線学報告に否定的な記述が多数存在することや,放射線学レポートとラジオグラフィーとの微妙な整合性などの問題により,ビジョン言語モデルを用いた放射線学レポート生成は依然として大きな課題に直面している。
本稿では,大規模言語モデルへのクロスモーダル病ヒント注入の段階的訓練に基づく,真正な放射線診断レポート生成フレームワークであるTRRGを提案する。
事前学習段階では、訓練前段階では、視覚エンコーダが細粒度疾患の詳細を知覚する能力を高めるために、コントラスト学習が用いられる。
微調整段階において,本研究で提案したインジェクションモジュールは,頑健なゼロショット病知覚を効果的に取り入れることで,大規模言語モデルの疾患指向の知覚能力を大幅に向上させる。
最後に,クロスモーダルな手掛かり相互作用モジュールを用いて,視覚埋め込みと任意の数の病的手掛かり埋め込みの多粒性相互作用を効果的に達成する。
これにより, 放射線診断における多モード大言語モデルのレポート生成能力と臨床効果が著しく向上する。
実験により,IU-Xray やMIMIC-CXR などのデータセットを用いた放射線学レポート作成において,提案した事前学習および微調整のフレームワークが最先端の性能を達成することが示された。
さらに分析した結果,本手法は疾患の知覚モデルの改善と臨床効果の向上に有効であることが示唆された。
The vision-language modeling capability of multi-modal large language models has attracted wide attention from the community. However, in medical domain, radiology report generation using vision-language models still faces significant challenges due to the imbalanced data distribution caused by numerous negated descriptions in radiology reports and issues such as rough alignment between radiology reports and radiography. In this paper, we propose a truthful radiology report generation framework, namely TRRG, based on stage-wise training for cross-modal disease clue injection into large language models. In pre-training stage, During the pre-training phase, contrastive learning is employed to enhance the ability of visual encoder to perceive fine-grained disease details. In fine-tuning stage, the clue injection module we proposed significantly enhances the disease-oriented perception capability of the large language model by effectively incorporating the robust zero-shot disease perception. Finally, through the cross-modal clue interaction module, our model effectively achieves the multi-granular interaction of visual embeddings and an arbitrary number of disease clue embeddings. This significantly enhances the report generation capability and clinical effectiveness of multi-modal large language models in the field of radiology reportgeneration. Experimental results demonstrate that our proposed pre-training and fine-tuning framework achieves state-of-the-art performance in radiology report generation on datasets such as IU-Xray and MIMIC-CXR. Further analysis indicates that our proposed method can effectively enhance the model to perceive diseases and improve its clinical effectiveness. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# MDD-5k:ニューロシンボリックLSMエージェントを用いた精神障害の新しい診断用会話データセット
MDD-5k: A New Diagnostic Conversation Dataset for Mental Disorders Synthesized via Neuro-Symbolic LLM Agents ( http://arxiv.org/abs/2408.12142v1 ) ライセンス: Link先を確認 | Congchi Yin, Feng Li, Shu Zhang, Zike Wang, Jun Shao, Piji Li, Jianhua Chen, Xun Jiang, | (参考訳) ほとんどの精神疾患の臨床的診断は、主に精神科医と患者の会話に依存する。
このような診断会話データセットの作成は、AIメンタルヘルスケアコミュニティを促進することを約束している。
しかし、プライバシーや倫理的配慮が厳しいため、実際の診断シナリオで会話を直接収集することは不可能に近い。
この問題に対処するために,アクセスし易い匿名の患者を駆使して,診断会話の合成を試みる。
具体的には、大きな言語モデルを用いた精神疾患の診断会話を合成するための、ニューロシンボリックなマルチエージェントフレームワークを設計する。
患者を入力とし、1つの患者と複数の多様な会話を生成できる。
このフレームワークは基本的に、医師エージェントと患者エージェントの相互作用を含み、ツールエージェントからの動的診断ツリーを介して象徴的な制御の下でテキスト生成を実現する。
提案手法を応用し,先駆的な精神病院と協力し,1000件のクリーン化の実例を基に構築された,中国最大の精神障害診断データセットであるMDD-5kを開発し,診断結果をラベルとして,5,000件の高品質な会話を収録した。
私たちの知る限りでは、これは中国の精神障害診断データセットとして初めてラベル付けされたものです。
人間による評価は、提案したMDD-5kデータセットが精神疾患のヒト様の診断過程をうまくシミュレートすることを示した。
データセットとコードはhttps://github.com/lemonsis/MDD-5kで公開されている。
The clinical diagnosis of most mental disorders primarily relies on the conversations between psychiatrist and patient. The creation of such diagnostic conversation datasets is promising to boost the AI mental healthcare community. However, directly collecting the conversations in real diagnosis scenarios is near impossible due to stringent privacy and ethical considerations. To address this issue, we seek to synthesize diagnostic conversation by exploiting anonymous patient cases that are easier to access. Specifically, we design a neuro-symbolic multi-agent framework for synthesizing the diagnostic conversation of mental disorders with large language models. It takes patient case as input and is capable of generating multiple diverse conversations with one single patient case. The framework basically involves the interaction between a doctor agent and a patient agent, and achieves text generation under symbolic control via a dynamic diagnosis tree from a tool agent. By applying the proposed framework, we develop the largest Chinese mental disorders diagnosis dataset MDD-5k, which is built upon 1000 cleaned real patient cases by cooperating with a pioneering psychiatric hospital, and contains 5000 high-quality long conversations with diagnosis results as labels. To the best of our knowledge, it's also the first labelled Chinese mental disorders diagnosis dataset. Human evaluation demonstrates the proposed MDD-5k dataset successfully simulates human-like diagnostic process of mental disorders. The dataset and code will become publicly accessible in https://github.com/lemonsis/MDD-5k. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# 大規模言語モデルを用いた数学推論のためのマルチツール統合アプリケーション
Multi-tool Integration Application for Math Reasoning Using Large Language Model ( http://arxiv.org/abs/2408.12148v1 ) ライセンス: Link先を確認 | Zhihua Duan, Jialin Wang, | (参考訳) 数学的推論は人工知能の分野で重要な研究方向である。
本稿では,大規模言語モデル(LLM)と複数の外部ツールの協調的効果を利用して,より包括的で正確な数学的推論を実現することを目的とした,数学的推論のための新しいマルチツールアプリケーションフレームワークを提案する。
まず、LLMとの相互作用を通じて推論過程の基本的な数学的計算を行うために、Math Toolを使用する。
第二に、Code Toolは構文規則に準拠してそれらを実行するコードフラグメントを生成し、複雑な数学的問題をサポートする。
そして、CoTツールの反復推論により、数学的推論の論理的コヒーレンスと精度を向上させる。
最終的に、異なるパラメータに基づいて最終回答を選択するために自己整合性ツールを使用することで、推論の一貫性と信頼性が改善される。
これらのツールの相乗効果を通じて、このフレームワークは数学的推論タスクにおいて大幅な性能向上を実現している。
NumGLUE Task 4 テストセットでは,空白質問の数学的推論を220個含む実験を行った。
実験結果から,タスク4におけるMath Tool, Code Tool, CoT Toolに基づいて,GPT3+FewShotベースラインと比較して89.09の精度を実現し,Few Shot+ERNIE-4.0+self一貫性を49.09%改善し,Few Shot+ERNIE-4.0+self一貫性を52.29%改善した。
Mathematical reasoning is an important research direction in the field of artificial intelligence. This article proposes a novel multi tool application framework for mathematical reasoning, aiming to achieve more comprehensive and accurate mathematical reasoning by utilizing the collaborative effect of large language models (LLMs) and multiple external tools. Firstly, use a Math Tool to perform basic mathematical calculations during the inference process through interaction with LLM. Secondly, Code Tool can generate code fragments that comply with syntax rules and execute them, providing support for complex mathematical problems. Then, through the iterative reasoning of the CoT Tool, the logical coherence and accuracy of mathematical reasoning are enhanced. Ultimately, by using self consistency tools to select the final answer based on different parameters, the consistency and reliability of reasoning are improved. Through the synergistic effect of these tools, the framework has achieved significant performance improvement in mathematical reasoning tasks. We conducted experiments on the NumGLUE Task 4 test set, which includes 220 mathematical reasoning fill in the blank questions. The experimental results showed that, based on Math Tool, Code Tool, and CoT Tool, in Task 4 task,our method achieved an accuracy of 89.09,compared with the GPT3+FewShot baseline, Few Shot+ERNIE-4.0+self consistency improved by 49.09%, and compared with fine-tuning the Fine tuning baseline, Few Shot+ERNIE-4.0+self consistency improved by 52.29% | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# DeepHQ: プログレッシブな深層画像符号化のための階層的量子化器を学習
DeepHQ: Learned Hierarchical Quantizer for Progressive Deep Image Coding ( http://arxiv.org/abs/2408.12150v1 ) ライセンス: Link先を確認 | Jooyoung Lee, Se Yoon Jeong, Munchurl Kim, | (参考訳) 固定レートや可変レートの画像符号化とは異なり、プログレッシブ画像符号化(PIC)は、画像の様々な品質を単一のビットストリームに圧縮することを目的としており、ビットストリームの利用の汎用性を高め、シミュラキャスト圧縮と比較して高い圧縮効率を提供する。
ニューラルネットワーク(NN)ベースのPICの研究は初期段階にあり、主に階層的に変換された潜在表現に様々な量子化ステップサイズを適用することに焦点を当てている。
これらの手法は、低品質圧縮のためのより広い量子化間隔は、高品質圧縮のためのより狭いサブインターバルを含むことを考慮し、品質が向上するにつれて徐々に付加される情報のみを圧縮するように設計されている。
しかし、既存の手法は手作りの量子化階層に基づいており、結果として準最適圧縮効率が得られる。
本稿では,まず,学習した量子化ステップサイズを各量子化層に対して学習することで,NNベースのプログレッシブコーディング手法を提案する。
また、各量子化層に対して必須表現成分のみを圧縮する選択的圧縮も導入する。
提案手法は,復号時間を短縮し,モデルサイズを小さくすることで,既存の手法よりもはるかに高い符号化効率を実現することを示す。
Unlike fixed- or variable-rate image coding, progressive image coding (PIC) aims to compress various qualities of images into a single bitstream, increasing the versatility of bitstream utilization and providing high compression efficiency compared to simulcast compression. Research on neural network (NN)-based PIC is in its early stages, mainly focusing on applying varying quantization step sizes to the transformed latent representations in a hierarchical manner. These approaches are designed to compress only the progressively added information as the quality improves, considering that a wider quantization interval for lower-quality compression includes multiple narrower sub-intervals for higher-quality compression. However, the existing methods are based on handcrafted quantization hierarchies, resulting in sub-optimal compression efficiency. In this paper, we propose an NN-based progressive coding method that firstly utilizes learned quantization step sizes via learning for each quantization layer. We also incorporate selective compression with which only the essential representation components are compressed for each quantization layer. We demonstrate that our method achieves significantly higher coding efficiency than the existing approaches with decreased decoding time and reduced model size. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# スパースGPTの高次複雑度解析
A Tighter Complexity Analysis of SparseGPT ( http://arxiv.org/abs/2408.12151v1 ) ライセンス: Link先を確認 | Xiaoyu Li, Yingyu Liang, Zhenmei Shi, Zhao Song, | (参考訳) 本研究では, SparseGPT [Frantar, Alistarh ICML 2023] を$O(d^{3})$から$O(d^{\omega} + d^{2+a+o(1)} + d^{1+\omega(1,1,a)-a})$ の任意の $a \in [0,1]$ に対して, $\omega$ は行列乗算の指数である。
特に、現在の$\omega \approx 2.371$ [Alman, Duan, Williams, Xu, Xu, Zhou 2024] の場合、実行時間は$O(d^{2.53})$に沸騰する。
この実行時間は,[Deng, Song, Weinstein 2022, Brand, Song, Zhou ICML 2024] のような反復メンテナンス問題における遅延更新動作の分析によるものだ。
In this work, we improved the analysis of the running time of SparseGPT [Frantar, Alistarh ICML 2023] from $O(d^{3})$ to $O(d^{\omega} + d^{2+a+o(1)} + d^{1+\omega(1,1,a)-a})$ for any $a \in [0, 1]$, where $\omega$ is the exponent of matrix multiplication. In particular, for the current $\omega \approx 2.371$ [Alman, Duan, Williams, Xu, Xu, Zhou 2024], our running times boil down to $O(d^{2.53})$. This running time is due to the analysis of the lazy update behavior in iterative maintenance problems, such as [Deng, Song, Weinstein 2022, Brand, Song, Zhou ICML 2024]. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# DimeRec: 生成拡散モデルによる拡張シーケンス勧告のための統一フレームワーク
DimeRec: A Unified Framework for Enhanced Sequential Recommendation via Generative Diffusion Models ( http://arxiv.org/abs/2408.12153v1 ) ライセンス: Link先を確認 | Wuchao Li, Rui Huang, Haijun Zhao, Chi Liu, Kai Zheng, Qi Liu, Na Mou, Guorui Zhou, Defu Lian, Yang Song, Wentian Bao, Enyun Yu, Wenwu Ou, | (参考訳) シークエンシャルレコメンデーション(SR:Sequential Recommendation)は、非定常的な歴史的相互作用に基づいてユーザの好みに合わせてレコメンデーションを調整することによって、レコメンデーションシステムにおいて重要な役割を担っている。
SRにおける高品質なパフォーマンスを達成するには、アイテム表現と多様性の両方に注意が必要である。
しかし、これらのメリットを同時に最適化するSR手法を設計することは、長年にわたる課題である。
本研究では,最近の生成拡散モデル(DM)をSRに組み込むことにより,この問題に対処する。
DMは表現学習と多様な画像生成に有用であることを示した。
それでも、SRとDMの直接的な組み合わせは、学習目的(推薦対雑音再構成)と各学習空間(静止対定常)の相違による準最適性能をもたらす。
これを解決するために、DimeRec(\textbf{Di}ffusion with \textbf{m}ulti-interest \textbf{e}nhanced \textbf{Rec}ommender)という新しいフレームワークを提案する。
DimeRecは、誘導抽出モジュール(GEM)と生成拡散凝集モジュール(DAM)を相乗的に結合する。
GEMは、ユーザの非定常相互作用履歴から重要な定常誘導信号を抽出し、DAMは、GEMの出力に条件付けられた生成拡散プロセスを使用して、一貫したレコメンデーションを再構築し、生成する。
我々の数値実験により、DimeRecは3つの公開データセットで確立されたベースライン法よりも大幅に優れていることが示された。
さらに、大規模なショートビデオレコメンデーションプラットフォームにDimeRecをデプロイして、数億のユーザにサービスを提供しています。
ライブA/Bテストでは,本手法がユーザの時間と結果の多様化を両立させることを確認した。
Sequential Recommendation (SR) plays a pivotal role in recommender systems by tailoring recommendations to user preferences based on their non-stationary historical interactions. Achieving high-quality performance in SR requires attention to both item representation and diversity. However, designing an SR method that simultaneously optimizes these merits remains a long-standing challenge. In this study, we address this issue by integrating recent generative Diffusion Models (DM) into SR. DM has demonstrated utility in representation learning and diverse image generation. Nevertheless, a straightforward combination of SR and DM leads to sub-optimal performance due to discrepancies in learning objectives (recommendation vs. noise reconstruction) and the respective learning spaces (non-stationary vs. stationary). To overcome this, we propose a novel framework called DimeRec (\textbf{Di}ffusion with \textbf{m}ulti-interest \textbf{e}nhanced \textbf{Rec}ommender). DimeRec synergistically combines a guidance extraction module (GEM) and a generative diffusion aggregation module (DAM). The GEM extracts crucial stationary guidance signals from the user's non-stationary interaction history, while the DAM employs a generative diffusion process conditioned on GEM's outputs to reconstruct and generate consistent recommendations. Our numerical experiments demonstrate that DimeRec significantly outperforms established baseline methods across three publicly available datasets. Furthermore, we have successfully deployed DimeRec on a large-scale short video recommendation platform, serving hundreds of millions of users. Live A/B testing confirms that our method improves both users' time spent and result diversification. | 翻訳日:2024-08-23 15:03:23 公開日:2024-08-22 |
# 思考プロンプトの連鎖に基づくインプシット・センシティメント分析
Implicit Sentiment Analysis Based on Chain of Thought Prompting ( http://arxiv.org/abs/2408.12157v1 ) ライセンス: Link先を確認 | Zhihua Duan, Jialin Wang, | (参考訳) Implicit Sentiment Analysis (ISA) は自然言語処理において重要な研究分野である。
本稿では,大規模言語モデルであるChain of Thought(CoT)のアイデアに触発されて,思考の感覚分析(SAoT)フレームワークを紹介する。
このフレームワークはまず、常識と思考連鎖能力を用いてテキストの暗黙的な側面と意見を分析する。
そして、暗黙の感情分析の過程を反映し、最終的に感情の極性を推論する。
このモデルは、レストランレビュー1120とラップトップレビュー638からなるSemEval 2014データセットで評価されている。
実験の結果,ERNIE-Bot-4+SAoTモデルの利用により,顕著な性能向上が得られた。
具体的には、レストランのデータセットにおいて、F1スコアは75.27、ISAスコアは66.29である。
同様に、コンピュータデータセット上では、F1スコアは76.50であり、ISAスコアは73.46である。
ERNIE-Bot-4+SAoTモデルはBERTAsp+SCAPtベースラインを47.99%上回る。
Implicit Sentiment Analysis (ISA) is a crucial research area in natural language processing. Inspired by the idea of large language model Chain of Thought (CoT), this paper introduces a Sentiment Analysis of Thinking (SAoT) framework. The framework first analyzes the implicit aspects and opinions in the text using common sense and thinking chain capabilities. Then, it reflects on the process of implicit sentiment analysis and finally deduces the polarity of sentiment. The model is evaluated on the SemEval 2014 dataset, consisting of 1120 restaurant reviews and 638 laptop reviews. The experimental results demonstrate that the utilization of the ERNIE-Bot-4+SAoT model yields a notable performance improvement. Specifically, on the restaurant dataset, the F1 score reaches 75.27, accompanied by an ISA score of 66.29. Similarly, on the computer dataset, the F1 score achieves 76.50, while the ISA score amounts to 73.46. Comparatively, the ERNIE-Bot-4+SAoT model surpasses the BERTAsp + SCAPt baseline by an average margin of 47.99%. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# バイオロメトリは科学とテクノロジーの成果と研究者に貢献できるか? : 評価学に基づく科学技術評価の事例
Could Bibliometrics Reveal Top Science and Technology Achievements and Researchers? The Case for Evaluatology-based Science and Technology Evaluation ( http://arxiv.org/abs/2408.12158v1 ) ライセンス: Link先を確認 | Guoxin Kang, Wanling Gao, Lei Wang, Chunjie Luo, Hainan Ye, Qian He, Shaopeng Dai, Jianfeng Zhan, | (参考訳) 統計学的手法を用いて文献データを解析することにより、文献学は最も重要な科学と技術の成果と研究者を特定するのに固有の限界に直面している。
この課題を克服するために,評価学に基づく科学技術評価手法を提案する。
このアプローチの中心には、フィールドから派生した8つの重要なコンポーネントを含む拡張評価条件の概念がある。
マッピングされた拡張ECコンポーネントと、時間的および引用的リンクに基づいて、様々な成果間の関係を記述した4つの関係を定義した。
評価条件が拡張された関係において、評価者は、共起変数の影響を慎重に解決することにより、これらの成果を効果的に比較することができる。
我々は,成果の集合全体を含む実世界の評価システムを構築し,それらを拡張ECの複数のコンポーネントにマッピングする。
チップ技術やオープンソースのような特定の分野において、実世界の評価システムに基づく4つの関係から、すべての成果の進化と発展を正確に追跡できる完璧な評価モデルを構築する。
完全評価モデルの基礎を築き,4つの関係を利用して,重要でない成果を排除するための4段階のルールを策定した。
このプロセスにより、特定の時間枠内でトップNの達成点のキュレートされたコレクションとして機能し、重要な達成点を効果的にキャプチャする実用的評価モデルを確立することができる。
本研究は, バイオロメトリを用いて識別できない重要な成果と研究者を識別するための実践的応用と有効性を強調した, トップ100チップの成果に関するケーススタディである。
By utilizing statistical methods to analyze bibliographic data, bibliometrics faces inherent limitations in identifying the most significant science and technology achievements and researchers. To overcome this challenge, we present an evaluatology-based science and technology evaluation methodology. At the heart of this approach lies the concept of an extended evaluation condition, encompassing eight crucial components derived from a field. We define four relationships that illustrate the connections among various achievements based on their mapped extended EC components, as well as their temporal and citation links. Within a relationship under an extended evaluation condition, evaluators can effectively compare these achievements by carefully addressing the influence of confounding variables. We establish a real-world evaluation system encompassing an entire collection of achievements, each of which is mapped to several components of an extended EC. Within a specific field like chip technology or open source, we construct a perfect evaluation model that can accurately trace the evolution and development of all achievements in terms of four relationships based on the real-world evaluation system. Building upon the foundation of the perfect evaluation model, we put forth four-round rules to eliminate non-significant achievements by utilizing four relationships. This process allows us to establish a pragmatic evaluation model that effectively captures the essential achievements, serving as a curated collection of the top N achievements within a specific field during a specific timeframe. We present a case study on the top 100 Chip achievements which highlights its practical application and efficacy in identifying significant achievements and researchers that otherwise can not be identified by using bibliometrics. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# コード最適化のための検索ベースLLM
Search-Based LLMs for Code Optimization ( http://arxiv.org/abs/2408.12159v1 ) ライセンス: Link先を確認 | Shuzheng Gao, Cuiyun Gao, Wenchao Gu, Michael Lyu, | (参考訳) 開発者によって書かれたコードは、通常効率上の問題に悩まされ、様々なパフォーマンス上のバグを含んでいる。
これらの非効率性は、コード最適化のための自動リファクタリング方法の研究を必要とする。
コード最適化の初期の研究はルールベースの手法を採用しており、労働集約的でカバレッジの低い問題に悩まされている特定の非効率性の問題に焦点を当てている。
最近の研究は、タスクをシーケンス生成問題とみなし、大規模言語モデル(LLM)のようなディープラーニング(DL)技術を活用している。
これらのメソッドは通常、LLMに最適化されたコードを直接生成するよう促す。
これらの手法は最先端性能を示すが、そのような一段階生成パラダイムは最適解を得るのが難しい。
第一に、組合せ最適化のような複雑な最適化手法は、LLMによって捉えることは困難である。
第二に、1ステップ生成パラダイムは、LLM内の効率的なコード最適化に必要な知識を正確に注入し、最適化されていないコードを生成する上での課題であり、これらの問題に対処するため、探索の観点からこのタスクをモデル化し、改良された最適化方法の反復的洗練と発見を可能にするSBLLMという検索ベースのLLMフレームワークを提案する。
SBLLMは、LLMを進化探索と相乗的に統合し、3つの重要な構成要素から構成される。
1 既存の最適化コードの適合度を評価し、改良コードの生成を試験するために有望なものを優先する実行ベース代表サンプル選択部
2 目的とする最適化パターンをLLMの修正及び漸進的な最適化方法の向上に向けて導くモデルに注入する適応最適化パターン検索部
3) 遺伝的演算子にインスパイアされたチェーン・オブ・シークレット・プロンプトであり, 異なる最適化手法を組み合わせ, 改良された最適化手法を生成するのに役立つ。
The code written by developers usually suffers from efficiency problems and contain various performance bugs. These inefficiencies necessitate the research of automated refactoring methods for code optimization. Early research in code optimization employs rule-based methods and focuses on specific inefficiency issues, which are labor-intensive and suffer from the low coverage issue. Recent work regards the task as a sequence generation problem, and resorts to deep learning (DL) techniques such as large language models (LLMs). These methods typically prompt LLMs to directly generate optimized code. Although these methods show state-of-the-art performance, such one-step generation paradigm is hard to achieve an optimal solution. First, complex optimization methods such as combinatorial ones are hard to be captured by LLMs. Second, the one-step generation paradigm poses challenge in precisely infusing the knowledge required for effective code optimization within LLMs, resulting in under-optimized code.To address these problems, we propose to model this task from the search perspective, and propose a search-based LLMs framework named SBLLM that enables iterative refinement and discovery of improved optimization methods. SBLLM synergistically integrate LLMs with evolutionary search and consists of three key components: 1) an execution-based representative sample selection part that evaluates the fitness of each existing optimized code and prioritizes promising ones to pilot the generation of improved code; 2) an adaptive optimization pattern retrieval part that infuses targeted optimization patterns into the model for guiding LLMs towards rectifying and progressively enhancing their optimization methods; and 3) a genetic operator-inspired chain-of-thought prompting part that aids LLMs in combining different optimization methods and generating improved optimization methods. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# マルチラベルクラスインクリメンタルラーニングの再バランス
Rebalancing Multi-Label Class-Incremental Learning ( http://arxiv.org/abs/2408.12161v1 ) ライセンス: Link先を確認 | Kaile Du, Yifan Zhou, Fan Lyu, Yuyang Li, Junzhou Xie, Yixi Shen, Fuyuan Hu, Guangcan Liu, | (参考訳) マルチラベルクラスインクリメンタルラーニング(MLCIL)は、実世界のマルチラベルアプリケーションにおいて必須であり、モデルが学習した知識を継続的に保持しながら新しいラベルを学習することができる。
しかし,近年のMLCIL手法は,タスクレベルの部分ラベル問題によりラベルレベルと損失レベルの両方に現れる正負の不均衡問題の過小評価のためのみ,最適性能を実現することができる。
ラベルレベルの不均衡は負のラベルの欠如から生じるが、損失レベルの不均衡は正と負の損失部分の非対称的な寄与から生じる。
上記の問題に対処するため、非対称知識蒸留(AKD)とオンラインレバリング(OR)の2つの主要なモジュールを統合したロスレベルとラベルレベル(RebLL)のリバランスフレームワークを提案する。
AKDは, 分類損失における負ラベル学習を強調し, 蒸留損失における過信予測の寄与を軽視することにより, 損失レベルでの再均衡を図ることを提案する。
ORはラベルのリバランスのために設計されており、行方不明のクラスをオンラインに解放することで、元のクラス分布をメモリ内で復元する。
PASCAL VOCとMS-COCOデータセットの総合的な実験により,バニラCNNバックボーンを用いた場合においても,この再バランス戦略がパフォーマンスを著しく向上することが示された。
Multi-label class-incremental learning (MLCIL) is essential for real-world multi-label applications, allowing models to learn new labels while retaining previously learned knowledge continuously. However, recent MLCIL approaches can only achieve suboptimal performance due to the oversight of the positive-negative imbalance problem, which manifests at both the label and loss levels because of the task-level partial label issue. The imbalance at the label level arises from the substantial absence of negative labels, while the imbalance at the loss level stems from the asymmetric contributions of the positive and negative loss parts to the optimization. To address the issue above, we propose a Rebalance framework for both the Loss and Label levels (RebLL), which integrates two key modules: asymmetric knowledge distillation (AKD) and online relabeling (OR). AKD is proposed to rebalance at the loss level by emphasizing the negative label learning in classification loss and down-weighting the contribution of overconfident predictions in distillation loss. OR is designed for label rebalance, which restores the original class distribution in memory by online relabeling the missing classes. Our comprehensive experiments on the PASCAL VOC and MS-COCO datasets demonstrate that this rebalancing strategy significantly improves performance, achieving new state-of-the-art results even with a vanilla CNN backbone. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# 適応言語モデルに対する優先誘導反射サンプリング
Preference-Guided Reflective Sampling for Aligning Language Models ( http://arxiv.org/abs/2408.12163v1 ) ライセンス: Link先を確認 | Hai Ye, Hwee Tou Ng, | (参考訳) 大規模言語モデル(LLM)は、人間からのフィードバック(RLHF)からの強化学習によって、人間の好みに合わせている。
効果的なデータサンプリングは、モデルトレーニングの効率を決定するため、RLHFにとって不可欠である。
より優れたデータ生成を実現するために,Preference-Guided Reflective Smpling (PRS) と呼ばれる新しいサンプリング手法を提案する。
PRSは、自然言語で記述された明示されたユーザー嗜好に対する最適化プロセスとして応答生成をフレーム化する。
ツリーベースの生成フレームワークを使用して、効率的なサンプリングプロセスを実現し、好みを通じて生成の方向を案内し、適応的な自己調整でサンプリング空間をよりよく探索する。
特に、PSSはLSMを様々な好みに合わせることができる。
命令追従とキーワード中心の文書要約のための嗜好制御テキスト生成について検討する。
以上の結果から,PLSは強いベースラインよりも高い報酬でトレーニングデータを生成することが示唆された。
PRSはまた、RL後のトレーニングにも優れている。
Large language models (LLMs) are aligned with human preferences by reinforcement learning from human feedback (RLHF). Effective data sampling is crucial for RLHF, as it determines the efficiency of model training, ensuring that models learn from the informative samples. To achieve better data generation, we propose a new sampling method called Preference-Guided Reflective Sampling (PRS). PRS frames the response generation as an optimization process to the explicitly specified user preference described in natural language. It employs a tree-based generation framework to enable an efficient sampling process, which guides the direction of generation through preference and better explores the sampling space with adaptive self-refinement. Notably, PRS can align LLMs to diverse preferences. We study preference-controlled text generation for instruction following and keyword-focused document summarization. Our findings indicate that PRS, across different LLM policies, generates training data with much higher rewards than strong baselines. PRS also excels in post-RL training. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# FIRST:信頼に値する蒸留を通じて信頼性の高い大規模言語モデルを教える
FIRST: Teach A Reliable Large Language Model Through Efficient Trustworthy Distillation ( http://arxiv.org/abs/2408.12168v1 ) ライセンス: Link先を確認 | KaShun Shum, Minrui Xu, Jianshu Zhang, Zixin Chen, Shizhe Diao, Hanze Dong, Jipeng Zhang, Muhammad Omer Raza, | (参考訳) 大規模言語モデル(LLM)は、私たちの日常生活でますます普及しており、LSMが信頼に値するものと期待されている。
近年、下流タスクの精度を大幅に向上させることで、モデルに実用的な使用法を適用する方法として、ファインチューニングが最も一般的な方法となっている。
精度が高いにもかかわらず、微調整は「微調整による誤校正」のため、まだ満足のいく信頼性には程遠いことがわかりました。
本稿では, 微調整モデルに誤校正が存在する理由と, 蒸留が問題を緩和する方法について検討する。
さらに,教師の知識のごく一部を利用して,信頼性の高い言語モデルを低コストで得るためのFIRST (Efficient Trustworthy Distillation) という新しい手法を提案する。
具体的には,蒸留における「集中知識」現象を同定し,計算負荷を大幅に削減する。
そして、学生に伝達する前に、この少数の集中知識の利用を最適化するために「信頼できる最大化」プロセスを適用する。
実験により,ドメイン内およびドメイン外の両方のシナリオにおいて,精度(+2.3%)と誤校正率(-10%)が平均で達成され,信頼性が向上したことを示す。
Large language models (LLMs) have become increasingly prevalent in our daily lives, leading to an expectation for LLMs to be trustworthy -- - both accurate and well-calibrated (the prediction confidence should align with its ground truth correctness likelihood). Nowadays, fine-tuning has become the most popular method for adapting a model to practical usage by significantly increasing accuracy on downstream tasks. Despite the great accuracy it achieves, we found fine-tuning is still far away from satisfactory trustworthiness due to "tuning-induced mis-calibration". In this paper, we delve deeply into why and how mis-calibration exists in fine-tuned models, and how distillation can alleviate the issue. Then we further propose a brand new method named Efficient Trustworthy Distillation (FIRST), which utilizes a small portion of teacher's knowledge to obtain a reliable language model in a cost-efficient way. Specifically, we identify the "concentrated knowledge" phenomenon during distillation, which can significantly reduce the computational burden. Then we apply a "trustworthy maximization" process to optimize the utilization of this small portion of concentrated knowledge before transferring it to the student. Experimental results demonstrate the effectiveness of our method, where better accuracy (+2.3%) and less mis-calibration (-10%) are achieved on average across both in-domain and out-of-domain scenarios, indicating better trustworthiness. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# 計算流体力学における機械学習の最近の進歩
Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey ( http://arxiv.org/abs/2408.12171v1 ) ライセンス: Link先を確認 | Haixin Wang, Yadi Cao, Zijie Huang, Yuxuan Liu, Peiyan Hu, Xiao Luo, Zezheng Song, Wanjia Zhao, Jilin Liu, Jinan Sun, Shikun Zhang, Long Wei, Yue Wang, Tailin Wu, Zhi-Ming Ma, Yizhou Sun, | (参考訳) 本稿では機械学習(ML)技術による計算流体力学(CFD)タスクの強化の最近の進歩について考察する。
まず基本的な概念,従来のメソッド,ベンチマークデータセットを導入し,CFDを改善する上でMLが果たすさまざまな役割について検討する。
この文献は、過去5年間の論文を体系的にレビューし、データ駆動サロゲート、物理インフォームドサロゲート、ML支援数値解という、フォワードモデリングの新しい分類を紹介している。
さらに、逆設計と制御における最新のML手法をレビューし、新しい分類を提供し、詳細な議論を提供する。
次に, 空気力学, 燃焼, 大気・海洋科学, 生物流体, プラズマ, 記号回帰, 還元次数モデリングなど, CFDにおけるMLの現実的な応用について述べる。
さらに,これらの課題に対処するための重要な課題を特定し,今後の研究の方向性を提唱する。例えば,マルチスケール表現,物理知識エンコーディング,科学基盤モデル,自動科学的発見などである。
このレビューは、CFDコミュニティのための急速に拡大するMLのガイドとして役立ち、今後の進歩に対する洞察を刺激することを目的としている。
シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
資料はhttps://github.com/WillDreamer/Awesome-AI4CFDで見ることができる。
This paper explores the recent advancements in enhancing Computational Fluid Dynamics (CFD) tasks through Machine Learning (ML) techniques. We begin by introducing fundamental concepts, traditional methods, and benchmark datasets, then examine the various roles ML plays in improving CFD. The literature systematically reviews papers in recent five years and introduces a novel classification for forward modeling: Data-driven Surrogates, Physics-Informed Surrogates, and ML-assisted Numerical Solutions. Furthermore, we also review the latest ML methods in inverse design and control, offering a novel classification and providing an in-depth discussion. Then we highlight real-world applications of ML for CFD in critical scientific and engineering disciplines, including aerodynamics, combustion, atmosphere & ocean science, biology fluid, plasma, symbolic regression, and reduced order modeling. Besides, we identify key challenges and advocate for future research directions to address these challenges, such as multi-scale representation, physical knowledge encoding, scientific foundation model and automatic scientific discovery. This review serves as a guide for the rapidly expanding ML for CFD community, aiming to inspire insights for future advancements. We draw the conclusion that ML is poised to significantly transform CFD research by enhancing simulation accuracy, reducing computational time, and enabling more complex analyses of fluid dynamics. The paper resources can be viewed at https://github.com/WillDreamer/Awesome-AI4CFD. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# あなたの分類の不確実性はどの程度混乱していますか。
How disentangled are your classification uncertainties? ( http://arxiv.org/abs/2408.12175v1 ) ライセンス: Link先を確認 | Ivo Pascal de Jong, Andreea Ioana Sburlea, Matias Valdenegro-Toro, | (参考訳) 機械学習における不確実性定量化は、予測における不確実性の原因を予測するために進行している。
一般に、それぞれの不確実性は独立して評価されるが、これらが真に絡み合っていないという事実は明らかではない。
本研究は,アレータ性およびてんかん性不確実性の解離を評価するための一連の実験を提案し,これらの手法を用いて,解離に対する2つの競合する定式化(情報理論的アプローチ,ガウス論理的アプローチ)を比較した。
以上の結果から,情報理論のアプローチはより良い絡み合いをもたらすが,予測された不確実性の源は,いずれの手法においても,いずれの手法でもほとんど汚染されていることが示唆された。
現状の解離法では, 動脈硬化性, てんかん性不確実性は確実に分離されておらず, 良好な解離性を示すための実験的基準が明確である。
Uncertainty Quantification in Machine Learning has progressed to predicting the source of uncertainty in a prediction: Uncertainty from stochasticity in the data (aleatoric), or uncertainty from limitations of the model (epistemic). Generally, each uncertainty is evaluated in isolation, but this obscures the fact that they are often not truly disentangled. This work proposes a set of experiments to evaluate disentanglement of aleatoric and epistemic uncertainty, and uses these methods to compare two competing formulations for disentanglement (the Information Theoretic approach, and the Gaussian Logits approach). The results suggest that the Information Theoretic approach gives better disentanglement, but that either predicted source of uncertainty is still largely contaminated by the other for both methods. We conclude that with the current methods for disentangling, aleatoric and epistemic uncertainty are not reliably separated, and we provide a clear set of experimental criteria that good uncertainty disentanglement should follow. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# ドイツ語対話データにおける構文複雑度収束現象の再検討
Revisiting the Phenomenon of Syntactic Complexity Convergence on German Dialogue Data ( http://arxiv.org/abs/2408.12177v1 ) ライセンス: Link先を確認 | Yu Wang, Hendrik Buschmeier, | (参考訳) 本稿では,会話対話における統語的複雑性収束現象を再考し,相互理解などの対話的概念に理論的に影響を及ぼす英会話について述べる。
依存関係解析に基づく構文的複雑性の定量化には、修正されたメトリックを使用する。
その結果, 解析した3つのドイツのデータセットのうちの1つにおいて, 構文的複雑性収束が統計的に確認できることが示唆された。
このような収束を示すデータセットが他の2つの選択されたデータセットよりもはるかに大きいことを考えると、経験的結果は会話相互作用における構文的複雑性収束の言語的一般化のある程度の程度を示している。
また、データセットの1つで異なるタイプの構文的複雑性収束が発見され、さらなる調査がまだ必要である。
We revisit the phenomenon of syntactic complexity convergence in conversational interaction, originally found for English dialogue, which has theoretical implication for dialogical concepts such as mutual understanding. We use a modified metric to quantify syntactic complexity based on dependency parsing. The results show that syntactic complexity convergence can be statistically confirmed in one of three selected German datasets that were analysed. Given that the dataset which shows such convergence is much larger than the other two selected datasets, the empirical results indicate a certain degree of linguistic generality of syntactic complexity convergence in conversational interaction. We also found a different type of syntactic complexity convergence in one of the datasets while further investigation is still necessary. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# RおよびPythonにおけるランダムフォレストアルゴリズムのランダム性制御と再現性に関する研究
Randomness control and reproducibility study of random forest algorithm in R and Python ( http://arxiv.org/abs/2408.12184v1 ) ライセンス: Link先を確認 | Louisa Camadini, Yanis Bouzid, Maeva Merlet, Léopold Carron, | (参考訳) 化粧品の安全性に関しては、規制基準の遵守は、皮膚刺激のリスクに対する消費者の保護を保証するために不可欠である。
したがって、毒性学者はあらゆるリスクと完全に会話しなければならない。
これは日々の作業だけでなく、ルーチンに統合されるすべてのアルゴリズムにも当てはまります。
これを認識して、algorithmの再現性を確保することが、対処すべき最も重要な側面の1つとなり、しかしながら、ランダム性に大きく依存するランダム森林のようなアルゴリズムの堅牢性をどうやって証明できるのか?
本稿では,無作為林の無作為性評価を毒性学者に組み込む戦略について論じる。ランダムフォレストとレンジャー(Rパッケージ)の4つのパッケージを,SKRangerパッケージを介してPythonで適用し,広く使用されているScikit-Learnをランダムフォレスト分類器(RandomForestClassifier()関数で比較する。
それにもかかわらず、この探索はランダム性の隠れた層を明らかにし、ランダムフォレストアルゴリズムの4つの実装すべてにおいて再現性を確保するために必要な重要なパラメータの理解を促す。
When it comes to the safety of cosmetic products, compliance with regulatory standards is crucialto guarantee consumer protection against the risks of skin irritation. Toxicologists must thereforebe fully conversant with all risks. This applies not only to their day-to-day work, but also to allthe algorithms they integrate into their routines. Recognizing this, ensuring the reproducibility ofalgorithms becomes one of the most crucial aspects to address.However, how can we prove the robustness of an algorithm such as the random forest, that reliesheavily on randomness? In this report, we will discuss the strategy of integrating random forest intoocular tolerance assessment for toxicologists.We will compare four packages: randomForest and Ranger (R packages), adapted in Python via theSKRanger package, and the widely used Scikit-Learn with the RandomForestClassifier() function.Our goal is to investigate the parameters and sources of randomness affecting the outcomes ofRandom Forest algorithms.By setting comparable parameters and using the same Pseudo-Random Number Generator (PRNG),we expect to reproduce results consistently across the various available implementations of therandom forest algorithm. Nevertheless, this exploration will unveil hidden layers of randomness andguide our understanding of the critical parameters necessary to ensure reproducibility across all fourimplementations of the random forest algorithm. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# Rank and Align: 効率的なソースフリーグラフドメイン適応を目指して
Rank and Align: Towards Effective Source-free Graph Domain Adaptation ( http://arxiv.org/abs/2408.12185v1 ) ライセンス: Link先を確認 | Junyu Luo, Zhiping Xiao, Yifan Wang, Xiao Luo, Jingyang Yuan, Wei Ju, Langechuan Liu, Ming Zhang, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ領域適応において素晴らしいパフォーマンスを達成した。
しかし、プライバシやストレージ上の懸念から、大規模なソースグラフは現実のシナリオでは利用できない可能性がある。
この目的のために、ソースグラフの代わりにソースモデルからターゲットドメインへ知識を伝達する、ソースフリーなグラフドメイン適応の未検討かつ実践的な問題について検討する。
この問題を解決するために、我々はRange and Align(RNA)と呼ばれる新しいGNNベースのアプローチを導入し、ロバストセマンティクス学習のためのスペクトルセレーションとグラフの類似性をランク付けし、サブグラフ抽出のソース領域に近いハーモニックグラフと調和グラフをアライメントする。
特に、ラベルの不足を克服するために、スペクトルセレーションアルゴリズムを用いて、類似性学習の目的を用いて意味学習を誘導できる頑健なペアワイズランキングを推論する。
分布シフトを記述するために、スペクトルクラスタリングとシルエット係数を用いて、ソースモデルで容易に分類できる調和グラフを検出する。
潜在領域の差分を低減するために,GNNの不変学習を導く逆エッジサンプリング法により,非調和グラフからドメイン不変部分グラフを抽出する。
いくつかのベンチマークデータセットに対する大規模な実験により、提案したRNAの有効性が示された。
Graph neural networks (GNNs) have achieved impressive performance in graph domain adaptation. However, extensive source graphs could be unavailable in real-world scenarios due to privacy and storage concerns. To this end, we investigate an underexplored yet practical problem of source-free graph domain adaptation, which transfers knowledge from source models instead of source graphs to a target domain. To solve this problem, we introduce a novel GNN-based approach called Rank and Align (RNA), which ranks graph similarities with spectral seriation for robust semantics learning, and aligns inharmonic graphs with harmonic graphs which close to the source domain for subgraph extraction. In particular, to overcome label scarcity, we employ the spectral seriation algorithm to infer the robust pairwise rankings, which can guide semantic learning using a similarity learning objective. To depict distribution shifts, we utilize spectral clustering and the silhouette coefficient to detect harmonic graphs, which the source model can easily classify. To reduce potential domain discrepancy, we extract domain-invariant subgraphs from inharmonic graphs by an adversarial edge sampling process, which guides the invariant learning of GNNs. Extensive experiments on several benchmark datasets demonstrate the effectiveness of our proposed RNA. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# 変換器は最小限の非パラメトリックインコンテキスト学習器である
Transformers are Minimax Optimal Nonparametric In-Context Learners ( http://arxiv.org/abs/2408.12186v1 ) ライセンス: Link先を確認 | Juno Kim, Tai Nakamaki, Taiji Suzuki, | (参考訳) 大規模言語モデルの文脈内学習(ICL)は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
本稿では,統計的学習理論の観点からICLの有効性について検討する。
本研究では、ベソフ空間を含む一般関数空間からサンプリングされた非パラメトリック回帰タスクと、それぞれ$\gamma$-smoothクラスに基づいて、ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、事前学習中に最も関連性の高い基底表現を符号化することで、文脈における最小限の最適推定リスクを達成し、改善できることを示す。
我々の分析は高次元データや逐次データにまで拡張し, 一般化のギャップである \emph{pretraining} と \emph{in-context} を区別する。
さらに,メタ学習者w.r.t.の情報理論の下限をタスク数とコンテキスト内例の両方に設定する。
これらの知見は, ICLにおけるタスク多様性と表現学習の役割を浮き彫りにした。
In-context learning (ICL) of large language models has proven to be a surprisingly effective method of learning a new task from only a few demonstrative examples. In this paper, we study the efficacy of ICL from the viewpoint of statistical learning theory. We develop approximation and generalization error bounds for a transformer composed of a deep neural network and one linear attention layer, pretrained on nonparametric regression tasks sampled from general function spaces including the Besov space and piecewise $\gamma$-smooth class. We show that sufficiently trained transformers can achieve -- and even improve upon -- the minimax optimal estimation risk in context by encoding the most relevant basis representations during pretraining. Our analysis extends to high-dimensional or sequential data and distinguishes the \emph{pretraining} and \emph{in-context} generalization gaps. Furthermore, we establish information-theoretic lower bounds for meta-learners w.r.t. both the number of tasks and in-context examples. These findings shed light on the roles of task diversity and representation learning for ICL. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# 自律運転システムの意思決定と制御のための安全かつ効率的な自己進化アルゴリズム
A Safe and Efficient Self-evolving Algorithm for Decision-making and Control of Autonomous Driving Systems ( http://arxiv.org/abs/2408.12187v1 ) ライセンス: Link先を確認 | Shuo Yang, Liwen Wang, Yanjun Huang, Hong Chen, | (参考訳) 自己進化能力を持つ自動運転車は、現実世界の環境における未知のシナリオに対処することが期待される。
試行錯誤のメカニズムを活かして、強化学習は最適な政策を学習することで自己進化し、特に意思決定問題の解決に適している。
しかし、強化学習は、特に連続行動空間において、安全性の問題と学習効率の低下に悩まされている。
そこで本論文の動機は,ハイブリッドなメカニズム-経験-学習型拡張手法を提案することによって,上記の課題に対処することにある。
具体的には、効率的な自己進化を実現するために、人間の運転経験と類似した運転傾向が自律運転問題の探索空間を減らすために提案され、機械的モデルに基づく制約付き最適化問題は、自己進化過程の安全性を確保するために設計されている。
実験の結果,提案手法は様々な複雑なシナリオにおいて安全かつ合理的な動作を生成でき,自律運転システムの性能を向上させることができることがわかった。
従来の強化学習と比較して,提案アルゴリズムの安全性と効率は大幅に向上した。
トレーニングプロセスは無衝突で、実世界でのトレーニング時間は10分未満である。
Autonomous vehicles with a self-evolving ability are expected to cope with unknown scenarios in the real-world environment. Take advantage of trial and error mechanism, reinforcement learning is able to self evolve by learning the optimal policy, and it is particularly well suitable for solving decision-making problems. However, reinforcement learning suffers from safety issues and low learning efficiency, especially in the continuous action space. Therefore, the motivation of this paper is to address the above problem by proposing a hybrid Mechanism-Experience-Learning augmented approach. Specifically, to realize the efficient self-evolution, the driving tendency by analogy with human driving experience is proposed to reduce the search space of the autonomous driving problem, while the constrained optimization problem based on a mechanistic model is designed to ensure safety during the self-evolving process. Experimental results show that the proposed method is capable of generating safe and reasonable actions in various complex scenarios, improving the performance of the autonomous driving system. Compared to conventional reinforcement learning, the safety and efficiency of the proposed algorithm are greatly improved. The training process is collision-free, and the training time is equivalent to less than 10 minutes in the real world. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# 大規模言語モデルを用いた構造化データにおけるファクチュアル知識の推論
Reasoning Factual Knowledge in Structured Data with Large Language Models ( http://arxiv.org/abs/2408.12188v1 ) ライセンス: Link先を確認 | Sirui Huang, Yanggan Gu, Xuming Hu, Zhonghao Li, Qing Li, Guandong Xu, | (参考訳) 大規模言語モデル (LLM) は, 様々な自然言語処理タスクにおいて, 事実を理解・理性的に理解する能力の恩恵を受け, 顕著な進歩を遂げている。
しかし, 事前学習に用いる非構造化テキストとは異なる特徴を持つ構造化データに, かなりの量の事実知識が蓄積されている。
この違いは、知覚不可能な推論パラメータの偏差を導入し、実知識を正確に推測するために構造化されたデータを利用して効果的に活用および推論することにおけるLLMの課題を提起する。
そこで本研究では,LLMの構造的推論能力を評価するためのStructFactというベンチマークを提案する。
StructFactには、さまざまなタスク、ドメイン、タイムライン、リージョンを含む8,340の事実質問が含まれている。
このベンチマークにより、構造的事実の特徴から導かれる5つの現実的タスクにまたがるLCMの能力を調べることができる。
異なるトレーニング戦略を持つLLMの集合に対する大規模な実験は、構造化データから事実知識を推測する際の現在のLLMの限界を明らかにする。
本ベンチマークは,知識に敏感なタスクのための構造化データを用いた推論において,LLMの強みと弱みをナビゲートするコンパスとして提案し,関連する実世界のアプリケーションの発展を促す。
コードはhttps://github.com/EganGu/StructFact.comで参照してください。
Large language models (LLMs) have made remarkable progress in various natural language processing tasks as a benefit of their capability to comprehend and reason with factual knowledge. However, a significant amount of factual knowledge is stored in structured data, which possesses unique characteristics that differ from the unstructured texts used for pretraining. This difference can introduce imperceptible inference parameter deviations, posing challenges for LLMs in effectively utilizing and reasoning with structured data to accurately infer factual knowledge. To this end, we propose a benchmark named StructFact, to evaluate the structural reasoning capabilities of LLMs in inferring factual knowledge. StructFact comprises 8,340 factual questions encompassing various tasks, domains, timelines, and regions. This benchmark allows us to investigate the capability of LLMs across five factual tasks derived from the unique characteristics of structural facts. Extensive experiments on a set of LLMs with different training strategies reveal the limitations of current LLMs in inferring factual knowledge from structured data. We present this benchmark as a compass to navigate the strengths and weaknesses of LLMs in reasoning with structured data for knowledge-sensitive tasks, and to encourage advancements in related real-world applications. Please find our code at https://github.com/EganGu/StructFact. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# Transientangelo: 単光Lidarを用いた多視点表面再構成
Transientangelo: Few-Viewpoint Surface Reconstruction Using Single-Photon Lidar ( http://arxiv.org/abs/2408.12191v1 ) ライセンス: Link先を確認 | Weihan Luo, Anagh Malik, David B. Lindell, | (参考訳) そこで本研究では,ライダーシステムからの生測値を用いて,少数視点3次元表面再構成の問題点を考察する。
ライダーは、ターゲットに光のパルスを放出し、反射光の光速遅延を記録することで、3Dシーンの幾何学を捉えている。
しかし、従来のライダーシステムは、後方散乱光の生で捕獲された波形を出力せず、代わりにこれらのデータを3Dポイントクラウドに前処理する。
この手順は、通常、システムのノイズ統計を正確にモデル化したり、空間的先行情報を利用したり、下流のタスクに関する情報を組み込んだりしないため、最終的に後方散乱光の生測値に符号化された有用な情報を捨てる。
本稿では,複数の視点から単一光子ライダーシステムを用いて得られた生測値を利用して,シーンの神経表面表現を最適化する手法を提案する。
この測定は、ピコ秒の時間スケールで後方散乱光に関する情報をキャプチャする時間分解光子計数ヒストグラム(英語版)またはトランジェントから構成される。
さらに,光子ノイズに対するロバスト性を向上させる新たな正則化手法を開発し,画素あたり10光子程度で正確な表面再構成を可能にする。
提案手法は,シミュレーションやキャプチャデータを用いて,深度マップ,点雲,あるいは従来のライダーに基づく少数視点3次元再構成において,他の手法よりも優れる。
We consider the problem of few-viewpoint 3D surface reconstruction using raw measurements from a lidar system. Lidar captures 3D scene geometry by emitting pulses of light to a target and recording the speed-of-light time delay of the reflected light. However, conventional lidar systems do not output the raw, captured waveforms of backscattered light; instead, they pre-process these data into a 3D point cloud. Since this procedure typically does not accurately model the noise statistics of the system, exploit spatial priors, or incorporate information about downstream tasks, it ultimately discards useful information that is encoded in raw measurements of backscattered light. Here, we propose to leverage raw measurements captured with a single-photon lidar system from multiple viewpoints to optimize a neural surface representation of a scene. The measurements consist of time-resolved photon count histograms, or transients, which capture information about backscattered light at picosecond time scales. Additionally, we develop new regularization strategies that improve robustness to photon noise, enabling accurate surface reconstruction with as few as 10 photons per pixel. Our method outperforms other techniques for few-viewpoint 3D reconstruction based on depth maps, point clouds, or conventional lidar as demonstrated in simulation and with captured data. | 翻訳日:2024-08-23 14:53:12 公開日:2024-08-22 |
# 光子放射データから光物理過程の速度を抽出する枠組み
A framework for extracting the rates of photophysical processes from biexponentially decaying photon emission data ( http://arxiv.org/abs/2408.12192v1 ) ライセンス: Link先を確認 | Jill M. Cleveland, Tory A. Welsch, Eric Y. Chen, D. Bruce Chase, Matthew F. Doty, Hanz Y. Ramírez-Gómez, | (参考訳) バイオメディカルエンジニアリングから量子コンピューティングまで幅広い分野の応用において、より複雑な光学活性半導体ナノ構造の設計と実現に強い関心がある。
これらの複雑なナノ構造は、徐々に洗練された光学機能を実装することができるが、より多くの材料成分や界面の存在は、ますます複雑な励起子ダイナミクスをもたらす。
特に、複雑なヘテロ構造におけるキャリアトラップとデトラッピングの速度は、高度な光学機能にとって極めて重要であるが、直接的に測定することは滅多にない。
本研究では,光学的不活性状態によるキャリアのトラップと放出を含むモデルを開発する。
このモデルは、低次元半導体エミッタにおける中性励起子からのフォトルミネッセンス信号の広く観察された双指数崩壊を説明する。
このモデルはまた、近似を用いることなく、放出ダイナミクスに関わる全ての遷移速度の確率間隔を決定できる。
さらに、高温限界が適している場合には、そのモデルがそのような値の特定の値に導かれる。
我々はCdSeTe/CdSヘテロ構造の時間分解発光測定にこのモデルを適用した。
放射光と非放射光の寿命だけでなく、トラップや放出に起因した遅延フォトルミネッセンスについても値を得る。
There is strong interest in designing and realizing optically-active semiconductor nanostructures of greater complexity for applications in fields ranging from biomedical engineering to quantum computing. While these increasingly complex nanostructures can implement progressively sophisticated optical functions, the presence of more material constituents and interfaces also leads to increasingly complex exciton dynamics. In particular, the rates of carrier trapping and detrapping in complex heterostructures are critically important for advanced optical functionality, but they can rarely be directly measured. In this work, we develop a model that includes trapping and release of carriers by optically inactive states. The model explains the widely observed biexponential decay of the photoluminescence signal from neutral excitons in low dimensional semiconductor emitters. The model also allows determination of likelihood intervals for all the transition rates involved in the emission dynamics, without the use of approximations. Furthermore, in cases for which the high temperature limit is suitable, the model leads to specific values of such rates, outperforming reduced models previously used to estimate those quantities. We demonstrate the value of this model by applying it to time resolved photoluminescence measurements of CdSeTe/CdS heterostructures. We obtain values not only for the radiative and nonradiative lifetimes, but also for the delayed photoluminescence originating in trapping and release. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# 深層学習に基づく電波伝搬モデルを用いた無線ネットワークアプリケーション
Empowering Wireless Network Applications with Deep Learning-based Radio Propagation Models ( http://arxiv.org/abs/2408.12193v1 ) ライセンス: Link先を確認 | Stefanos Bakirtzis, Cagkan Yapar, Marco Fiore, Jie Zhang, Ian Wassell, | (参考訳) 無線通信エコシステムの効率的な展開と運用は、受信した信号品質の知識を対象範囲に頼っている。
この知識は一般的には電波伝搬解法(英語版)によって獲得されるが、本質的でよく知られた性能制限に悩まされている。
本稿では、深層学習と従来の伝搬モデリング技術を統合することで、無線ネットワークの運用において、複数の重要な側面を強化し、効率と信頼性の面で利点を享受する方法について概説する。
次世代無線ネットワークにおいて、深層学習に基づく電波伝搬モデルが想定する重要な役割を強調することにより、我々は、この方向へのさらなる研究を推進し、さらなる応用への採用を促進することを目指している。
The efficient deployment and operation of any wireless communication ecosystem rely on knowledge of the received signal quality over the target coverage area. This knowledge is typically acquired through radio propagation solvers, which however suffer from intrinsic and well-known performance limitations. This article provides a primer on how integrating deep learning and conventional propagation modeling techniques can enhance multiple vital facets of wireless network operation, and yield benefits in terms of efficiency and reliability. By highlighting the pivotal role that the deep learning-based radio propagation models will assume in next-generation wireless networks, we aspire to propel further research in this direction and foster their adoption in additional applications. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# 次世代Dense Retrievalの基礎としての大規模言語モデル:包括的実証評価
Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment ( http://arxiv.org/abs/2408.12194v1 ) ライセンス: Link先を確認 | Kun Luo, Minghao Qin, Zheng Liu, Shitao Xiao, Jun Zhao, Kang Liu, | (参考訳) BERTやT5のような事前訓練された言語モデルは、高密度検索のための重要なバックボーンエンコーダとして機能する。
しかし、これらのモデルはしばしば限定的な一般化能力を示し、ドメインの正確性を改善する上での課題に直面している。
近年,大規模言語モデル (LLM) をレトリバーとして使用し,様々なタスクでSOTA性能を達成している。
これらの進歩にもかかわらず、従来のレトリバーに対するLLMの特定の利点と、パラメータサイズ、事前学習時間、アライメントプロセスなどの異なるLLM構成の影響は、まだ不明である。
本研究では,ドメイン精度,データ効率,ゼロショット一般化,長大検索,命令ベース検索,マルチタスク学習など,幅広い検索タスクに関する総合的研究を行う。
我々は15種類以上の背骨LLMと非LLMを評価した。
以上の結果から,より大きなモデルと広範な事前訓練がドメインの精度とデータ効率を継続的に向上させることが明らかとなった。
さらに、より大規模なモデルでは、ゼロショットの一般化、長い検索、命令ベースの検索、マルチタスク学習において大きなポテンシャルを示す。
これらの結果は,LLMの高密度検索における汎用的で効果的なバックボーンエンコーダとしての利点を裏付けるものであり,今後の研究・開発に有用な知見を提供するものである。
Pretrained language models like BERT and T5 serve as crucial backbone encoders for dense retrieval. However, these models often exhibit limited generalization capabilities and face challenges in improving in domain accuracy. Recent research has explored using large language models (LLMs) as retrievers, achieving SOTA performance across various tasks. Despite these advancements, the specific benefits of LLMs over traditional retrievers and the impact of different LLM configurations, such as parameter sizes, pretraining duration, and alignment processes on retrieval tasks remain unclear. In this work, we conduct a comprehensive empirical study on a wide range of retrieval tasks, including in domain accuracy, data efficiency, zero shot generalization, lengthy retrieval, instruction based retrieval, and multi task learning. We evaluate over 15 different backbone LLMs and non LLMs. Our findings reveal that larger models and extensive pretraining consistently enhance in domain accuracy and data efficiency. Additionally, larger models demonstrate significant potential in zero shot generalization, lengthy retrieval, instruction based retrieval, and multi task learning. These results underscore the advantages of LLMs as versatile and effective backbone encoders in dense retrieval, providing valuable insights for future research and development in this field. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# 窒素空孔中心の無秩序鎖における絡み合い構造
Entanglement structures in disordered chains of nitrogen-vacancy centers ( http://arxiv.org/abs/2408.12197v1 ) ライセンス: Link先を確認 | Alexander M. Minke, Andreas Buchleitner, Edoardo G. Carnio, | (参考訳) 最近の研究(Phys. B 174111 (2022))では、ダイヤモンドの特定の1次元欠陥に沿って窒素空孔(NV)中心の連鎖を仮定し、双極子結合された電子スピンを介して量子ビットレジスタを作成できる可能性がある。
ここでは、最大10個の連結スピンの鎖の接続性について検討する。
より便利なことに、定期的に間隔を置くスピンの場合、固有状態の大部分は特にスペクトルの中心と長い鎖に対して強い接続性を示す。
さらに、位置障害はレジスタの接続性を変化させたり、あるいは減少させることがあるが、ほとんど抑制しない。
A recent study [Phys. Rev. B 17 174111 (2022)] has hypothesized the assembly, along a specific type of one-dimensional defects of diamond, of chains of nitrogen-vacancy (NV) centers, potentially enabling the creation of qubit registers via their dipole-coupled electron spins. Here we investigate the connectivity of chains of up to ten coupled spins, mediated by the bi- and multipartite entanglement of their eigenstates. Rather conveniently, for regularly spaced spins the vast majority of the eigenstates displays strong connectivity, especially towards the center of the spectrum and for longer chains. Furthermore, positional disorder can change, and possibly reduce, the connectivity of the register, but seldom suppresses it. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# 2レベル深部領域分解法
Two-level deep domain decomposition method ( http://arxiv.org/abs/2408.12198v1 ) ライセンス: Link先を確認 | Victorita Dolean, Serge Gratton, Alexander Heinlein, Valentin Mercier, | (参考訳) 本研究では,物理インフォームドニューラルネットワーク(PINN)を用いて境界値問題を解くために,粗度ネットワークを付加した2レベルディープドメイン分解法(ディープ-DDM)を提案する。
粗いレベルのネットワークの追加は、単一レベルの手法と比較してスケーラビリティと収束率を改善する。
ディリクレ境界条件を持つポアソン方程式を用いて、2レベル深度DDMは、サブドメインの数に関係なく効率的な収束を維持し、優れた性能を示す。
この進歩は、複雑な偏微分方程式を機械学習で解くための、よりスケーラブルで効果的なアプローチを提供する。
This study presents a two-level Deep Domain Decomposition Method (Deep-DDM) augmented with a coarse-level network for solving boundary value problems using physics-informed neural networks (PINNs). The addition of the coarse level network improves scalability and convergence rates compared to the single level method. Tested on a Poisson equation with Dirichlet boundary conditions, the two-level deep DDM demonstrates superior performance, maintaining efficient convergence regardless of the number of subdomains. This advance provides a more scalable and effective approach to solving complex partial differential equations with machine learning. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# 境界ゲート量子回路の線形特性の効率的な学習
Efficient Learning for Linear Properties of Bounded-Gate Quantum Circuits ( http://arxiv.org/abs/2408.12199v1 ) ライセンス: Link先を確認 | Yuxuan Du, Min-Hsiu Hsieh, Dacheng Tao, | (参考訳) 巨大で複雑な大量子状態空間は、古典的なシミュレーションや量子トモグラフィーによって、現代の量子コンピュータのダイナミクスを包括的に捉えることを許している。
しかし、近年の量子学習理論の進歩は、重要な疑問を呼び起こしている: d チューナブル RZ ゲートと G-d クリフォードゲートを含む量子回路が与えられた場合、学習者は、同じ回路で生成された状態と異なる古典的な入力とを不整合に測定したデータから学習した後、新しい古典的な入力を用いて線形特性を効率的に予測するために純粋に古典的な推論を実行できるか?
本研究では,d で線形にスケールするサンプルの複雑性が,d で指数関数的にスケールするのに対して,小さな予測誤差を達成するのに十分であることを示す。
これらの複雑性境界に基づいて、古典的なシャドウと切り詰めた三角展開の概念をさらに活用し、予測誤差と計算複雑性をトレードオフできるカーネルベースの学習モデルを考案し、指数関数から多項式スケーリングへ、多くの実践的な設定で移行する。
本研究は,量子計算における2つの重要な領域である,実用的なユーティリティによる量子アルゴリズムの探索と,学習に基づく量子システム認証の2つを推し進めた。
我々は、量子情報処理プロトコル、ハミルトンシミュレーション、最大60量子ビットの変分量子アルゴリズムを含む様々なシナリオで提案を検証するために数値シミュレーションを行う。
The vast and complicated large-qubit state space forbids us to comprehensively capture the dynamics of modern quantum computers via classical simulations or quantum tomography. However, recent progress in quantum learning theory invokes a crucial question: given a quantum circuit containing d tunable RZ gates and G-d Clifford gates, can a learner perform purely classical inference to efficiently predict its linear properties using new classical inputs, after learning from data obtained by incoherently measuring states generated by the same circuit but with different classical inputs? In this work, we prove that the sample complexity scaling linearly in d is necessary and sufficient to achieve a small prediction error, while the corresponding computational complexity may scale exponentially in d. Building upon these derived complexity bounds, we further harness the concept of classical shadow and truncated trigonometric expansion to devise a kernel-based learning model capable of trading off prediction error and computational complexity, transitioning from exponential to polynomial scaling in many practical settings. Our results advance two crucial realms in quantum computation: the exploration of quantum algorithms with practical utilities and learning-based quantum system certification. We conduct numerical simulations to validate our proposals across diverse scenarios, encompassing quantum information processing protocols, Hamiltonian simulation, and variational quantum algorithms up to 60 qubits. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# 近赤外及び中赤外における超広帯域非縮退誘導光子源
Ultra-broadband non-degenerate guided-wave bi-photon source in the near and mid-infrared ( http://arxiv.org/abs/2408.12203v1 ) ライセンス: Link先を確認 | Franz Roeder, Abira Gnanavel, René Pollmann, Olga Brecht, Michael Stefszky, Laura Padberg, Christof Eigner, Christine Silberhorn, Benjamin Brecht, | (参考訳) 超高速量子メートル法における最新の応用は、中赤外にある光子と近赤外にある可視光子を持つ明るいブロードバンド双光子源を必要とする。
しかし、バルク結晶に基づく既存の光源は、相互作用長が短いため輝度が制限されており、分散工学に限られる。
ここでは、Ti:LiNbO$_3$導波路をベースとし、中心波長が860\,\mathrm{nm}$および2800\,\mathrm{nm}$でブロードバンドバイ光子を生成する統合PDC源を提案する。
それらの帯域幅は25\,\mathrm{THz}$を超え、信号とアイドラー場に対する群速度の同時一致と群速度分散のキャンセルによって達成される。
我々は、異なる温度とポンプ波長で源の挙動を研究することによって、その過程を直感的に理解し、シミュレーションとよく一致する。
The latest applications in ultrafast quantum metrology require bright, broadband bi-photon sources with one of the photons in the mid-infrared and the other in the visible to near infrared. However, existing sources based on bulk crystals are limited in brightness due to the short interaction length and only allow for limited dispersion engineering. Here, we present an integrated PDC source based on a Ti:LiNbO$_3$ waveguide that generates broadband bi-photons with central wavelengths at $860\,\mathrm{nm}$ and $2800\,\mathrm{nm}$. Their spectral bandwidth exceeds $25\,\mathrm{THz}$ and is achieved by simultaneous matching of the group velocities and cancellation of group velocity dispersion for the signal and idler field. We provide an intuitive understanding of the process by studying our source's behaviour at different temperatures and pump wavelengths, which agrees well with simulations. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# グラフ協調フィルタリングのための公正な拡張
Fair Augmentation for Graph Collaborative Filtering ( http://arxiv.org/abs/2408.12208v1 ) ライセンス: Link先を確認 | Ludovico Boratto, Francesco Fabbri, Gianni Fenu, Mirko Marras, Giacomo Medda, | (参考訳) 近年のレコメンデーションは,ユーザ-イットネットワークからユーザの好みを学習する上で,グラフニューラルネットワーク(GNN)の協調力を活用している。
自動システムの公正性に対処する新たな規制にもかかわらず、グラフ協調フィルタリングにおける不公平性問題は、特に消費者の視点からは、未解明のままである。
消費者の不公平に対する多くの貢献にもかかわらず、これらの作品のいくつかだけがGNNに移行している。
最新の緩和アルゴリズムの形式化や、最先端モデルの有効性と信頼性に顕著なギャップがある。
本報告は, グラフ協調フィルタリングにおける不公平性問題に焦点をあてた最近の研究に対して, 最新の緩和手法の1つを再現することによって, 確固たる対応を図ったものである。
再現された手法は、公正グラフ拡張を学習することにより、システムフェアネスレベルを調整する。
11のGNNモデル,5つの非GNNモデル,および5つの異なる領域にわたる実世界のネットワークに基づく実験的な設定の下で,本研究では,グラフ拡張が高ユーティリティモデルと大規模データセットに対して一貫して有効であることを明らかにした。
公正グラフの転送可能性に関する実験は、今後の推奨研究に新たな課題を開放する。
ソースコード:https://github.com/jackmedda/FA4GCF。
Recent developments in recommendation have harnessed the collaborative power of graph neural networks (GNNs) in learning users' preferences from user-item networks. Despite emerging regulations addressing fairness of automated systems, unfairness issues in graph collaborative filtering remain underexplored, especially from the consumer's perspective. Despite numerous contributions on consumer unfairness, only a few of these works have delved into GNNs. A notable gap exists in the formalization of the latest mitigation algorithms, as well as in their effectiveness and reliability on cutting-edge models. This paper serves as a solid response to recent research highlighting unfairness issues in graph collaborative filtering by reproducing one of the latest mitigation methods. The reproduced technique adjusts the system fairness level by learning a fair graph augmentation. Under an experimental setup based on 11 GNNs, 5 non-GNN models, and 5 real-world networks across diverse domains, our investigation reveals that fair graph augmentation is consistently effective on high-utility models and large datasets. Experiments on the transferability of the fair augmented graph open new issues for future recommendation studies. Source code: https://github.com/jackmedda/FA4GCF. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# 極小超過リスク最適化のためのゼロ階確率ミラーDescentアルゴリズム
Zeroth-Order Stochastic Mirror Descent Algorithms for Minimax Excess Risk Optimization ( http://arxiv.org/abs/2408.12209v1 ) ライセンス: Link先を確認 | Zhihao Gu, Zi Xu, | (参考訳) ミニマックス超過リスク最適化(MERO)問題は、従来の分散ロバスト最適化(DRO)問題の新たなバリエーションであり、適切な条件下での全てのテスト分布に対する一様に低い後悔を実現する。
本稿では,スムーズかつ非スムーズなMEROにおいて,各分散の最小リスクを推定するために,ゼロ階確率鏡降下(ZO-SMD)アルゴリズムを提案する。
提案アルゴリズムは、R_i^*$ と $\mathcal{O}\left(1/\sqrt{t}\right)$ の最適収束率で収束することが証明された。
計算結果は,提案アルゴリズムの効率性を示す。
The minimax excess risk optimization (MERO) problem is a new variation of the traditional distributionally robust optimization (DRO) problem, which achieves uniformly low regret across all test distributions under suitable conditions. In this paper, we propose a zeroth-order stochastic mirror descent (ZO-SMD) algorithm available for both smooth and non-smooth MERO to estimate the minimal risk of each distrbution, and finally solve MERO as (non-)smooth stochastic convex-concave (linear) minimax optimization problems. The proposed algorithm is proved to converge at optimal convergence rates of $\mathcal{O}\left(1/\sqrt{t}\right)$ on the estimate of $R_i^*$ and $\mathcal{O}\left(1/\sqrt{t}\right)$ on the optimization error of both smooth and non-smooth MERO. Numerical results show the efficiency of the proposed algorithm. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# 適応的特徴集約を伴う3ストリーム時空間GCNモデルを用いたコンピュータ支援フォール認識
Computer-Aided Fall Recognition Using a Three-Stream Spatial-Temporal GCN Model with Adaptive Feature Aggregation ( http://arxiv.org/abs/2408.12211v1 ) ライセンス: Link先を確認 | Jungpil Shin, Abu Saleh Musa Miah, Rei Egawa1, Koki Hirooka, Md. Al Mehedi Hasan, Yoichi Tomioka, Yong Seok Hwang, | (参考訳) 転倒の予防は、特に高齢者にとって現代医療において最重要であり、転倒は重傷や死に至る可能性がある。
さらに、高齢者の転倒の発生率の増加と、薬物過剰摂取による自殺未遂の予防の必要性が相まって、正確かつ効率的な転倒検出方法の重要性を浮き彫りにしている。
このシナリオでは、高齢者の生活を救うために、コンピュータ支援による転倒検知システムが必然的に必要である。
多くの研究者が転倒検知システムの開発に取り組んでいる。
しかし、既存の転倒検知システムは、性能の正確さ、頑健さの制限、高い計算複雑性、そして効果的な特徴の欠如による環境要因への敏感さといった問題に悩まされることが多い。
これらの課題に対応するために,本稿では,新しい3ストリーム時空間特徴に基づく転倒検出システムを提案する。
本システムでは, 関節骨格を用いた空間的・時間的グラフ畳み込みネットワーク(GCN)機能, 関節運動に基づく空間的・時間的GCN機能, および残存接続に基づく特徴を取り入れた。
各ストリームは適応的なグラフベースの特徴集約と連続的に分離可能な畳み込みニューラルネットワーク(Sep-TCN)を使用し、従来のシステムと比較して計算複雑性とモデルパラメータを著しく低減する。
複数のデータセットにまたがる実験結果は,ImViA,UR-Fall,Fall-UP,FU-Kinectの各データセットで達成された99.51\%,99.15\%,99.79\%,99.85 \%の精度で,提案システムの有効性と効率性を示す。
本システムの顕著な性能は、現実の転倒検出シナリオにおける優位性、効率性、一般化性を強調し、医療と社会福祉の大幅な進歩を提供する。
The prevention of falls is paramount in modern healthcare, particularly for the elderly, as falls can lead to severe injuries or even fatalities. Additionally, the growing incidence of falls among the elderly, coupled with the urgent need to prevent suicide attempts resulting from medication overdose, underscores the critical importance of accurate and efficient fall detection methods. In this scenario, a computer-aided fall detection system is inevitable to save elderly people's lives worldwide. Many researchers have been working to develop fall detection systems. However, the existing fall detection systems often struggle with issues such as unsatisfactory performance accuracy, limited robustness, high computational complexity, and sensitivity to environmental factors due to a lack of effective features. In response to these challenges, this paper proposes a novel three-stream spatial-temporal feature-based fall detection system. Our system incorporates joint skeleton-based spatial and temporal Graph Convolutional Network (GCN) features, joint motion-based spatial and temporal GCN features, and residual connections-based features. Each stream employs adaptive graph-based feature aggregation and consecutive separable convolutional neural networks (Sep-TCN), significantly reducing computational complexity and model parameters compared to prior systems. Experimental results across multiple datasets demonstrate the superior effectiveness and efficiency of our proposed system, with accuracies of 99.51\%, 99.15\%, 99.79\% and 99.85 \% achieved on the ImViA, UR-Fall, Fall-UP and FU-Kinect datasets, respectively. The remarkable performance of our system highlights its superiority, efficiency, and generalizability in real-world fall detection scenarios, offering significant advancements in healthcare and societal well-being. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# プログラム合成のための関係分解
Relational decomposition for program synthesis ( http://arxiv.org/abs/2408.12212v1 ) ライセンス: Link先を確認 | Céline Hocquette, Andrew Cropper, | (参考訳) 複雑な機能タスクを単純なリレーショナル合成サブタスクに分解する新しいプログラム合成手法を提案する。
3つの挑戦的データセットに対して,既製の帰納型論理プログラミング(ILP)システムを用いて,本手法の有効性を実証する。
私たちの結果は
(i)関係表現は機能表現より優れ、
(II)リレーショナルエンコーディングを備えた既製のICPシステムは,ドメイン固有のアプローチよりも優れている。
We introduce a novel approach to program synthesis that decomposes complex functional tasks into simpler relational synthesis sub-tasks. We demonstrate the effectiveness of our approach using an off-the-shelf inductive logic programming (ILP) system on three challenging datasets. Our results show that (i) a relational representation can outperform a functional one, and (ii) an off-the-shelf ILP system with a relational encoding can outperform domain-specific approaches. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# UNCO: 大規模言語モデルによるニューラルコンビネーション最適化の統一を目指す
UNCO: Towards Unifying Neural Combinatorial Optimization through Large Language Model ( http://arxiv.org/abs/2408.12214v1 ) ライセンス: Link先を確認 | Xia Jiang, Yaoxin Wu, Yuan Wang, Yingqian Zhang, | (参考訳) 近年,組合せ最適化問題(COP)にニューラルネットワークを適用した研究が注目されている。
一般的な方法は、特定の問題に対して独立してディープモデルを訓練し、様々なCOPを同時に扱うための統一されたフレームワークを欠いている。
そこで本研究では,異なる種類のCOPを単一モデルで解くために,UNCO(Unified Neural combinatorial Optimization)フレームワークを提案する。
具体的には、自然言語を用いて異なるCOPに対してテキスト分散インスタンスを定式化し、それらを大言語モデル(LLM)によって同じ埋め込み空間にエンコードする。
得られた埋め込みは、問題固有のモジュールを持たないエンコーダ・デコーダモデルによりさらに進歩し、ソリューション構築の統一プロセスを容易にする。
我々はさらに、強化学習(CGERL)アルゴリズムを応用してUNCOモデルを訓練し、バニラ多目的学習よりも異なるCOP間で優れた性能を提供する。
実験により、UNCOモデルはシングルセッショントレーニング後に複数のCOPを解決でき、伝統的なベースラインや学習ベースのベースラインに匹敵する満足なパフォーマンスを達成できることが示された。
各COPで最高の性能を追求する代わりに,LCMに基づくタスクと数ショットの一般化の相乗効果を探求し,今後の研究を刺激する。
Recently, applying neural networks to address combinatorial optimization problems (COPs) has attracted considerable research attention. The prevailing methods always train deep models independently on specific problems, lacking a unified framework for concurrently tackling various COPs. To this end, we propose a unified neural combinatorial optimization (UNCO) framework to solve different types of COPs by a single model. Specifically, we use natural language to formulate text-attributed instances for different COPs and encode them in the same embedding space by the large language model (LLM). The obtained embeddings are further advanced by an encoder-decoder model without any problem-specific modules, thereby facilitating a unified process of solution construction. We further adopt the conflict gradients erasing reinforcement learning (CGERL) algorithm to train the UNCO model, delivering better performance across different COPs than vanilla multi-objective learning. Experiments show that the UNCO model can solve multiple COPs after a single-session training, and achieves satisfactory performance that is comparable to several traditional or learning-based baselines. Instead of pursuing the best performance for each COP, we explore the synergy between tasks and few-shot generalization based on LLM to inspire future work. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# 悪意メールの心理学的高度化の定量化
Quantifying Psychological Sophistication of Malicious Emails ( http://arxiv.org/abs/2408.12217v1 ) ライセンス: Link先を確認 | Theodore Longtchi, Rosana Montañez Rodriguez, Kora Gwartney, Ekzhin Ear, David P. Azari, Christopher P. Kelley, Shouhuai Xu, | (参考訳) Phishing、Spam、Scamなどの悪意あるメールは、サイバーソーシャルエンジニアリング攻撃の重要な種類の一つだ。
それらに対抗するための多くの防衛策にもかかわらず、問題はほとんど未解決のままである。
現在の防衛効果の非効率性は、これらの攻撃を成功させる心理的性質の表面的理解に起因していると考えられる。
この問題は、悪意のある電子メールの精神的な洗練、または短時間の洗練を調査する動機となる。
本稿では,心理学的手法,PTechs,心理学的戦術,PTacsという,高度化の重要かつ補完的な2つの側面に対応する革新的な枠組みを提案する。
これらのPTechsおよびPTacsのレンズを用いて、悪意ある電子メールの高度化を評価するために、人間の専門家のためのメトリクスとグレーディングルールを提案する。
本フレームワークの有用性を実証するために,4人の独立した学年が評価した1,036件の悪意あるメールをもとに事例研究を行った。
PTechs と PTacs の両面で共通点と異なるパターンを示しながら, 悪意ある電子メールは心理的に洗練されていることを示す。
以上の結果から, 従来の研究は, 注意グラフビングや偽装といった最も普及しているPTechや, フィット, フォーム, ファミリアリティといったPTacよりも, パースエンスやリワードなどのPTacの少ないPTechに対処することに注力していた可能性が示唆された。
また、社会的な出来事は、悪意のある電子メールを文脈的に分析する攻撃者によって広く悪用されていることもわかりました。
これらの発見を活用すれば、悪意のある電子メールに対する効果的な防御策の設計を導くことができる。
Malicious emails including Phishing, Spam, and Scam are one significant class of cyber social engineering attacks. Despite numerous defenses to counter them, the problem remains largely open. The ineffectiveness of current defenses can be attributed to our superficial understanding of the psychological properties that make these attacks successful. This problem motivates us to investigate the psychological sophistication, or sophistication for short, of malicious emails. We propose an innovative framework that accommodates two important and complementary aspects of sophistication, dubbed Psychological Techniques, PTechs, and Psychological Tactics, PTacs. We propose metrics and grading rules for human experts to assess the sophistication of malicious emails via the lens of these PTechs and PTacs. To demonstrate the usefulness of the framework, we conduct a case study based on 1,036 malicious emails assessed by four independent graders. Our results show that malicious emails are psychologically sophisticated, while exhibiting both commonalities and different patterns in terms of their PTechs and PTacs. Results also show that previous studies might have focused on dealing with the less proliferated PTechs such as Persuasion and PTacs such as Reward, rather than the most proliferated PTechs such as Attention Grabbing and Impersonation, and PTacs such as Fit and Form and Familiarity that are identified in this study. We also found among others that social events are widely exploited by attackers in contextualizing their malicious emails. These findings could be leveraged to guide the design of effective defenses against malicious emails. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# 入力出力階層的運動方程式
Input-Output Hierarchical Equations Of Motion ( http://arxiv.org/abs/2408.12221v1 ) ライセンス: Link先を確認 | Mauro Cirio, Pengfei Liang, Neill Lambert, | (参考訳) 我々は、非ガウス入力状態において初期準備され、非摂動的に量子システムと相互作用するボゾン環境の出力物理特性を計算するために、階層的な運動方程式(HEOM)の拡張版を導出する。
通常のHEOMに類似したスペクトル仮定は出力浴観測値を計算するために課されるが、入力状態をモデル化する必要はなく、時間依存的な方程式への寄与をもたらす。
与えられた所望の入力状態と出力可観測値に対して、正規HEOMを拡張するインデックスの範囲は、構成上は有界である。
全体として、この形式主義の目的は、非ガウス的入力状態をモデル化するためのHEOMフレームワークの効率と、ボソニックで非マルコフ的オープン量子系における環境観測可能のダイナミクスを活用することである。
We derive an extended version of the hierarchical equations of motion (HEOM) to compute output physical properties of a bosonic environment, which is allowed to be initially prepared at an earlier time in a non-Gaussian input state and then non-perturbatively interact with a quantum system. While spectral assumptions analogous to the ones used in the regular HEOM are imposed to compute output bath observables, they are not required to model input states, leading to time-dependent contributions to the equations. For a given desired input state and output observable, the range of the indexes extending the regular HEOM is, by construction, bounded. Overall, the aim of this formalism is to take advantage of the efficiency of the HEOM framework to model non-Gaussian input states and the dynamics of environmental observables in bosonic, non-Markovian open quantum systems. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# EvalYaks: CEFR B2 の自動スコーディングのためのインストラクションチューニングデータセットとLoRAファインチューニングモデル
EvalYaks: Instruction Tuning Datasets and LoRA Fine-tuned Models for Automated Scoring of CEFR B2 Speaking Assessment Transcripts ( http://arxiv.org/abs/2408.12226v1 ) ライセンス: Link先を確認 | Nicy Scaria, Silvester John Joseph Kennedy, Thomas Latinovich, Deepak Subramani, | (参考訳) Eラーニング環境でCEFRの音声評価を評価するための人間専門家を頼りにすると、どの程度の迅速かつ広範囲な評価を行うことができるかを制限するため、スケーラビリティの課題が生じる。
本研究の目的は,会話書き起こしからのeラーニング環境におけるCEFR B2英語音声評価の自動化である。
まず,CEFR B2話者試験において,グローバルおよびインド固有の文脈において,様々な基準において,オープンソースのLarge Language Models (LLMs) を指導し,候補者のパフォーマンスを評価する能力を評価する。
次に、専門家によるCEFR対応の合成会話データセットを作成し、異なる評価スコアで評価する。
さらに、英語の語彙プロファイル(CEFR B2レベルまで)とCEFR-SP WikiAutoデータセットから新しい命令調整データセットを開発する。
最後に、これらの新しいデータセットを用いて、Mistral Instruct 7B v0.2のパラメータ効率的な命令チューニングを行い、EvalYaksと呼ばれるモデルのファミリーを開発する。
この家系の4つのモデルは、CEFR B2言語試験の4つのセクションを評価するためのものであり、1つは、CEFRの語彙レベルを特定し、レベル固有の語彙を生成するためのものであり、もう1つは、CEFRのテキストレベルを検出し、レベル固有のテキストを生成するためのものである。
EvalYaksは平均許容精度96%、変量0.35の精度を達成し、次のベストモデルの3倍の精度で実行された。
高品質なCEFR-アライメントアセスメントデータで調整された7BパラメータLLM命令は、CEFR B2英語音声アセスメントを効果的に評価し、評価できることを示し、スケーラブルで自動化された言語習熟度評価のための有望なソリューションを提供する。
Relying on human experts to evaluate CEFR speaking assessments in an e-learning environment creates scalability challenges, as it limits how quickly and widely assessments can be conducted. We aim to automate the evaluation of CEFR B2 English speaking assessments in e-learning environments from conversation transcripts. First, we evaluate the capability of leading open source and commercial Large Language Models (LLMs) to score a candidate's performance across various criteria in the CEFR B2 speaking exam in both global and India-specific contexts. Next, we create a new expert-validated, CEFR-aligned synthetic conversational dataset with transcripts that are rated at different assessment scores. In addition, new instruction-tuned datasets are developed from the English Vocabulary Profile (up to CEFR B2 level) and the CEFR-SP WikiAuto datasets. Finally, using these new datasets, we perform parameter efficient instruction tuning of Mistral Instruct 7B v0.2 to develop a family of models called EvalYaks. Four models in this family are for assessing the four sections of the CEFR B2 speaking exam, one for identifying the CEFR level of vocabulary and generating level-specific vocabulary, and another for detecting the CEFR level of text and generating level-specific text. EvalYaks achieved an average acceptable accuracy of 96%, a degree of variation of 0.35 levels, and performed 3 times better than the next best model. This demonstrates that a 7B parameter LLM instruction tuned with high-quality CEFR-aligned assessment data can effectively evaluate and score CEFR B2 English speaking assessments, offering a promising solution for scalable, automated language proficiency evaluation. | 翻訳日:2024-08-23 14:43:27 公開日:2024-08-22 |
# マルコフ量子力学におけるエントロピー移動の2時間測定
Two-Time Measurement of Entropy Transfer in Markovian Quantum Dynamics ( http://arxiv.org/abs/2408.12231v1 ) ライセンス: Link先を確認 | A. Joye, C. -A. Pillet, | (参考訳) いくつかの熱浴とのカップリングにより熱平衡から引き出された量子開系におけるエントロピー観測器の2回測定のためのプロトコルを検討する。
我々は、時間進化のマルコフ近似に集中し、そのような定義されたエントロピー変動の期待値と、レボリッツとスポンによるエントロピー生成のよく知られた表現を関連付ける。
我々は、詳細なバランス条件の下で、副産物として、2時間測定の結果の確率は、マルコフ量子力学のリンドブラッド生成器によって決定される連続時間マルコフ過程によって与えられることを示す。
We consider a protocol for the two-time measurement of entropic observables in quantum open systems driven out of thermal equilibrium by coupling to several heat baths. We concentrate on the Markovian approximation of the time-evolution and relate the expected value of the so defined entropy variations with the well-known expression of entropy production due to Lebowitz and Spohn. We do so under the detailed balance condition and, as a byproduct, we show that the probabilities of outcomes of two-time measurements are given by a continuous time Markov process determined by the Lindblad generator of the Markovian quantum dynamics. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# BihoT: ハイパースペクトルカモフラージュオブジェクト追跡のための大規模データセットとベンチマーク
BihoT: A Large-Scale Dataset and Benchmark for Hyperspectral Camouflaged Object Tracking ( http://arxiv.org/abs/2408.12232v1 ) ライセンス: Link先を確認 | Hanzheng Wang, Wei Li, Xiang-Gen Xia, Qian Du, | (参考訳) ハイパースペクトル物体追跡(HOT)は様々な用途、特に被写体がカモフラージュされた場面に可能性を示した。
既存のトラッカーは、既存のHOTデータセットに偏りがあり、ほとんどのオブジェクトはスペクトル特性よりも視覚的外観を区別する傾向があるため、バンド再編成によって効果的にオブジェクトを検索できる。
このバイアスにより、トラッカーは、スペクトル特徴を抽出することなく、ハイパースペクトル画像によって生成された偽色画像から得られる視覚的特徴を直接使用することができる。
このバイアスに対処するために、トラッカーは、オブジェクトの外観が信頼できない場合にスペクトル情報に集中すべきである。
そこで我々は、ハイパースペクトルカモフラージュオブジェクトトラッキング(HCOT)と呼ばれる新しいタスクを提供し、49の動画シーケンスをカバーする41,912のハイパースペクトル画像からなる大規模HCOTデータセット、BihoTを慎重に構築する。
データセットは、オブジェクトが類似した外観、多様なスペクトル、頻繁な閉塞を持つ様々な人工カモフラージュシーンをカバーしており、HCOTにとって非常に難しいデータセットである。
また、スペクトル埋め込みネットワーク(SEN)、スペクトルインプロンプトベースバックボーンネットワーク(SPBN)、およびイントラクタ・アウェアモジュール(DAM)からなる、単純だが効果的なベースラインモデル(SPDAN)を提案する。
具体的には、SENは3次元と2次元の畳み込みによってスペクトル空間の特徴を抽出する。
そして、SPBNファインチューニングの強力なRGBトラッカーにスペクトルプロンプトを付与し、トレーニングサンプルの不十分さを軽減する。
さらに、DAMは、対象物や背景からの隠蔽によって引き起こされる散逸を捉えるために、新しい統計量を利用する。
広汎な実験により提案したSPDANは,提案したBihoTおよび他のHOTデータセット上で最先端の性能を達成することが示された。
Hyperspectral object tracking (HOT) has exhibited potential in various applications, particularly in scenes where objects are camouflaged. Existing trackers can effectively retrieve objects via band regrouping because of the bias in existing HOT datasets, where most objects tend to have distinguishing visual appearances rather than spectral characteristics. This bias allows the tracker to directly use the visual features obtained from the false-color images generated by hyperspectral images without the need to extract spectral features. To tackle this bias, we find that the tracker should focus on the spectral information when object appearance is unreliable. Thus, we provide a new task called hyperspectral camouflaged object tracking (HCOT) and meticulously construct a large-scale HCOT dataset, termed BihoT, which consists of 41,912 hyperspectral images covering 49 video sequences. The dataset covers various artificial camouflage scenes where objects have similar appearances, diverse spectrums, and frequent occlusion, making it a very challenging dataset for HCOT. Besides, a simple but effective baseline model, named spectral prompt-based distractor-aware network (SPDAN), is proposed, comprising a spectral embedding network (SEN), a spectral prompt-based backbone network (SPBN), and a distractor-aware module (DAM). Specifically, the SEN extracts spectral-spatial features via 3-D and 2-D convolutions. Then, the SPBN fine-tunes powerful RGB trackers with spectral prompts and alleviates the insufficiency of training samples. Moreover, the DAM utilizes a novel statistic to capture the distractor caused by occlusion from objects and background. Extensive experiments demonstrate that our proposed SPDAN achieves state-of-the-art performance on the proposed BihoT and other HOT datasets. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# MedDiT:仮想シミュレーション患者の動的医用画像生成のための知識制御拡散変圧器フレームワーク
MedDiT: A Knowledge-Controlled Diffusion Transformer Framework for Dynamic Medical Image Generation in Virtual Simulated Patient ( http://arxiv.org/abs/2408.12236v1 ) ライセンス: Link先を確認 | Yanzeng Li, Cheng Zeng, Jinchao Zhang, Jie Zhou, Lei Zou, | (参考訳) 医学教育は、シミュレーション患者(SP)に大きく依存しており、学生が医療画像分析を含む臨床スキルを実践するための安全な環境を提供する。
しかし、有能なSPを雇うための高コストと多様な医療画像データセットの欠如は、大きな課題を呈している。
これらの課題に対処するため,本論文では,患者に模擬された医用画像を動的に生成し,多様な診断スキルトレーニングを可能にする,知識制御型会話フレームワークであるMedDiTを紹介する。
具体的には、MedDiTは、患者の属性と症状を記述した様々な患者知識グラフ(KG)を統合し、大規模言語モデル(LLM)の動作を動的に促進し、患者の特徴を制御し、医療会話中の幻覚を緩和する。
さらに、KGの特定患者属性に応じて医用画像を生成するために、よく調整された拡散変換器(DiT)モデルが組み込まれている。
本稿では,MedDiTを実演し,多様なシミュレートされた患者に作用し,対応する医用画像を生成する能力を示す。
これにより、学生に豊富なインタラクティブな学習体験を提供し、将来の医療専門家に没入型シミュレーションプラットフォームを提供することで、医学教育を推進できる。
この研究は、LLM、KG、DiTといった先進技術が教育応用に取り入れられる可能性を強調し、シミュレートされた患者ベースの医療教育で直面する課題に対処する可能性を強調している。
Medical education relies heavily on Simulated Patients (SPs) to provide a safe environment for students to practice clinical skills, including medical image analysis. However, the high cost of recruiting qualified SPs and the lack of diverse medical imaging datasets have presented significant challenges. To address these issues, this paper introduces MedDiT, a novel knowledge-controlled conversational framework that can dynamically generate plausible medical images aligned with simulated patient symptoms, enabling diverse diagnostic skill training. Specifically, MedDiT integrates various patient Knowledge Graphs (KGs), which describe the attributes and symptoms of patients, to dynamically prompt Large Language Models' (LLMs) behavior and control the patient characteristics, mitigating hallucination during medical conversation. Additionally, a well-tuned Diffusion Transformer (DiT) model is incorporated to generate medical images according to the specified patient attributes in the KG. In this paper, we present the capabilities of MedDiT through a practical demonstration, showcasing its ability to act in diverse simulated patient cases and generate the corresponding medical images. This can provide an abundant and interactive learning experience for students, advancing medical education by offering an immersive simulation platform for future healthcare professionals. The work sheds light on the feasibility of incorporating advanced technologies like LLM, KG, and DiT in education applications, highlighting their potential to address the challenges faced in simulated patient-based medical education. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# ウェイトスコープアライメント: モデルマージのフラストレーションが簡単な方法
Weight Scope Alignment: A Frustratingly Easy Method for Model Merging ( http://arxiv.org/abs/2408.12237v1 ) ライセンス: Link先を確認 | Yichu Xu, Xin-Chun Li, Le Gan, De-Chuan Zhan, | (参考訳) モデルのマージは、モデルの効率性と堅牢性を考えるいくつかのアプリケーションにおいて、基本的な手順となる。
トレーニングランダム性や非I.I.D.データは、平均的なモデル融合にとって大きな課題となる。
従来の研究は、モデル間の重量範囲のバリエーションを見越しながら平均化を強化するために、要素ワイドな正規化やニューラルな置換に重点を置いており、マージの有効性に大きな影響を及ぼす可能性がある。
本稿では,異なるトレーニング条件下での重量範囲の変化を明らかにする。
幸いなことに、各層のパラメータは基本的にガウス分布に従っており、これはウェイトスコープアライメント(WSA)という新しい単純な正規化アプローチを刺激している。
主なコンポーネントは2つある。
1) 対象の重量範囲を活用してモデルのトレーニングプロセスをガイドし、その後のモデルマージにおける重量範囲マッチングを保証する。
2) 2つ以上のモデルの重量範囲を多段モデル融合のための統一モデルに融合させる。
WSAの正規化は、モード接続性(Mode Connectivity)とフェデレートラーニング(Federated Learning)の2つのシナリオに拡張します。
実験結果から, 本手法の有効性を検証した。
Merging models becomes a fundamental procedure in some applications that consider model efficiency and robustness. The training randomness or Non-I.I.D. data poses a huge challenge for averaging-based model fusion. Previous research efforts focus on element-wise regularization or neural permutations to enhance model averaging while overlooking weight scope variations among models, which can significantly affect merging effectiveness. In this paper, we reveal variations in weight scope under different training conditions, shedding light on its influence on model merging. Fortunately, the parameters in each layer basically follow the Gaussian distribution, which inspires a novel and simple regularization approach named Weight Scope Alignment (WSA). It contains two key components: 1) leveraging a target weight scope to guide the model training process for ensuring weight scope matching in the subsequent model merging. 2) fusing the weight scope of two or more models into a unified one for multi-stage model fusion. We extend the WSA regularization to two different scenarios, including Mode Connectivity and Federated Learning. Abundant experimental studies validate the effectiveness of our approach. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# タイムド・オパチーの明るい面
The Bright Side of Timed Opacity ( http://arxiv.org/abs/2408.12240v1 ) ライセンス: Link先を確認 | Étienne André, Sarah Dépernet, Engel Lefaucheux, | (参考訳) 2009年、フランク・カッシーズ(Franck Cassez)は、攻撃者がタイムスタンプで何らかの行動を観察し、情報を引き出そうとするタイムド・オートマトン(TA)では決定不可能であることを示した。
さらに彼は、イベント記録オートマトンのようなサブクラスに対しても、決定不能が成り立つことを示した。
本稿では、クロック数、動作数、時間の性質、あるいは観測可能なイベント記録オートマトンと呼ばれる新しいサブクラスに制限を加えて、TAの他のいくつかのサブクラスに対する不透明性の定義について考察する。
その結果,不透明度は1時間TAと1時間TAのエプシロン交換を除いてほぼ回収可能であることが判明した。
次に,攻撃者による観察回数が制限された新たな決定可能なサブクラスを示す。
In 2009, Franck Cassez showed that the timed opacity problem, where an attacker can observe some actions with their timestamps and attempts to deduce information, is undecidable for timed automata (TAs). Moreover, he showed that the undecidability holds even for subclasses such as event-recording automata. In this article, we consider the same definition of opacity for several other subclasses of TAs: with restrictions on the number of clocks, of actions, on the nature of time, or on a new subclass called observable event-recording automata. We show that opacity can mostly be retrieved, except for one-action TAs and for one-clock TAs with epsilon-transitions, for which undecidability remains. We then exhibit a new decidable subclass in which the number of observations made by the attacker is limited. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# 集合励起超放射光における散逸相転移とメトロジー
Dissipative phase transition and metrology in collectively pumped superradiance ( http://arxiv.org/abs/2408.12243v1 ) ライセンス: Link先を確認 | Yoav Shimshi, Ephraim Shahmoon, | (参考訳) 我々は,共振器QEDプラットフォームにおいて,共振器の集合崩壊と共振器の集合励起,関連するegの2つの競合する集合過程を示す多原子系について検討した。
その結果, 定常状態は, 完全非人口状態と完全人口状態の間に, ポンプ強度の関数として急激な遷移を示すことがわかった。
臨界点付近のポンピングを走査し,その感度が1/Nとスケールし,相関関係の蓄積により標準量子限界を上回り,システムパラメータを測定するためのメロジカルプロトコルを考案した。
重要なことに、我々の理論的分析は無限のスキャンタイムの断熱的な状態を超えており、遷移とその感度に対する非平衡緩和ダイナミクスを研究し、好ましい1/Nのスケーリングが断熱性を超えて生き残ることを示した。
超放射能原子系によるメトロジーへの直接的な影響とは別に、我々の一般分析は、現実的な有限時間プロトコルにおける散逸相転移のメトロジー的有用性を研究するための新しい視点を提供する。
We study a many-atom system exhibiting two competing collective processes: collective decay and collective pumping of excitations, relevant e.g. in cavity QED platforms. We find that the steady state exhibits a sharp transition as a function of the pumping strength, between fully depopulated and fully populated states. We devise a metrological protocol for measuring system parameters by scanning the pumping around the critical point, finding that the sensitivity scales as 1/N , thus beating the standard quantum limit thanks to the buildup of correlations. Crucially, our theoretical analysis, verified numerically, goes beyond the adiabatic regime of an infinite scan time: we study non-equilibrium relaxation dynamics around the transition and their effect on the sensitivity, revealing that the favorable 1/N scaling survives well beyond adiabaticity. Apart from its direct impact on metrology with superradiant atomic systems, our general analysis provides new perspectives for studying the metrological utility of dissipative phase transitions in realistic finite-time protocols. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# Mambaによるスケーラブルな自己回帰画像生成
Scalable Autoregressive Image Generation with Mamba ( http://arxiv.org/abs/2408.12245v1 ) ライセンス: Link先を確認 | Haopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li, | (参考訳) 本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。
AiMは、線形時間複雑性を持つ長周期モデリングに特有な性能を特徴とする新しい状態空間モデルであるMambaを用いて、AR画像生成モデルによく使われるトランスフォーマーを置き換え、より優れた生成品質と推論速度の両立を図っている。
多方向スキャンによる2次元信号の処理にMambaを適用する既存の手法とは異なり、AiMは自動回帰画像生成に次世代の予測パラダイムを直接利用している。
このアプローチは、Mambaが2次元空間表現を学習できるようにするために、広範囲な修正が必要であることを回避している。
視覚的生成タスクに対して、単純かつ戦略的に標的とした修正を実装することで、Mambaのコア構造を保存し、その効率的なロングシーケンスモデリング機能とスケーラビリティを完全に活用する。
パラメータ数は128Mから1.3Bまで様々である。
ImageNet1K 256*256ベンチマークでは、私たちの最高のAiMモデルは2.21のFIDを達成し、パラメータ数に匹敵する既存のARモデルをすべて上回り、2~10倍の推論速度で拡散モデルに対して大きな競争力を示す。
コードはhttps://github.com/hp-l33/AiMで入手できる。
We introduce AiM, an autoregressive (AR) image generative model based on Mamba architecture. AiM employs Mamba, a novel state-space model characterized by its exceptional performance for long-sequence modeling with linear time complexity, to supplant the commonly utilized Transformers in AR image generation models, aiming to achieve both superior generation quality and enhanced inference speed. Unlike existing methods that adapt Mamba to handle two-dimensional signals via multi-directional scan, AiM directly utilizes the next-token prediction paradigm for autoregressive image generation. This approach circumvents the need for extensive modifications to enable Mamba to learn 2D spatial representations. By implementing straightforward yet strategically targeted modifications for visual generative tasks, we preserve Mamba's core structure, fully exploiting its efficient long-sequence modeling capabilities and scalability. We provide AiM models in various scales, with parameter counts ranging from 148M to 1.3B. On the ImageNet1K 256*256 benchmark, our best AiM model achieves a FID of 2.21, surpassing all existing AR models of comparable parameter counts and demonstrating significant competitiveness against diffusion models, with 2 to 10 times faster inference speed. Code is available at https://github.com/hp-l33/AiM | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# OVA-DETR:画像テキストアライメントと融合を用いたオープンボキャブラリ空中物体検出
OVA-DETR: Open Vocabulary Aerial Object Detection Using Image-Text Alignment and Fusion ( http://arxiv.org/abs/2408.12246v1 ) ライセンス: Link先を確認 | Guoting Wei, Xia Yuan, Yu Liu, Zhenhao Shang, Kelu Yao, Chao Li, Qingsen Yan, Chunxia Zhao, Haokui Zhang, Rong Xiao, | (参考訳) 広範囲のアプリケーション要件のため、空中オブジェクト検出は長年にわたってホットな話題となっている。
しかし、既存のほとんどのアプローチは、定義済みのカテゴリのみを扱うことができ、現実世界のオープンシナリオの適用性を制限することができる。
本稿では, 画像とテキストの関係を利用して, 航空物体の検出を開放シナリオにまで拡張し, 航空画像の高精度オープンボキャブラリ検出器であるOVA-DETRを提案する。
具体的には、画像テキストアライメントの考え方に基づいて、従来の検出フレームワークにおけるカテゴリ回帰損失を置き換えるために、領域テキストコントラスト損失を提案する。
次に,双方向ビジョン・ランゲージ・フュージョン (Bidirectional Vision-Language Fusion, Bi-VLF) を提案する。
デュアルアテンション融合エンコーダは、エンコーダ部の特徴抽出プロセスを強化する。
マルチレベルテキスト誘導型フュージョンデコーダは、空中物体検出シナリオに頻繁に現れる小さな物体の検出能力を改善するように設計されている。
提案手法は,より高速な推論速度を保ちながら,mAPとリコールを大幅に改善することを示す。
例えば、DIOR上のゼロショット検出実験では、提案されたOVA-DETRは、それぞれDescRegとYOLO-Worldを37.4%、33.1%上回り、87 FPS推論速度はDescRegより7.9倍、YOLO-Worldより3倍速い。
コードはhttps://github.com/GT-Wei/OVA-DETRで公開されている。
Aerial object detection has been a hot topic for many years due to its wide application requirements. However, most existing approaches can only handle predefined categories, which limits their applicability for the open scenarios in real-world. In this paper, we extend aerial object detection to open scenarios by exploiting the relationship between image and text, and propose OVA-DETR, a high-efficiency open-vocabulary detector for aerial images. Specifically, based on the idea of image-text alignment, we propose region-text contrastive loss to replace the category regression loss in the traditional detection framework, which breaks the category limitation. Then, we propose Bidirectional Vision-Language Fusion (Bi-VLF), which includes a dual-attention fusion encoder and a multi-level text-guided Fusion Decoder. The dual-attention fusion encoder enhances the feature extraction process in the encoder part. The multi-level text-guided Fusion Decoder is designed to improve the detection ability for small objects, which frequently appear in aerial object detection scenarios. Experimental results on three widely used benchmark datasets show that our proposed method significantly improves the mAP and recall, while enjoying faster inference speed. For instance, in zero shot detection experiments on DIOR, the proposed OVA-DETR outperforms DescReg and YOLO-World by 37.4% and 33.1%, respectively, while achieving 87 FPS inference speed, which is 7.9x faster than DescReg and 3x faster than YOLO-world. The code is available at https://github.com/GT-Wei/OVA-DETR. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# 大規模Webサービスにおける転送学習による多変量時系列異常検出の効率化
Efficient Multivariate Time Series Anomaly Detection Through Transfer Learning for Large-Scale Web services ( http://arxiv.org/abs/2408.12247v1 ) ライセンス: Link先を確認 | Shenglin Zhang, Pengtian Zhu, Minghua Ma, Jiagang Wang, Yongqian Sun, Dongwen Li, Jingyu Wang, Qianying Guo, Xiaolei Hua, Lin Zhu, Dan Pei, | (参考訳) 大規模言語モデル(LLM)は、一般的な質問回答(Q&A)では優れているが、ドメイン固有の知識が不足しているため、専門分野では不足することが多い。
企業では、微調整のためにLLMを巻き込む場合、プライバシー保護とリソース制約という2つの課題に直面している。
本稿では,複数の反復的な微調整ラウンドを通じて軽量なLLMを活用することで,これらの問題に対処する新しいフレームワークであるSelf-Evolutionを提案する。
反復的微調整の効率を高めるために、Self-Evolutionでは、反復的プロセス中に高い価値で知識をフィルタリングし強化する戦略を採用している。
また,Qwen1.5-7B-ChatよりもQwen1.5-7B-Chat,さらにQwen1.5-72B-Chatより22%高い結果を得た。
セルフエボリューション(Self-Evolution)は、中国モバイルの日常業務とメンテナンスに117日間展開され、アラームの発見、問題修正、および関連する報告の発見の効率を改善し、18.6%以上の効率改善を実現している。
さらに、私たちはSelf-Evolutionフレームワークのコードをhttps://github.com/Zero-Pointer/Self-Evolutionでリリースしています。
Large language models (LLMs) excel at general question-answering (Q&A) but often fall short in specialized domains due to a lack of domain-specific knowledge. Commercial companies face the dual challenges of privacy protection and resource constraints when involving LLMs for fine-tuning. This paper propose a novel framework, Self-Evolution, designed to address these issues by leveraging lightweight open-source LLMs through multiple iterative fine-tuning rounds. To enhance the efficiency of iterative fine-tuning, Self-Evolution employ a strategy that filters and reinforces the knowledge with higher value during the iterative process. We employed Self-Evolution on Qwen1.5-7B-Chat using 4,000 documents containing rich domain knowledge from China Mobile, achieving a performance score 174% higher on domain-specific question-answering evaluations than Qwen1.5-7B-Chat and even 22% higher than Qwen1.5-72B-Chat. Self-Evolution has been deployed in China Mobile's daily operation and maintenance for 117 days, and it improves the efficiency of locating alarms, fixing problems, and finding related reports, with an average efficiency improvement of over 18.6%. In addition, we release Self-Evolution framework code in https://github.com/Zero-Pointer/Self-Evolution. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# PRG:プロキシリレーショナルグラフによるアノテーションのないプロンプトベースの蒸留
PRG: Prompt-Based Distillation Without Annotation via Proxy Relational Graph ( http://arxiv.org/abs/2408.12248v1 ) ライセンス: Link先を確認 | Yijin Xu, Jialun Liu, Hualiang Wei, Wenhui Li, | (参考訳) 本稿では,LFM(Large Foundation Models)から知識を軽量モデルに抽出する新しい蒸留法を提案する。
LFMはデータセット全体にわたって例外的なゼロショット分類能力を示すが、LFMの生成した蒸留への埋め込みのみに依存しているため、2つの大きな課題がある: LFMのタスク関連知識と特徴の高密度である。
タスク非関連知識の伝達は、学生モデルの識別能力を損なう可能性があり、ターゲット領域内の特徴の高密度さは、タスクに不可欠な識別的知識の抽出を妨げる。
この問題に対処するために,プロキシリレーショナルグラフ(PRG)法を提案する。
テキスト・プロンプトの埋め込みによって得られたロジットの重み付け平均を計算し,まず LFM からタスク関連知識を抽出する。
次に, LFMモデルと学生モデルのためのサンプルクラスプロキシグラフを構築し, サンプルとクラスプロキシの相関関係をモデル化する。
そして, LFMと学生モデルの両方で生成された関係グラフを整列させて, 選択的知識の蒸留を実現する。
具体的には, LFMから学生モデルへの蒸留は, 2種類のアライメントによって達成される。
1)学生モデルで作成したサンプルノードをFMで作成したノードと整合させ、
2)学生モデルのグラフのエッジ関係とLFMのグラフのエッジ関係の整合性について検討した。
実験の結果, PRGの有効性を検証し, LFMの広範な知識基盤を活用できると同時に, 集中学習シナリオにおける固有の制約を巧みに回避できることを示した。
特にアノテーションのないフレームワークでは、CIFAR-100では76.23\%(T:77.9\%)、ImageNet-1Kでは72.44\%(T:75.3\%)となる。
In this paper, we propose a new distillation method for extracting knowledge from Large Foundation Models (LFM) into lightweight models, introducing a novel supervision mode that does not require manually annotated data. While LFMs exhibit exceptional zero-shot classification abilities across datasets, relying solely on LFM-generated embeddings for distillation poses two main challenges: LFM's task-irrelevant knowledge and the high density of features. The transfer of task-irrelevant knowledge could compromise the student model's discriminative capabilities, and the high density of features within target domains obstructs the extraction of discriminative knowledge essential for the task. To address this issue, we introduce the Proxy Relational Graph (PRG) method. We initially extract task-relevant knowledge from LFMs by calculating a weighted average of logits obtained through text prompt embeddings. Then we construct sample-class proxy graphs for LFM and student models, respectively, to model the correlation between samples and class proxies. Then, we achieve the distillation of selective knowledge by aligning the relational graphs produced by both the LFM and the student model. Specifically, the distillation from LFM to the student model is achieved through two types of alignment: 1) aligning the sample nodes produced by the student model with those produced by the LFM, and 2) aligning the edge relationships in the student model's graph with those in the LFM's graph. Our experimental results validate the effectiveness of PRG, demonstrating its ability to leverage the extensive knowledge base of LFMs while skillfully circumventing their inherent limitations in focused learning scenarios. Notably, in our annotation-free framework, PRG achieves an accuracy of 76.23\% (T: 77.9\%) on CIFAR-100 and 72.44\% (T: 75.3\%) on the ImageNet-1K. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# LLMは生体情報抽出のためのゼロショット共振器ではない
LLMs are not Zero-Shot Reasoners for Biomedical Information Extraction ( http://arxiv.org/abs/2408.12249v1 ) ライセンス: Link先を確認 | Aishik Nagar, Viktor Schlegel, Thanh-Tung Nguyen, Hao Li, Yuping Wu, Kuluhan Binici, Stefan Winkler, | (参考訳) 大規模言語モデル(LLM)は、医療分野のアプリケーションにますます採用され、質問応答や文書要約といったタスクにおけるドメインエキスパートのパフォーマンスに到達している。
これらのタスクの成功にもかかわらず、構造化情報引き渡しなど、伝統的にバイオメディカル領域で追求されるタスクにおいて、LLMがどの程度うまく機能するかは明らかではない。
本稿では,このギャップを突破するために,医学分類と名前付きエンティティ認識(NER)タスクにおけるLCM性能を系統的にベンチマークする。
LLMのタスク知識と推論能力の影響、(パラメトリック)ドメイン知識、外部知識の追加など、パフォーマンスに対するさまざまな要因の貢献を解消することを目的としている。
この目的のために、標準プロンプト、CoT(Chain-of-Thought)、自己整合性に基づく推論、PubMedとWikipediaのコーパスを備えたRetrieval-Augmented Generation(RAG)を使用して、BioMistralとLlama-2モデルを含む様々なオープンLLMを、多様なバイオメディカルデータセットに基づいて評価しました。
この結果から,CoT,自己整合性,RAGのバイオメディカル領域での応用における限界を克服し,標準化の促進が両タスクのより複雑なテクニックを一貫して上回っていることが明らかとなった。
以上の結果から,CoTやRAGのような知識・推論集約的なタスクのために開発された高度なプロンプト法は,正確な構造化出力を必要とするバイオメディカルタスクに容易には適用できないことが示唆された。
このことは、現実世界のバイオメディカルアプリケーションの性能を高めるために、LCMにおける外部知識と推論メカニズムのより効果的な統合の必要性を強調している。
Large Language Models (LLMs) are increasingly adopted for applications in healthcare, reaching the performance of domain experts on tasks such as question answering and document summarisation. Despite their success on these tasks, it is unclear how well LLMs perform on tasks that are traditionally pursued in the biomedical domain, such as structured information extration. To breach this gap, in this paper, we systematically benchmark LLM performance in Medical Classification and Named Entity Recognition (NER) tasks. We aim to disentangle the contribution of different factors to the performance, particularly the impact of LLMs' task knowledge and reasoning capabilities, their (parametric) domain knowledge, and addition of external knowledge. To this end we evaluate various open LLMs -- including BioMistral and Llama-2 models -- on a diverse set of biomedical datasets, using standard prompting, Chain-of-Thought (CoT) and Self-Consistency based reasoning as well as Retrieval-Augmented Generation (RAG) with PubMed and Wikipedia corpora. Counter-intuitively, our results reveal that standard prompting consistently outperforms more complex techniques across both tasks, laying bare the limitations in the current application of CoT, self-consistency and RAG in the biomedical domain. Our findings suggest that advanced prompting methods developed for knowledge- or reasoning-intensive tasks, such as CoT or RAG, are not easily portable to biomedical tasks where precise structured outputs are required. This highlights the need for more effective integration of external knowledge and reasoning mechanisms in LLMs to enhance their performance in real-world biomedical applications. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# 人工知能は道徳的価値を具現化できるのか?
Can Artificial Intelligence Embody Moral Values? ( http://arxiv.org/abs/2408.12250v1 ) ライセンス: Link先を確認 | Torben Swoboda, Lode Lauwaert, | (参考訳) 中立性理論は、テクノロジーは価値に恵まれない、という主張である。
この長年にわたる見解は批判にさらされてきたが、中立に対する議論の多くは、橋やカミソリのような伝統的な非スマートな技術に焦点を当ててきた。
対照的に、AIは医療、金融、警察といった高度な領域でますます使われるスマートテクノロジーであり、その決定が道徳的害を引き起こす可能性がある。
本稿では,人工知能,特に自律的に目標を追求する決定を下す人工知能が中立論に挑むことを論じる。
我々の中心的な主張は、人工エージェントの根底にある計算モデルが、公正さ、正直さ、害を避けるといった道徳的価値の表現を統合することができるということである。
中立論、価値観、AIについて議論する概念的なフレームワークを提供する。
さらに、道徳、人工良心、倫理的促進の計算モデルを設計するための2つのアプローチと、そのようなモデルを持つ人工エージェントがこれらのモデルを持たないエージェントよりも倫理的行動を示すというテキストベースのゲーム環境からの経験的証拠を提示する。
この発見は、AIが道徳的価値を具現化できるということを支持しており、これは全ての技術が必ずしも価値中立であるという主張と矛盾している。
The neutrality thesis holds that technology cannot be laden with values. This long-standing view has faced critiques, but much of the argumentation against neutrality has focused on traditional, non-smart technologies like bridges and razors. In contrast, AI is a smart technology increasingly used in high-stakes domains like healthcare, finance, and policing, where its decisions can cause moral harm. In this paper, we argue that artificial intelligence, particularly artificial agents that autonomously make decisions to pursue their goals, challenge the neutrality thesis. Our central claim is that the computational models underlying artificial agents can integrate representations of moral values such as fairness, honesty and avoiding harm. We provide a conceptual framework discussing the neutrality thesis, values, and AI. Moreover, we examine two approaches to designing computational models of morality, artificial conscience and ethical prompting, and present empirical evidence from text-based game environments that artificial agents with such models exhibit more ethical behavior compared to agents without these models. The findings support that AI can embody moral values, which contradicts the claim that all technologies are necessarily value-neutral. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# Epsilon: マルチラベルゼロショット学習のための総合的なビジュアルセマンティック投影
Epsilon: Exploring Comprehensive Visual-Semantic Projection for Multi-Label Zero-Shot Learning ( http://arxiv.org/abs/2408.12253v1 ) ライセンス: Link先を確認 | Ziming Liu, Jingcai Guo, Song Guo, Xiaocheng Lu, | (参考訳) 本稿では,マルチラベルシナリオ(MLZSL)におけるゼロショット学習(ゼロショット学習)の課題について考察する。このモデルでは,見知らぬクラスと補助知識,例えばセマンティック情報に基づいて,サンプル(例えば画像)内の複数の未確認クラスを認識できるように訓練されている。
既存の方法は、通常、空間的または意味的な特性の次元からサンプルに居住する様々なクラスの関係を分析し、学習したモデルを目に見えないクラスに転送する。
しかし、彼らは地域的特徴とグローバルな特徴の完全性を無視している。
注意構造の使用は、特にオブジェクトの局所的な特徴を正確に特定するが、その完全性は著しく失われ、クラス間の関係も影響を受ける。
グローバル機能の粗い処理は、包括性にも直接影響を与える。
この無視により、モデルは画像の主要なコンポーネントを把握できなくなる。
推論段階における授業の局所的な存在のみを考慮すれば、避けられないバイアスが生じる。
本稿では,エプシロンと呼ばれるMLZSLのための新しいビジュアル・セマンティック・フレームワークを提案し,それらの特性を完全に活用し,より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
空間情報の観点からは,画像特徴を複数の意味的プロンプトにグループ化することで,効果的な改善を実現する。
クラス情報ではなくセマンティック情報を集約し、セマンティックス間の相関を保存する。
グローバルセマンティクスの観点では、グローバルフォワードプロパゲーションを使用して可能な限り多くの情報を収集し、セマンティクスが省略されないことを保証する。
大規模なMLZSLベンチマークデータセットであるNAS-WideとOpen-Images-v4の実験は、提案されたEpsilonが、大きなマージンを持つ他の最先端の手法よりも優れていることを示した。
This paper investigates a challenging problem of zero-shot learning in the multi-label scenario (MLZSL), wherein the model is trained to recognize multiple unseen classes within a sample (e.g., an image) based on seen classes and auxiliary knowledge, e.g., semantic information. Existing methods usually resort to analyzing the relationship of various seen classes residing in a sample from the dimension of spatial or semantic characteristics and transferring the learned model to unseen ones. However, they neglect the integrity of local and global features. Although the use of the attention structure will accurately locate local features, especially objects, it will significantly lose its integrity, and the relationship between classes will also be affected. Rough processing of global features will also directly affect comprehensiveness. This neglect will make the model lose its grasp of the main components of the image. Relying only on the local existence of seen classes during the inference stage introduces unavoidable bias. In this paper, we propose a novel and comprehensive visual-semantic framework for MLZSL, dubbed Epsilon, to fully make use of such properties and enable a more accurate and robust visual-semantic projection. In terms of spatial information, we achieve effective refinement by group aggregating image features into several semantic prompts. It can aggregate semantic information rather than class information, preserving the correlation between semantics. In terms of global semantics, we use global forward propagation to collect as much information as possible to ensure that semantics are not omitted. Experiments on large-scale MLZSL benchmark datasets NUS-Wide and Open-Images-v4 demonstrate that the proposed Epsilon outperforms other state-of-the-art methods with large margins. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# 子どもの言語習得の言語非依存モデル
A Language-agnostic Model of Child Language Acquisition ( http://arxiv.org/abs/2408.12254v1 ) ライセンス: Link先を確認 | Louis Mahon, Omri Abend, Uri Berger, Katherine Demuth, Mark Johnson, Mark Steedman, | (参考訳) この作業は、もともと英語用に設計された、最近のセマンティックブートストラップによる子供用言語獲得モデルを再実装し、新しい言語、ヘブライ語を学ぶように訓練する。
モデルは、意味表現としての発話と論理形式のペアから学習し、構文と単語の意味の両方を同時に取得する。
結果は、モデルが主にヘブライ語に移行することを示しているが、ヘブライ語のより豊かな形態学を含む多くの要因が、学習を遅く、より堅牢にしていることを示している。
このことは、将来の研究の明確な方向性として、モデルが異なる単語形式間の類似性を活用できるようにすることを示唆している。
This work reimplements a recent semantic bootstrapping child-language acquisition model, which was originally designed for English, and trains it to learn a new language: Hebrew. The model learns from pairs of utterances and logical forms as meaning representations, and acquires both syntax and word meanings simultaneously. The results show that the model mostly transfers to Hebrew, but that a number of factors, including the richer morphology in Hebrew, makes the learning slower and less robust. This suggests that a clear direction for future work is to enable the model to leverage the similarities between different word forms. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# メトリクスを信頼できますか? 自動結合によるメトリクス妥当性テスト
Can You Trust Your Metric? Automatic Concatenation-Based Tests for Metric Validity ( http://arxiv.org/abs/2408.12259v1 ) ライセンス: Link先を確認 | Ora Nova Fandina, Leshem Choshen, Eitan Farchi, George Kour, Yotam Perlitz, Orna Raz, | (参考訳) 大規模言語モデルによって生成された安全でない応答をフィルタリングするシステムによって有害度検出指標が使用されるシナリオを考えてみましょう。
個人が有害で非倫理的なプロンプト・レスポンスのペアを分析する際、基準はそれぞれのペアを高度に安全でないものとして正しく分類し、最高スコアを割り当てる。
しかし、これらの同じプロンプトと応答が結合されると、メートル法の決定は反転し、可能な限り低いスコアを割り当て、コンテンツの安全性を誤分類し、フィルタをバイパスする。
そこで本研究では,GPTをベースとしたLSMによる有害な指標が,この決定緩和現象を示すことを発見した。
さらに、GPT-4oのような高度な計量でさえ入力順序に非常に敏感であることがわかった。
具体的には、安全コンテンツが最初に現れる場合、次に続く有害コンテンツに関係なく、応答を安全であると分類する傾向があります。
この研究は、有効な計量が満たすべき基本特性を評価するために、自動連結ベースのテストを導入する。
これらの試験をモデル安全シナリオに適用し、有害度検出指標の信頼性を評価し、いくつかの矛盾点を明らかにした。
Consider a scenario where a harmfulness detection metric is employed by a system to filter unsafe responses generated by a Large Language Model. When analyzing individual harmful and unethical prompt-response pairs, the metric correctly classifies each pair as highly unsafe, assigning the highest score. However, when these same prompts and responses are concatenated, the metric's decision flips, assigning the lowest possible score, thereby misclassifying the content as safe and allowing it to bypass the filter. In this study, we discovered that several harmfulness LLM-based metrics, including GPT-based, exhibit this decision-flipping phenomenon. Additionally, we found that even an advanced metric like GPT-4o is highly sensitive to input order. Specifically, it tends to classify responses as safe if the safe content appears first, regardless of any harmful content that follows, and vice versa. This work introduces automatic concatenation-based tests to assess the fundamental properties a valid metric should satisfy. We applied these tests in a model safety scenario to assess the reliability of harmfulness detection metrics, uncovering a number of inconsistencies. | 翻訳日:2024-08-23 14:33:24 公開日:2024-08-22 |
# 指導テンプレート間のスコア変動を考慮した大規模言語モデルの評価に向けて
Toward the Evaluation of Large Language Models Considering Score Variance across Instruction Templates ( http://arxiv.org/abs/2408.12263v1 ) ライセンス: Link先を確認 | Yusuke Sakai, Adam Nohejl, Jiangnan Hang, Hidetaka Kamigaito, Taro Watanabe, | (参考訳) 大規模言語モデル(LLM)の自然言語理解(NLU)性能は,様々なタスクやデータセットで評価されている。
しかし、既存の評価手法では、プロンプトの違いによるスコアのばらつきを考慮せず、不公平な評価とNLU性能の比較につながる。
さらに、特定のプロンプトのために設計された評価は、任意のプロンプトでうまく機能することを目的とした命令チューニングには不適切である。
したがって、異なる命令テンプレート間のスコアのばらつきを考慮して、NLU性能を公平に測定する方法を見つける必要がある。
本研究では,各タスクを公平に評価するための複数の命令テンプレートと,出力形式を制約する正規表現を含む,LLMのNLU性能を評価するための英語と日本語の言語間データセットを提供する。
さらに,テンプレート間のスコアのばらつきを考慮した評価指標としてシャープスコアを提案する。
英語と日本語のLLMの包括的分析により,テンプレート間の高いばらつきがLLMの公平な評価に重大な影響を与えることが明らかとなった。
The natural language understanding (NLU) performance of large language models (LLMs) has been evaluated across various tasks and datasets. The existing evaluation methods, however, do not take into account the variance in scores due to differences in prompts, which leads to unfair evaluation and comparison of NLU performance. Moreover, evaluation designed for specific prompts is inappropriate for instruction tuning, which aims to perform well with any prompt. It is therefore necessary to find a way to measure NLU performance in a fair manner, considering score variance between different instruction templates. In this study, we provide English and Japanese cross-lingual datasets for evaluating the NLU performance of LLMs, which include multiple instruction templates for fair evaluation of each task, along with regular expressions to constrain the output format. Furthermore, we propose the Sharpe score as an evaluation metric that takes into account the variance in scores between templates. Comprehensive analysis of English and Japanese LLMs reveals that the high variance among templates has a significant impact on the fair evaluation of LLMs. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# 代数幾何学による絡み合いの分類
Classifying Entanglement by Algebraic Geometry ( http://arxiv.org/abs/2408.12265v1 ) ライセンス: Link先を確認 | Masoud Gharahi, | (参考訳) 量子エンタングルメント(Quantum Entanglement)は、量子領域と古典的領域を分離する量子力学の鍵となる現象の1つである。
量子技術の物理的資源としての絡み合いの特性が最重要となった。
複粒子系の絡み合いはすでによく理解されているが、多粒子系の絡み合いの性質に対処する究極の目標は、まだ実現されていない。
この論文は代数幾何学的ツールを用いた多部交絡の特徴を取り上げている。
まず,従来のSLOCC (Stochastic Local Operations with Classical Communication) の下で不変なSegre多様体の$k$-secant varietyと$$\ell$-multilinear rankでマルチパーティの絡み合いを分類するアルゴリズムを確立する。
本稿では,このアルゴリズムに基づくマルチキュービットおよびトリパルタイトエンタングルメントの微細構造分類について述べる。
量子情報理論のもう1つの根本的な問題は、多粒子系において非常に困難な絡み合い変換である。
代数幾何学による絡み合い分類は、それぞれテンソルランクと境界ランクに基づいて異なるリソース間でのSLOCCと漸近SLOCCの相互変換の研究の参考にすることができる。
この点に関して、我々は \emph{peristent tensors} と呼ぶテンソルの新しいクラスを導入し、それらのテンソル階数に対する下界を構築する。
さらに、永続テンソルの数族を考慮したマルチパーティイトシステムのSLOCC変換性について述べる。
Quantum Entanglement is one of the key manifestations of quantum mechanics that separate the quantum realm from the classical one. Characterization of entanglement as a physical resource for quantum technology became of uppermost importance. While the entanglement of bipartite systems is already well understood, the ultimate goal to cope with the properties of entanglement of multipartite systems is still far from being realized. This dissertation covers characterization of multipartite entanglement using algebraic-geometric tools. Firstly, we establish an algorithm to classify multipartite entanglement by $k$-secant varieties of the Segre variety and $\ell$-multilinear ranks that are invariant under Stochastic Local Operations with Classical Communication (SLOCC). We present a fine-structure classification of multiqubit and tripartite entanglement based on this algorithm. Another fundamental problem in quantum information theory is entanglement transformation that is quite challenging regarding to multipartite systems. It is captivating that the proposed entanglement classification by algebraic geometry can be considered as a reference to study SLOCC and asymptotic SLOCC interconversions among different resources based on tensor rank and border rank, respectively. In this regard, we also introduce a new class of tensors that we call \emph{persistent tensors} and construct a lower bound for their tensor rank. We further cover SLOCC convertibility of multipartite systems considering several families of persistent tensors. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# 回転反転振子におけるTustin-Netアーキテクチャの利用
Accounts of using the Tustin-Net architecture on a rotary inverted pendulum ( http://arxiv.org/abs/2408.12266v1 ) ライセンス: Link先を確認 | Stijn van Esch, Fabio Bonassi, Thomas B. Schön, | (参考訳) 本稿では,物理的に回転する逆振り子の同定にTustinニューラルネットワークアーキテクチャ(Tustin-Net)を用いることを検討した。
この物理に基づくアーキテクチャは、速度と位置の既知の関係の上に構築されているため、特に興味深い。
本稿では、実際の物理機器上での第1原理のグレーボックスモデルと比較して、Tustin-Netsの利点、限界、性能について議論し、標準のトレーニング手順では、前者が後者とほとんど同じ精度を達成できないことを示す。
この制限に対処するために,第1原理モデルと競合するTustin-Netsを生成するトランスファー学習に基づくトレーニング戦略を提案する。
In this report we investigate the use of the Tustin neural network architecture (Tustin-Net) for the identification of a physical rotary inverse pendulum. This physics-based architecture is of particular interest as it builds on the known relationship between velocities and positions. We here aim at discussing the advantages, limitations and performance of Tustin-Nets compared to first-principles grey-box models on a real physical apparatus, showing how, with a standard training procedure, the former can hardly achieve the same accuracy as the latter. To address this limitation, we present a training strategy based on transfer learning that yields Tustin-Nets that are competitive with the first-principles model, without requiring extensive knowledge of the setup as the latter. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# 超低温Rydberg原子ガス中の電界誘起超放射速度低下の観測
Observation of electric field induced superradiance slowdown in ultracold Rydberg atomic gases ( http://arxiv.org/abs/2408.12268v1 ) ライセンス: Link先を確認 | Yunhui He, Jingxu Bai, Yuechun Jiao, Weibin Li, Jianming zhao, | (参考訳) 電子的に高いライドバーグ状態に励起された原子は自然放出過程を通じて低エネルギー状態に崩壊する。
超低温Cydberg原子アンサンブル中のRydberg $|60D_{5/2}\rangle$と$|61P_{3/2}\rangle$状態の間の超放射能放出過程に対する静電場の影響について検討する。
電界印加時の超放射能の顕著な低下に関する実験的観察を報告する。
スローダウンのダイナミクスを理解するために,離散的に切り離されたウィグナー近似 (DTWA) 法を用いて,対応するマスター方程式を数値的に解く。
数値シミュレーションにより、超放射光デコヒーレンスは、Rydbergレベルのスタークシフトによって引き起こされることを示した。
我々の理論シミュレーションは実験結果と定性的に一致している。
我々の研究は、量子臨界挙動の制御に関する新たな洞察を与え、量子多体ダイナミクスや量子相転移の研究に寄与する。
Atoms excited to electronically high-lying Rydberg states decay to low-energy states through spontaneous emission processes. We investigate the impact of a static electric field on the superradiant emission process between Rydberg $|60D_{5/2}\rangle$ and $|61P_{3/2}\rangle$ states in an ultracold Cesium Rydberg atom ensemble. We report experimental observations of a significant slowdown in superradiance upon applying an electric field. To understand the slowing down dynamics, we employ a discrete truncated Wigner approximation (DTWA) method to solve the corresponding master equation numerically. Our numerical simulations demonstrate that superradiance decoherence is caused by the Stark shifts of the Rydberg level. Our theoretical simulations qualitatively match the experimental observations. Our work provides new insights into controlling quantum critical behaviors, with implications for quantum many-body dynamics, and the study of quantum phase transitions. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# テイラー近似に基づく制御変数による拡散モデルの勾配のばらつき低減
Variance reduction of diffusion model's gradients with Taylor approximation-based control variate ( http://arxiv.org/abs/2408.12270v1 ) ライセンス: Link先を確認 | Paul Jeha, Will Grathwohl, Michael Riis Andersen, Carl Henrik Ek, Jes Frellsen, | (参考訳) スコアベースモデルは,高次元データの生成に極めて有効である。
しかし、トレーニング対象の高分散は、最適化を妨げます。
学習目標とその勾配に対するTaylor拡張を$k$-orderで導出した制御変分で低減しようとする。
両者の等価性を証明し、低次元問題設定におけるアプローチの有効性を実証的に証明し、より大きな問題に対するその効果について検討する。
Score-based models, trained with denoising score matching, are remarkably effective in generating high dimensional data. However, the high variance of their training objective hinders optimisation. We attempt to reduce it with a control variate, derived via a $k$-th order Taylor expansion on the training objective and its gradient. We prove an equivalence between the two and demonstrate empirically the effectiveness of our approach on a low dimensional problem setting; and study its effect on larger problems. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# 深部強化学習を用いたドミノ冷却オシレータネットワーク
Domino-cooling Oscillator Networks with Deep Reinforcement Learning ( http://arxiv.org/abs/2408.12271v1 ) ライセンス: Link先を確認 | Sampreet Kalita, Amarendra K. Sarma, | (参考訳) 最適制御のためのディープニューラルネットワークの探索は、近年、かなりの関心を集めている。
そこで我々は,高調波共振器ネットワークにおける結合振動子の個人的進化を制御するために,深層強化学習を利用する。
本研究は, ネットワーク内の外部発振器に付与される変調力により, 内部発振器を熱基底状態に積極的に冷却する数値解析手法を示す。
本稿では、複数のネットワーク構成における全発振器の熱冷却に関する結果と、量子状態における我々のスキームの有用性を紹介する。
The exploration of deep neural networks for optimal control has gathered a considerable amount of interest in recent years. Here, we utilize deep reinforcement learning to control individual evolutions of coupled harmonic oscillators in an oscillator network. Our work showcases a numerical approach to actively cool internal oscillators to their thermal ground states through modulated forces imparted to the external oscillators in the network. We present our results for thermal cooling of all oscillators in multiple network configurations and introduce the utility of our scheme in the quantum regime. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# 適応運動量最適化を用いたニューラルネットワークのパラメータ空間におけるディジタルゆらぎの幾何学的構造
Geometrical structures of digital fluctuations in parameter space of neural networks trained with adaptive momentum optimization ( http://arxiv.org/abs/2408.12273v1 ) ライセンス: Link先を確認 | Igor V. Netay, | (参考訳) 本稿では,適応運動量を用いた確率勾配最適化ニューラルネットワークの数値実験結果について述べる。
この広く応用された最適化は収束性と実効性を示したが、長期トレーニングでは数値的に不安定になる。
数値的なアーティファクトは大規模モデルに限らず観測可能であることを示す。
我々は、この理論を、1600以上のニューラルネットワークで50万回以上のエポックで訓練された実験によって論じる。
局所的な観測は、安定なトレーニングセグメントと不安定なトレーニングセグメントの両方において、ネットワークパラメータの同じ挙動の存在を示す。
パラメータの幾何学的挙動は、パラメータ空間において二重ねじれスパイラルを形成し、第1運動量と第2運動量に対する値の次の緩和振動を伴う数値摂動の交互化によって引き起こされる。
We present results of numerical experiments for neural networks with stochastic gradient-based optimization with adaptive momentum. This widely applied optimization has proved convergence and practical efficiency, but for long-run training becomes numerically unstable. We show that numerical artifacts are observable not only for large-scale models and finally lead to divergence also for case of shallow narrow networks. We argue this theory by experiments with more than 1600 neural networks trained for 50000 epochs. Local observations show presence of the same behavior of network parameters in both stable and unstable training segments. Geometrical behavior of parameters forms double twisted spirals in the parameter space and is caused by alternating of numerical perturbations with next relaxation oscillations in values for 1st and 2nd momentum. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# 唾液腺腫瘍の全スライド画像分類
Whole Slide Image Classification of Salivary Gland Tumours ( http://arxiv.org/abs/2408.12275v1 ) ライセンス: Link先を確認 | John Charlton, Ibrahim Alsanie, Syed Ali Khurram, | (参考訳) 本研究は,スライド画像全体の癌分類における唾液腺腫瘍の多症例学習による有望な結果を示す。
CTransPathをパッチレベルの特徴抽出器として、CLAMを特徴集約器として、スライド画像全体の癌を検出するために、F1スコア0.88以上、AUROC0.92以上を得る。
This work shows promising results using multiple instance learning on salivary gland tumours in classifying cancers on whole slide images. Utilising CTransPath as a patch-level feature extractor and CLAM as a feature aggregator, an F1 score of over 0.88 and AUROC of 0.92 are obtained for detecting cancer in whole slide images. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# ASR表現を含む複数特徴を用いた声質評価手法の開発
Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features ( http://arxiv.org/abs/2408.12279v1 ) ライセンス: Link先を確認 | Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi, Takashi Tsuboi, Yasuhiro Tanaka, Daisuke Nakatsubo, Satoshi Maesawa, Ryuta Saito, Masahisa Katsuno, Hiroaki Kudo, | (参考訳) 臨床音声処理における深層学習の可能性は非常に大きいが、限定的かつ不均衡な臨床データサンプルのハードルは大きい。
本稿では, 音声認識と自己教師付き学習表現の利用を, 通常の音声のデータセットに基づいて事前学習することで, これらの課題に対処する。
この革新的なアプローチは、聴覚障害のある患者の声質を推定することを目的としている。
実験では、PVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、視床下核深部脳刺激(STN-DBS)手術前後のパーキンソン病患者に焦点を当てた日本語データセットを作成した。
PVQDの結果, PCCでは0.8, MSEでは0.5であった。
一方,STN-DBSの文脈における患者の声質の予測は進歩している。
The potential of deep learning in clinical speech processing is immense, yet the hurdles of limited and imbalanced clinical data samples loom large. This article addresses these challenges by showcasing the utilization of automatic speech recognition and self-supervised learning representations, pre-trained on extensive datasets of normal speech. This innovative approach aims to estimate voice quality of patients with impaired vocal systems. Experiments involve checks on PVQD dataset, covering various causes of vocal system damage in English, and a Japanese dataset focusing on patients with Parkinson's disease before and after undergoing subthalamic nucleus deep brain stimulation (STN-DBS) surgery. The results on PVQD reveal a notable correlation (>0.8 on PCC) and an extraordinary accuracy (<0.5 on MSE) in predicting Grade, Breathy, and Asthenic indicators. Meanwhile, progress has been achieved in predicting the voice quality of patients in the context of STN-DBS. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# 量子ステアリングにおけるインプレクションプラトー
Imprecision plateaus in quantum steering ( http://arxiv.org/abs/2408.12280v1 ) ライセンス: Link先を確認 | Elna Svegborn, Nicola d'Alessandro, Otfried Gühne, Armin Tavakoli, | (参考訳) 本研究は,信頼関係者が測定値を完全に制御できない量子ステアリングの試験について検討する。
測定精度のしきい値まで導入しても不適合なステアリングの不等式について報告する。
インプレクションプラトーと呼ばれるこの現象は、理想的な測定の標準仮定からステアリング実験の検出能力へのコストを伴わずに離脱することができる。
本稿では, インプレクション・プラトーがなぜ可能か, それらの存在の簡単な基準, それらの特性を解析するためのツールについて説明する。
また, 標準ステアリング試験のノイズ・ロス・ロバスト性と, 理想化された片側デバイス非依存乱数生成器の性能を両立させることができる。
We study tests of quantum steering in which the trusted party does not have perfect control of their measurements. We report on steering inequalities that remain unaffacted when introducing up to a threshold magnitude of measurement imprecision. This phenomenon, which we call an imprecision plateau, thus permits a departure from the standard assumption of idealised measurements without any incuring cost to the detection power of steering experiments. We provide an explanation for why imprecision plateaus are possible, a simple criterion for their existence and tools for analysing their properties. We also demonstrate that these plateaus have natural applications when the assumption of perfect measurements is relaxed: they allow for maintaining both the noise- and loss-robustness of standard steering tests and the performance rate of idealised one-sided device-independent random number generators. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# 3次元ガウス平滑化のための地表面散乱
Subsurface Scattering for 3D Gaussian Splatting ( http://arxiv.org/abs/2408.12282v1 ) ライセンス: Link先を確認 | Jan-Niklas Dihlmann, Arjun Majumdar, Andreas Engelhardt, Raphael Braun, Hendrik P. A. Lensch, | (参考訳) 散乱材料を用いた物体の3次元再構成とリライティングは、表面下の複雑な光輸送のために大きな課題となる。
3D Gaussian Splattingは、高品質のノベルビュー合成をリアルタイムに導入した。
3Dガウスは物体の表面を効率的に近似するが、地下散乱の体積特性を捉えることができない。
本稿では,マルチビューOLAT(1光1つ)データを用いてオブジェクトの形状を最適にするためのフレームワークを提案する。
本手法では,空間的に変化するBRDFと散乱成分の暗黙の体積表現により,シーンを3次元ガウス面に分解する。
学習されたインシデントライトフィールドはシャドーイングの原因となります。
我々は、レイトレーシングによる微分可能レンダリングにより、全てのパラメータを共同で最適化する。
本手法は,インタラクティブな速度で素材編集,リライティング,新しいビュー合成を可能にする。
合成データに適用し,新たに取得した複数視点のオブジェクトのマルチライトデータセットを軽段設定で導入する。
これまでの作業と比較すると、最適化とレンダリングのわずかな時間で同等またはより良い結果を達成すると同時に、材料属性の詳細な制御を可能にしました。
プロジェクトページ https://ss.jdihlmann.com/
3D reconstruction and relighting of objects made from scattering materials present a significant challenge due to the complex light transport beneath the surface. 3D Gaussian Splatting introduced high-quality novel view synthesis at real-time speeds. While 3D Gaussians efficiently approximate an object's surface, they fail to capture the volumetric properties of subsurface scattering. We propose a framework for optimizing an object's shape together with the radiance transfer field given multi-view OLAT (one light at a time) data. Our method decomposes the scene into an explicit surface represented as 3D Gaussians, with a spatially varying BRDF, and an implicit volumetric representation of the scattering component. A learned incident light field accounts for shadowing. We optimize all parameters jointly via ray-traced differentiable rendering. Our approach enables material editing, relighting and novel view synthesis at interactive rates. We show successful application on synthetic data and introduce a newly acquired multi-view multi-light dataset of objects in a light-stage setup. Compared to previous work we achieve comparable or better results at a fraction of optimization and rendering time while enabling detailed control over material attributes. Project page https://sss.jdihlmann.com/ | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# 機能的ランダム林のデミスティフィケーション:高次元空間におけるモデル透明性のための新しい説明可能性ツール
Demystifying Functional Random Forests: Novel Explainability Tools for Model Transparency in High-Dimensional Spaces ( http://arxiv.org/abs/2408.12288v1 ) ライセンス: Link先を確認 | Fabrizio Maturo, Annamaria Porreca, | (参考訳) ビッグデータの出現は、医学、生態学、経済学など、さまざまな領域にわたる高次元データセットの分析において、大きな課題を引き起こしている。
機能データ分析(FDA)は、これらの課題に対処するための堅牢なフレームワークであることが証明されており、複雑な時間的および空間的パターンをキャプチャする機能形式への高次元データの変換を可能にしている。
しかし,機能分類法の進歩とFDAとアンサンブル法の併用による非常に高い性能にもかかわらず,ブラックボックスモデルの透明性と解釈可能性に関する文献,例えばFRF(Functional Random Forests)では,重大なギャップが持続している。
このニーズに応えるために,本論文では,FRFの内部機構を照らすための新しい説明可能性ツールについて紹介する。
本稿では,FPDP(Functional partial Dependence Plots),FPC(Functional principal Component)の確率ヒートマップ,モデル固有およびモデルに依存しないFPCの重要度,FPCの外部的重要度と説明変数バブルプロットの利用を提案する。
これらのツールは、個々のFPCがモデル予測にどのように貢献するかを詳細に分析することにより、FRFモデルの透明性を総合的に向上する。
これらの手法をECGデータセットに適用することにより、重要なパターンを明らかにし、FRFの説明可能性を向上させる上で、これらのツールの有効性を実証する。
The advent of big data has raised significant challenges in analysing high-dimensional datasets across various domains such as medicine, ecology, and economics. Functional Data Analysis (FDA) has proven to be a robust framework for addressing these challenges, enabling the transformation of high-dimensional data into functional forms that capture intricate temporal and spatial patterns. However, despite advancements in functional classification methods and very high performance demonstrated by combining FDA and ensemble methods, a critical gap persists in the literature concerning the transparency and interpretability of black-box models, e.g. Functional Random Forests (FRF). In response to this need, this paper introduces a novel suite of explainability tools to illuminate the inner mechanisms of FRF. We propose using Functional Partial Dependence Plots (FPDPs), Functional Principal Component (FPC) Probability Heatmaps, various model-specific and model-agnostic FPCs' importance metrics, and the FPC Internal-External Importance and Explained Variance Bubble Plot. These tools collectively enhance the transparency of FRF models by providing a detailed analysis of how individual FPCs contribute to model predictions. By applying these methods to an ECG dataset, we demonstrate the effectiveness of these tools in revealing critical patterns and improving the explainability of FRF. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# AI認定のための一般的な倫理的要件のカタログ
Catalog of General Ethical Requirements for AI Certification ( http://arxiv.org/abs/2408.12289v1 ) ライセンス: Link先を確認 | Nicholas Kluge Corrêa, Julia Maria Mönig, | (参考訳) このホワイトペーパーは、人工知能(AI)システムの開発者に対して、"Trustworthy AI"を実現するための規範的で実践的なガイダンスを提供する。
その中では、これらの原則を技術に実装するためのツールに対して、全体的な倫理的要件と6つの倫理的原則を価値特有な推奨とともに提示する。
価値に特化した推奨事項は、公正性、プライバシとデータ保護、安全性と堅牢性、持続可能性、透明性と説明可能性、真実性の原則に対処します。
それぞれの原則について,欧州連合(EU)のAI法に従って,リスクアセスメントとAIシステムおよびアプリケーション分類の基準の例を示す。
私たちの仕事は、信頼できるAIとAI認定のための最小限の倫理的要件を満たすための、潜在的な青写真として、利害関係者を対象としています。
This whitepaper offers normative and practical guidance for developers of artificial intelligence (AI) systems to achieve "Trustworthy AI". In it, we present overall ethical requirements and six ethical principles with value-specific recommendations for tools to implement these principles into technology. Our value-specific recommendations address the principles of fairness, privacy and data protection, safety and robustness, sustainability, transparency and explainability and truthfulness. For each principle, we also present examples of criteria for risk assessment and categorization of AI systems and applications in line with the categories of the European Union (EU) AI Act. Our work is aimed at stakeholders who can take it as a potential blueprint to fulfill minimum ethical requirements for trustworthy AI and AI Certification. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# 因果推論を用いた画像テキストマッチングの廃止に向けて
Towards Deconfounded Image-Text Matching with Causal Inference ( http://arxiv.org/abs/2408.12292v1 ) ライセンス: Link先を確認 | Wenhui Li, Xinqi Su, Dan Song, Lanjun Wang, Kun Zhang, An-An Liu, | (参考訳) 従来の画像テキストマッチング手法は、多くのベンチマークデータセットで顕著な性能を示してきたが、そのほとんどは、モーダル内およびモーダル間に存在するデータセットのバイアスを見落とし、モデルの一般化能力を著しく低下させる素早い相関を学習する傾向にある。
さらに、これらの手法は、大規模データセットから事前知識としてバイアス付き外部知識を画像テキストマッチングモデルに組み込むことが多く、モデルにバイアス付き関連性をさらに学習させることは避けられない。
本稿では,まず構造因果モデル(Structure Causal Models, SCMs)を用いて,モーダル内およびモーダル間共同設立者が画像テキストマッチングをいかに損なうかを説明する。
そこで,本稿では,画像テキストマッチングタスクに対して,革新的なDecon founded Causal Inference Network (DCIN)を提案する。
DCIN(1)は、モダル内およびモダル内共同創設者を分解し、視覚的特徴とテキスト的特徴の符号化段階に組み込み、画像テキストマッチング時の素早い相関を効果的に排除し、(2)外部知識のバイアスを軽減するために因果推論を使用する。
その結果、データセットバイアスによって引き起こされる刺激的な相関ではなく因果関係を学習することができる。
Flickr30KとMSCOCOの2つのよく知られたベンチマークデータセットに対する大規模な実験は、提案手法の優位性を実証している。
Prior image-text matching methods have shown remarkable performance on many benchmark datasets, but most of them overlook the bias in the dataset, which exists in intra-modal and inter-modal, and tend to learn the spurious correlations that extremely degrade the generalization ability of the model. Furthermore, these methods often incorporate biased external knowledge from large-scale datasets as prior knowledge into image-text matching model, which is inevitable to force model further learn biased associations. To address above limitations, this paper firstly utilizes Structural Causal Models (SCMs) to illustrate how intra- and inter-modal confounders damage the image-text matching. Then, we employ backdoor adjustment to propose an innovative Deconfounded Causal Inference Network (DCIN) for image-text matching task. DCIN (1) decomposes the intra- and inter-modal confounders and incorporates them into the encoding stage of visual and textual features, effectively eliminating the spurious correlations during image-text matching, and (2) uses causal inference to mitigate biases of external knowledge. Consequently, the model can learn causality instead of spurious correlations caused by dataset bias. Extensive experiments on two well-known benchmark datasets, i.e., Flickr30K and MSCOCO, demonstrate the superiority of our proposed method. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# AT-SNN:スパイクニューラルネットワークにおける視覚変換器の適応トークン
AT-SNN: Adaptive Tokens for Vision Transformer on Spiking Neural Network ( http://arxiv.org/abs/2408.12293v1 ) ライセンス: Link先を確認 | Donghwa Kang, Youngmoon Lee, Eun-Kyu Lee, Brent Kang, Jinkyu Lee, Hyeongboo Baek, | (参考訳) スパイクニューラルネットワーク(SNN)のトレーニングと推論において、電力消費を減らすことを目的とした直接トレーニングと軽量な計算手法が直交的に開発された。
しかしながら、これらの2つのメカニズムを同時に適用するアプローチはごく少数のみであり、元々は畳み込みニューラルネットワーク(CNN)用に設計されたため、SNNベースの視覚変換器(ViT)の利点を十分に活用できなかった。
本稿では,SNNベースのViTにおける推論中に処理されるトークンの数を,直接学習で動的に調整するAT-SNNを提案する。
我々はまず,これまでRNNやViTに限られていた適応計算時間(ACT)をSNNベースのViTに適用し,情報量が少ない空間トークンを選択的に破棄するように拡張した。
また,トークンの類似性に依存する新しいトークンマージ機構を提案する。
画像分類タスク(CIFAR10, CIFAR-100, TinyImageNet)の最先端手法と比較して, AT-SNN を Spikformer に実装し, 高いエネルギー効率と精度を実現するための AT-SNN の有効性を示す。
例えば、我々の手法では、CIFAR-100の既存のベストパフォーマンスメソッドよりも最大42.4%少ないトークンを使用するが、精度は高い。
In the training and inference of spiking neural networks (SNNs), direct training and lightweight computation methods have been orthogonally developed, aimed at reducing power consumption. However, only a limited number of approaches have applied these two mechanisms simultaneously and failed to fully leverage the advantages of SNN-based vision transformers (ViTs) since they were originally designed for convolutional neural networks (CNNs). In this paper, we propose AT-SNN designed to dynamically adjust the number of tokens processed during inference in SNN-based ViTs with direct training, wherein power consumption is proportional to the number of tokens. We first demonstrate the applicability of adaptive computation time (ACT), previously limited to RNNs and ViTs, to SNN-based ViTs, enhancing it to discard less informative spatial tokens selectively. Also, we propose a new token-merge mechanism that relies on the similarity of tokens, which further reduces the number of tokens while enhancing accuracy. We implement AT-SNN to Spikformer and show the effectiveness of AT-SNN in achieving high energy efficiency and accuracy compared to state-of-the-art approaches on the image classification tasks, CIFAR10, CIFAR-100, and TinyImageNet. For example, our approach uses up to 42.4% fewer tokens than the existing best-performing method on CIFAR-100, while conserving higher accuracy. | 翻訳日:2024-08-23 14:23:36 公開日:2024-08-22 |
# 機械学習を用いた新しい物理の信号非依存探索のための多重検定
Multiple testing for signal-agnostic searches of new physics with machine learning ( http://arxiv.org/abs/2408.12296v1 ) ライセンス: Link先を確認 | Gaia Grosso, Marco Letizia, | (参考訳) 本研究では,複数のテスト戦略を活用することで,信号に依存しない探索をいかに強化するかという課題に対処する。
具体的には、モデル選択が新しい物理信号の特定の族に対するバイアスをもたらすことができる機械学習に依存する仮説テストについて考察する。
異なるパラメータの異なる選択によって特徴付けられる異なるテストを組み合わせることは有益であり、最も優れたテストに匹敵する性能は一般に達成され、様々な種類の異常に対してより均一な応答を提供する。
信号に依存しない確率比検定を行う手法であるニュー物理学習機械に着目し, p-値の組み合わせや検定統計の集約など, 複数検定へのアプローチについて検討する。
In this work, we address the question of how to enhance signal-agnostic searches by leveraging multiple testing strategies. Specifically, we consider hypothesis tests relying on machine learning, where model selection can introduce a bias towards specific families of new physics signals. We show that it is beneficial to combine different tests, characterised by distinct choices of hyperparameters, and that performances comparable to the best available test are generally achieved while providing a more uniform response to various types of anomalies. Focusing on the New Physics Learning Machine, a methodology to perform a signal-agnostic likelihood-ratio test, we explore a number of approaches to multiple testing, such as combining p-values and aggregating test statistics. | 翻訳日:2024-08-23 14:13:32 公開日:2024-08-22 |
# ロス分解によるフェデレーション学習におけるデータ不均一性への対処
Tackling Data Heterogeneity in Federated Learning via Loss Decomposition ( http://arxiv.org/abs/2408.12300v1 ) ライセンス: Link先を確認 | Shuang Zeng, Pengxin Guo, Shuai Wang, Jianbo Wang, Yuyin Zhou, Liangqiong Qu, | (参考訳) Federated Learning(FL)は、大規模な医療データセットを各クライアントにローカライズする、コラボレーションとプライバシ保護のマシンラーニングへの、新たなアプローチである。
しかし、クライアント間のデータ不均一性の問題はしばしばローカルモデルを補完し、最適なグローバルモデルに繋がる。
データの不均一性がFL性能に与える影響を軽減するために、FLトレーニングがFL性能にどのように影響するかを、局所的損失、分布シフト損失、凝集損失の3つの項に分解して分析することから始める。
ここでは,既存の局所学習に基づくFL法が分布シフト損失の低減を図っているのに対し,グローバルアグリゲーションベースのFL法はアグリゲーション損失の低減に優れたアグリゲーション戦略を提案する。
それでも3つの用語を最小化するための包括的な共同作業は、現在、文献において制限されており、データの異種性の問題に対処する際のパフォーマンスが劣っている。
このギャップを埋めるために,FedLDと呼ばれる大域的損失分解に基づく新しいFL法を提案し,これら3つの損失項を共同で削減する。
我々のFedLDは、分散シフト損失を減らすために、局所訓練におけるマージン制御の正規化と、集約損失を減らすための主勾配に基づくサーバ集約戦略を含む。
特に、異なるレベルのデータ均一性の下で、我々の戦略は、他のFLアルゴリズムと比較して網膜および胸部X線分類において、より良い、より堅牢な性能を達成する。
我々のコードは \href{https://github.com/Zeng-Shuang/FedLD}{https://github.com/Zeng-Shuang/FedLD} で入手できる。
Federated Learning (FL) is a rising approach towards collaborative and privacy-preserving machine learning where large-scale medical datasets remain localized to each client. However, the issue of data heterogeneity among clients often compels local models to diverge, leading to suboptimal global models. To mitigate the impact of data heterogeneity on FL performance, we start with analyzing how FL training influence FL performance by decomposing the global loss into three terms: local loss, distribution shift loss and aggregation loss. Remarkably, our loss decomposition reveals that existing local training-based FL methods attempt to reduce the distribution shift loss, while the global aggregation-based FL methods propose better aggregation strategies to reduce the aggregation loss. Nevertheless, a comprehensive joint effort to minimize all three terms is currently limited in the literature, leading to subpar performance when dealing with data heterogeneity challenges. To fill this gap, we propose a novel FL method based on global loss decomposition, called FedLD, to jointly reduce these three loss terms. Our FedLD involves a margin control regularization in local training to reduce the distribution shift loss, and a principal gradient-based server aggregation strategy to reduce the aggregation loss. Notably, under different levels of data heterogeneity, our strategies achieve better and more robust performance on retinal and chest X-ray classification compared to other FL algorithms. Our code is available at \href{https://github.com/Zeng-Shuang/FedLD}{https://github.com/Zeng-Shuang/FedLD}. | 翻訳日:2024-08-23 14:13:32 公開日:2024-08-22 |
# OPTDTALS:最適決定木アプローチによる近似論理合成
OPTDTALS: Approximate Logic Synthesis via Optimal Decision Trees Approach ( http://arxiv.org/abs/2408.12304v1 ) ライセンス: Link先を確認 | Hao Hu, Shaowei Cai, | (参考訳) 説明可能な人工知能(XAI)への関心の高まりは、最適な解釈可能な機械学習モデル、特に決定木について、有望な研究を動機付けている。
このようなモデルは一般に、コンパクトサイズまたは経験的精度において最適性を提供する。
最近の研究は、自然のスケーラビリティの問題による効率の改善に焦点を当てている。
このようなモデルの実用的問題への応用は極めて限られている。
回路設計における新たな問題として、近似論理合成(ALS)は、正確性を犠牲にして回路の複雑さを低減することを目的としている。
近年,入出力ペアのサンプルから近似回路を学習するALSにおいて,複数のヒューリスティック機械学習手法が適用されている。
本稿では,最適決定木を経験的精度で学習することで近似を実現する新しいALS手法を提案する。
従来のヒューリスティックALS法と比較して、最適性の保証は回路の複雑さと精度のトレードオフをより制御しやすいものにする。
実験結果から, 近似設計の品質(回路の複雑さと精度)は, 最先端の手法と比較して明らかに改善された。
The growing interest in Explainable Artificial Intelligence (XAI) motivates promising studies of computing optimal Interpretable Machine Learning models, especially decision trees. Such models generally provide optimality in compact size or empirical accuracy. Recent works focus on improving efficiency due to the natural scalability issue. The application of such models to practical problems is quite limited. As an emerging problem in circuit design, Approximate Logic Synthesis (ALS) aims to reduce circuit complexity by sacrificing correctness. Recently, multiple heuristic machine learning methods have been applied in ALS, which learns approximated circuits from samples of input-output pairs. In this paper, we propose a new ALS methodology realizing the approximation via learning optimal decision trees in empirical accuracy. Compared to previous heuristic ALS methods, the guarantee of optimality achieves a more controllable trade-off between circuit complexity and accuracy. Experimental results show clear improvements in our methodology in the quality of approximated designs (circuit complexity and accuracy) compared to the state-of-the-art approaches. | 翻訳日:2024-08-23 14:13:32 公開日:2024-08-22 |
# 原タイトル:Tipta uzmanlik sinavinda (tus) büyük dil modelleri in Sanlardan daha mi ba'arili?
Tipta uzmanlik sinavinda (tus) büyük dil modelleri insanlardan daha mi başarili? ( http://arxiv.org/abs/2408.12305v1 ) ライセンス: Link先を確認 | Yesim Aygul, Muge Olucoglu, Adil Alpkocak, | (参考訳) 医学教育と評価における人工知能の可能性は、近年の自然言語処理と人工知能の発展によって明らかになっている。
医学的な質問は、人工知能アルゴリズムによってうまく答えられるようになった。
医療従事者を助けることができる。
本研究では,2021年の第1期医学専門試験(MSE)において,トルコの医学的疑問に答える3つの異なる人工知能モデルの性能を評価する。
MSEは、臨床(CMST)と基礎(BMST)の合計240の質問からなる。
CMSTの結果,Geminiは82問,ChatGPT-4は105問,ChatGPT-4oは117問であった。
BMSTでは、GeminiとChatGPT-4が93の質問に答え、ChatGPT-4oは107の質問に答えた。
ChatGPT-4o はCMST と BMST でそれぞれ 113 と 106 の最高スコアの候補を上回った。
本研究は,医学教育と評価における人工知能の可能性の重要性を強調した。
先進的なモデルは高い精度と文脈的理解を達成でき、医療教育と評価においてその潜在的役割を示す。
The potential of artificial intelligence in medical education and assessment has been made evident by recent developments in natural language processing and artificial intelligence. Medical questions can now be successfully answered by artificial intelligence algorithms. It can help medical practitioners. This study evaluates the performance of three different artificial intelligence models in answering Turkish medical questions in the 2021 1st Term Medical Specialization Examination (MSE). MSE consists of a total of 240 questions across clinical (CMST) and basic (BMST) medical sciences. According to the results in CMST, it was concluded that Gemini correctly answered 82 questions, ChatGPT-4 answered 105 questions and ChatGPT-4o answered 117 questions. In BMST, Gemini and ChatGPT-4 answered 93 questions and ChatGPT-4o answered 107 questions correctly according to the answer key. ChatGPT-4o outperformed the candidate with the highest scores of 113 and 106 according to CMST and BMST respectively. This study highlights the importance of the potential of artificial intelligence in medical education and assessment. It demonstrates that advanced models can achieve high accuracy and contextual understanding, demonstrating their potential role in medical education and evaluation. | 翻訳日:2024-08-23 14:13:32 公開日:2024-08-22 |
# クロノサイクリック$Q$関数測定による単一光子レベルのパルス特性評価
Pulse characterization at the single-photon level through chronocyclic $Q$-function measurements ( http://arxiv.org/abs/2408.12306v1 ) ライセンス: Link先を確認 | Abhinandan Bhattacharjee, Patrick Folge, Laura Serino, Jaroslav Řeháček, Zdeněk Hradil, Christine Silberhorn, Benjamin Brecht, | (参考訳) 単一光子レベルの光のスペクトルとスペクトルの位相という複雑なスペクトル振幅の特性は、現代のフォトニック量子技術にとって重要な能力である。
確立されたパルスキャラクタリゼーション技術は低強度では適用できないため、代替手法が必要である。
ここでは, 単光子レベルの光パルスの複素スペクトル振幅を, クロノサイクリック$Q-$関数の測定により求める。
本手法は, 二次位相空間と時間周波数位相空間の類似性を利用して, 量子状態トモグラフィーからインスピレーションを得る。
実験では,量子パルスゲートを用いて時間周波数投影を行い,クロノサイクリック$Q-$関数を直接生成する。
量子状態トモグラフィーの確立した手法である最大推定値を用いてデータを評価する。
このことは、テスト中の状態の複素スペクトル振幅の曖昧な推定であるだけでなく、原理的には、状態のスペクトル-時間的コヒーレンス特性を推定することができる。
本手法は, スペクトル位相におけるジャンプなどの特徴を正確に回復し, スペクトル強度ゼロの領域に対して耐性を持つので, パルス特性の古典的問題にも即座に有用である。
The characterization of the complex spectral amplitude that is, the spectrum and spectral phase, of single-photon-level light fields is a crucial capability for modern photonic quantum technologies. Since established pulse characterisation techniques are not applicable at low intensities, alternative approaches are required. Here, we demonstrate the retrieval of the complex spectral amplitude of single-photon-level light pulses through measuring their chronocyclic $Q-$function. Our approach draws inspiration from quantum state tomography by exploiting the analogy between quadrature phase space and time-frequency phase space. In the experiment, we perform time-frequency projections with a quantum pulse gate, which directly yield the chronocyclic $Q-$function. We evaluate the data with maximum likelihood estimation, which is the established technique for quantum state tomography. This yields not only an unambigious estimate of the complex spectral amplitude of the state under test that does not require any \textit{a priori} information, but also allows for, in principle, estimating the spectral-temporal coherence properties of the state. Our method accurately recovers features such as jumps in the spectral phase and is resistant against regions with zero spectral intensity, which makes it immediately beneficial also for classical pulse characterization problems. | 翻訳日:2024-08-23 14:13:32 公開日:2024-08-22 |
# オフライン強化学習におけるカーネル関数近似によるラベルなしデータ共有の活用
Leveraging Unlabeled Data Sharing through Kernel Function Approximation in Offline Reinforcement Learning ( http://arxiv.org/abs/2408.12307v1 ) ライセンス: Link先を確認 | Yen-Ru Lai, Fu-Chieh Chang, Pei-Yuan Wu, | (参考訳) オフライン強化学習(RL)は、固定データセットからポリシーを学ぶが、しばしば大量のデータを必要とする。
この課題は、ラベル付きデータセットが高価である場合、特に大規模なデータセットに対して、人間のラベルが報酬を提供する必要がある場合に発生する。
対照的に、不正なデータはコストが低い傾向にある。
この状況は、特にラベル付きデータが限定的または高価な場合、オフラインRLで非ラベル付きデータを使用する効果的な方法を見つけることの重要性を強調している。
本稿では,カーネル関数近似を用いたオフラインRL法において,ラベルなしデータを利用するアルゴリズムを提案し,理論的保証を与える。
アルゴリズムの複雑さを決定するために,$\mathcal{H}_k$の固有値減衰条件について述べる。
要約すると、我々の研究は、理論的保証を維持しながら、オフラインのRLでラベル付けされていないデータから得られる利点を活用するための有望なアプローチを提供する。
Offline reinforcement learning (RL) learns policies from a fixed dataset, but often requires large amounts of data. The challenge arises when labeled datasets are expensive, especially when rewards have to be provided by human labelers for large datasets. In contrast, unlabelled data tends to be less expensive. This situation highlights the importance of finding effective ways to use unlabelled data in offline RL, especially when labelled data is limited or expensive to obtain. In this paper, we present the algorithm to utilize the unlabeled data in the offline RL method with kernel function approximation and give the theoretical guarantee. We present various eigenvalue decay conditions of $\mathcal{H}_k$ which determine the complexity of the algorithm. In summary, our work provides a promising approach for exploiting the advantages offered by unlabeled data in offline RL, whilst maintaining theoretical assurances. | 翻訳日:2024-08-23 14:13:32 公開日:2024-08-22 |
# CNNによるディープラーニング: 教師付き回帰に着目したコンパクトなホロスティックチュートリアル(プレプリント)
Deep Learning with CNNs: A Compact Holistic Tutorial with Focus on Supervised Regression (Preprint) ( http://arxiv.org/abs/2408.12308v1 ) ライセンス: Link先を確認 | Yansel Gonzalez Tejeda, Helmut A. Mayer, | (参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)と教師付き回帰に着目し,Deep Learningのコンパクトで包括的な議論を行う。
個々のトピックに関する書籍や記事はたくさんありますが、基礎的で厳格でアクセスしやすい視点からディープラーニングに対処する包括的で詳細なチュートリアルは珍しいものです。
CNNのほとんどのリソースは高度すぎるか、最先端のアーキテクチャに重点を置いているか、イメージ分類のような特定のアプリケーションにのみ対処している。このチュートリアルは、最も関連性の高い概念を要約するだけでなく、それぞれを詳細に調査し、完全なアジャイルなアイデアセットを提供する。
さらに,Deep LearningとCNNフレームワークの基盤となる,学習理論,統計学,機械学習の強力な相乗効果を強調した。
本チュートリアルは,Deep Learningの基礎を理解することに関心のある学生,教授,研究者にとって最適な情報源となることを目的としている。
受理すると、対応するリポジトリは \href{https://github.com/neoglez/deep-learning-tutorial}{https://github.com/neoglez/deep-learning-tutorial} キーワード: Tutorial, Deep Learning, Convolutional Neural Networks, Machine Learning で提供される。
In this tutorial, we present a compact and holistic discussion of Deep Learning with a focus on Convolutional Neural Networks (CNNs) and supervised regression. While there are numerous books and articles on the individual topics we cover, comprehensive and detailed tutorials that address Deep Learning from a foundational yet rigorous and accessible perspective are rare. Most resources on CNNs are either too advanced, focusing on cutting-edge architectures, or too narrow, addressing only specific applications like image classification.This tutorial not only summarizes the most relevant concepts but also provides an in-depth exploration of each, offering a complete yet agile set of ideas. Moreover, we highlight the powerful synergy between learning theory, statistic, and machine learning, which together underpin the Deep Learning and CNN frameworks. We aim for this tutorial to serve as an optimal resource for students, professors, and anyone interested in understanding the foundations of Deep Learning. Upon acceptance we will provide an accompanying repository under \href{https://github.com/neoglez/deep-learning-tutorial}{https://github.com/neoglez/deep-learning-tutorial} Keywords: Tutorial, Deep Learning, Convolutional Neural Networks, Machine Learning. | 翻訳日:2024-08-23 14:13:32 公開日:2024-08-22 |
# Ego Network Motif Miningによる分散ファイナンストランザクションのデコード
Decoding Decentralized Finance Transactions through Ego Network Motif Mining ( http://arxiv.org/abs/2408.12311v1 ) ライセンス: Link先を確認 | Natkamon Tovanich, Célestin Coquidé, Rémy Cazabet, | (参考訳) 分散金融(DeFi)は、アクセス可能で透明な金融サービスを提供する可能性について研究され、採用されている。
投資家がDeFiをどのように利用するかを分析することは、彼らの利用状況や規制の目的をよりよく理解するために重要である。
しかし、しばしば不完全または不正確なラベル付きデータのために、DeFiトランザクションの分析は困難である。
本稿では,トークン転送ネットワークからエゴネットワークモチーフを抽出し,ユーザとスマートコントラクト間のトークン転送をキャプチャする手法を提案する。
この結果から,特定のDeFi操作を行うスマートコントラクト手法は,これらのモチーフを解析し,インテリジェンスを提供しながら効率的に識別できることが示唆された。
Decentralized Finance (DeFi) is increasingly studied and adopted for its potential to provide accessible and transparent financial services. Analyzing how investors use DeFi is important for reaching a better understanding of their usage and for regulation purposes. However, analyzing DeFi transactions is challenging due to often incomplete or inaccurate labeled data. This paper presents a method to extract ego network motifs from the token transfer network, capturing the transfer of tokens between users and smart contracts. Our results demonstrate that smart contract methods performing specific DeFi operations can be efficiently identified by analyzing these motifs while providing insights into account activities. | 翻訳日:2024-08-23 14:13:32 公開日:2024-08-22 |
# MakeupAttack: メイクアップ転送による顔認識におけるフィーチャースペースブラックボックスバックドア攻撃
MakeupAttack: Feature Space Black-box Backdoor Attack on Face Recognition via Makeup Transfer ( http://arxiv.org/abs/2408.12312v1 ) ライセンス: Link先を確認 | Ming Sun, Lihua Jing, Zixuan Zhu, Rui Wang, | (参考訳) バックドア攻撃はディープニューラルネットワーク(DNN)のトレーニングプロセスに重大な脅威をもたらす。
現実世界のシナリオで広く使われているDNNベースのアプリケーションとして、一度バックドアに埋め込まれた顔認識システムは深刻な結果をもたらす可能性がある。
顔認識に関するバックドアの研究はまだ初期段階にあり、既存のバックドアトリガーは比較的シンプルで目に見える。
さらに、顔データセットの認識可能性、多様性、類似性により、多くの最先端のバックドア攻撃は顔認識タスクにおいて効果を失う。
本研究では,メイクアップアタック(MakeupAttack)と呼ばれるメイクアップトランスファーによる顔認証に対する空間バックドア攻撃を提案する。
ターゲットモデルへの完全なアクセスを要求する多くの機能空間攻撃とは対照的に、我々の手法はブラックボックス攻撃の原則に固執するモデルクエリのみを必要とする。
本攻撃では,提案したメイクスタイルトリガーの微妙な特徴を学習するための反復訓練パラダイムを設計する。
さらに、MakeupAttackはアダプティブセレクションメソッドを使用してトリガの多様性を促進し、悪意のあるサンプルの特徴分布を分散させ、既存の防御メソッドをバイパスする。
複数のモデルをターゲットにした2つの広く使われている顔データセットに対して大規模な実験を行った。
提案手法は, モデル性能を損なうことなく, 有効性, 堅牢性, 自然性, ステルス性を保ちながら, 既存の防御を回避できることを示す。
Backdoor attacks pose a significant threat to the training process of deep neural networks (DNNs). As a widely-used DNN-based application in real-world scenarios, face recognition systems once implanted into the backdoor, may cause serious consequences. Backdoor research on face recognition is still in its early stages, and the existing backdoor triggers are relatively simple and visible. Furthermore, due to the perceptibility, diversity, and similarity of facial datasets, many state-of-the-art backdoor attacks lose effectiveness on face recognition tasks. In this work, we propose a novel feature space backdoor attack against face recognition via makeup transfer, dubbed MakeupAttack. In contrast to many feature space attacks that demand full access to target models, our method only requires model queries, adhering to black-box attack principles. In our attack, we design an iterative training paradigm to learn the subtle features of the proposed makeup-style trigger. Additionally, MakeupAttack promotes trigger diversity using the adaptive selection method, dispersing the feature distribution of malicious samples to bypass existing defense methods. Extensive experiments were conducted on two widely-used facial datasets targeting multiple models. The results demonstrate that our proposed attack method can bypass existing state-of-the-art defenses while maintaining effectiveness, robustness, naturalness, and stealthiness, without compromising model performance. | 翻訳日:2024-08-23 14:13:32 公開日:2024-08-22 |
# Petz-Rényiの分岐点とそのデバイス非依存暗号への応用
Bounds on Petz-Rényi Divergences and their Applications for Device-Independent Cryptography ( http://arxiv.org/abs/2408.12313v1 ) ライセンス: Link先を確認 | Thomas A. Hahn, Ernest Y. -Z. Tan, Peter Brown, | (参考訳) 変分法は、フォン・ノイマンエントロピーの厳密な境界を、完全にデバイスに依存しない(DI)設定で見つけるために最近開発された。
これにより、DIプロトコルのキーレートは、漸近的限度と有限サイズ規則の両方において大幅に改善された。
本稿では,これらの変分法をペッツ・R'enyi分散系に適用するための2つのアプローチについて論じる。
次に、パートナー研究で開発された完全R'enyiエントロピー累積定理を利用して、DIプロトコルの有限サイズの鍵レートをさらに向上するために、これがどのように使用できるかを示す。
ペッツ-R'enyiの発散は、量子鍵分布(QKD)プロトコルの耐雑音性を改善するために双方向通信を使用するDI利便蒸留の研究にも応用できる。
DIQKDプロトコルの耐雑音性を高めるために,これらの手法を実装した。
Variational techniques have been recently developed to find tighter bounds on the von Neumann entropy in a completely device-independent (DI) setting. This, in turn, has led to significantly improved key rates of DI protocols, in both the asymptotic limit as well as in the finite-size regime. In this paper, we discuss two approaches towards applying these variational methods for Petz-R\'enyi divergences instead. We then show how this can be used to further improve the finite-size key rate of DI protocols, utilizing a fully-R\'enyi entropy accumulation theorem developed in a partner work. Petz-R\'enyi divergences can also be applied to study DI advantage distillation, in which two-way communication is used to improve the noise tolerance of quantum key distribution (QKD) protocols. We implement these techniques to derive increased noise tolerances for DIQKD protocols, which surpass all previous known bounds. | 翻訳日:2024-08-23 14:13:32 公開日:2024-08-22 |
# 大規模言語モデルは自己学習型推論モデルである: テーラー化された問題解決によるLLMアプリケーションの強化
Large Language Models Are Self-Taught Reasoners: Enhancing LLM Applications via Tailored Problem-Solving Demonstrations ( http://arxiv.org/abs/2408.12315v1 ) ライセンス: Link先を確認 | Kai Tzu-iunn Ong, Taeyoon Kwon, Jinyoung Yeo, | (参考訳) LLMアプリケーションを改善する上では,大規模言語モデルを人間によるデモセットでガイドすることが一般的である。
しかし、特に専門分野(臨床診断など)では人的努力はコストがかかり、選択された実検例と実検例の目標スキルの相違により、最適なパフォーマンスを保証できない。
そこで本研究では,対象とするインスタンスに適合するターゲットスキルを備えた,カスタマイズされたデモの自動生成について検討する。
対象問題に「適合」し、より優れた品質(すなわち、正当性)をゼロショットで「フィルター」する、問題解決フレームワークであるSELF-TAUGHTを提案する。
多様な領域の多点質問と現実の患者とのアルツハイマー病(AD)の診断を含む15のタスクにおいて、SELF-TAUGHTは強いベースライン(例えば、Few-shot CoT、Plan-and-Solve、Auto-CoT)よりも優れたパフォーマンスを達成している。
我々は,SELF-TAUGHTの包括的解析を行い,既存のプロンプト法と異なるLLMへの一般化性,中間世代の品質などについて述べる。
Guiding large language models with a selected set of human-authored demonstrations is a common practice for improving LLM applications. However, human effort can be costly, especially in specialized domains (e.g., clinical diagnosis), and does not guarantee optimal performance due to the potential discrepancy of target skills between selected demonstrations and real test instances. Motivated by these, this paper explores the automatic creation of customized demonstrations, whose target skills align with the given target instance. We present SELF-TAUGHT, a problem-solving framework, which facilitates demonstrations that are "tailored" to the target problem and "filtered" for better quality (i.e., correctness) in a zero-shot manner. In 15 tasks of multiple-choice questions of diverse domains and the diagnosis of Alzheimer's disease (AD) with real-world patients, SELF-TAUGHT achieves superior performance to strong baselines (e.g., Few-shot CoT, Plan-and-Solve, Auto-CoT). We conduct comprehensive analyses on SELF-TAUGHT, including its generalizability to existing prompting methods and different LLMs, the quality of its intermediate generation, and more. | 翻訳日:2024-08-23 14:13:32 公開日:2024-08-22 |
# 制御可能な低照度映像強調のためのアンロール分解型アンペア学習
Unrolled Decomposed Unpaired Learning for Controllable Low-Light Video Enhancement ( http://arxiv.org/abs/2408.12316v1 ) ライセンス: Link先を確認 | Lingyu Zhu, Wenhan Yang, Baoliang Chen, Hanwei Zhu, Zhangkai Ni, Qi Mao, Shiqi Wang, | (参考訳) 動きを伴う低照度/通常照度ビデオのペアを持つことは、静止画よりも困難であり、技術的問題を引き起こし、未経験学習の技術的な経路が重要な役割を果たす。
本稿では,2対の地上真実を使わずに,低照度映像のエンハンスメントを学習する上での取り組みについて述べる。
低照度画像の強調に比べて、空間領域におけるノイズ、露出、コントラストの相互干渉効果により、時間的コヒーレンスの必要性が伴うため、低照度映像の強調は困難である。
この課題に対処するために、最適化機能を深層ネットワークに展開し、繰り返し更新される空間的・時間的要因に分解することで、低照度映像の高精細化を実現するUnrolled Decompposed Unpaired Network (UDU-Net)を提案する。
まず, 空間的, 時間的視覚的正規化を念頭において, 低照度映像強調を最大A Posteriori Estimation (MAP) 問題として定式化する。
そして、問題を解き放つことにより、空間的制約と時間的制約の最適化を異なるステップに分解し、段階的に更新することができる。
空間的視点から見ると、デザインされたイントラネットは、専門家が修正したスキルから得た不公平な事前情報を活用して、統計分布を調節する。
さらに、人間の知覚フィードバックを統合し、ネットワーク最適化をガイドし、オーバー/アンダー露条件を抑える新しいメカニズムを導入する。
一方、時間的観点からこの問題に対処するため、設計したInterサブネットはプログレッシブ最適化における時間的手がかりを完全に活用し、時間的整合性の向上に寄与する。
提案手法は, 映像照明, 騒音抑制, 時間的整合性において, 室内と屋外のシーン間で, 最先端の手法よりも優れた性能を実現する。
Obtaining pairs of low/normal-light videos, with motions, is more challenging than still images, which raises technical issues and poses the technical route of unpaired learning as a critical role. This paper makes endeavors in the direction of learning for low-light video enhancement without using paired ground truth. Compared to low-light image enhancement, enhancing low-light videos is more difficult due to the intertwined effects of noise, exposure, and contrast in the spatial domain, jointly with the need for temporal coherence. To address the above challenge, we propose the Unrolled Decomposed Unpaired Network (UDU-Net) for enhancing low-light videos by unrolling the optimization functions into a deep network to decompose the signal into spatial and temporal-related factors, which are updated iteratively. Firstly, we formulate low-light video enhancement as a Maximum A Posteriori estimation (MAP) problem with carefully designed spatial and temporal visual regularization. Then, via unrolling the problem, the optimization of the spatial and temporal constraints can be decomposed into different steps and updated in a stage-wise manner. From the spatial perspective, the designed Intra subnet leverages unpair prior information from expert photography retouched skills to adjust the statistical distribution. Additionally, we introduce a novel mechanism that integrates human perception feedback to guide network optimization, suppressing over/under-exposure conditions. Meanwhile, to address the issue from the temporal perspective, the designed Inter subnet fully exploits temporal cues in progressive optimization, which helps achieve improved temporal consistency in enhancement results. Consequently, the proposed method achieves superior performance to state-of-the-art methods in video illumination, noise suppression, and temporal consistency across outdoor and indoor scenes. | 翻訳日:2024-08-23 14:13:32 公開日:2024-08-22 |
# 画像デハージングのためのアグリゲーションインストラクタとしてのCLIPの適応
Adapt CLIP as Aggregation Instructor for Image Dehazing ( http://arxiv.org/abs/2408.12317v1 ) ライセンス: Link先を確認 | Xiaozhe Zhang, Fengying Xie, Haidong Ding, Linpeng Pan, Zhenwei Shi, | (参考訳) ほとんどの脱ヘイジング法は、限られた受容領域に悩まされており、下流のタスクで有効であることが証明された視覚言語モデルにカプセル化されたリッチなセマンティクスを探索しない。
本稿では,Mambaの効率的なグローバルモデリングと,CLIPのゼロショット機能を組み合わせたハイブリッドフレームワークCLIPHazeを紹介する。
具体的には、並列状態空間モデルとウィンドウベースの自己アテンションを用いて、大域的な文脈依存と局所的な微粒な知覚を得る。
両経路から情報をシームレスに集約するために,CLIP命令によるアグリゲーションモジュール(CAM)を導入する。
非均一かつ均一なヘイズに対して、CAMは劣化情報のないゼロショット推定ヘイズ密度マップと高品質な画像埋め込みを活用し、各画素の最適神経操作範囲を明示的に暗黙的に決定し、異なる受容野を持つ2つの経路を適応的に融合させる。
様々なベンチマーク実験により、CLIPHazeは最先端のSOTA(State-of-the-art)性能、特に均質でないヘイズを実現していることが示された。
コードは受理後に公開されます。
Most dehazing methods suffer from limited receptive field and do not explore the rich semantic prior encapsulated in vision-language models, which have proven effective in downstream tasks. In this paper, we introduce CLIPHaze, a pioneering hybrid framework that synergizes the efficient global modeling of Mamba with the prior knowledge and zero-shot capabilities of CLIP to address both issues simultaneously. Specifically, our method employs parallel state space model and window-based self-attention to obtain global contextual dependency and local fine-grained perception, respectively. To seamlessly aggregate information from both paths, we introduce CLIP-instructed Aggregation Module (CAM). For non-homogeneous and homogeneous haze, CAM leverages zero-shot estimated haze density map and high-quality image embedding without degradation information to explicitly and implicitly determine the optimal neural operation range for each pixel, thereby adaptively fusing two paths with different receptive fields. Extensive experiments on various benchmarks demonstrate that CLIPHaze achieves state-of-the-art (SOTA) performance, particularly in non-homogeneous haze. Code will be publicly after acceptance. | 翻訳日:2024-08-23 14:13:31 公開日:2024-08-22 |
# Neural-AnoVA: 解釈可能な機械学習のためのモデル分解
Neural-ANOVA: Model Decomposition for Interpretable Machine Learning ( http://arxiv.org/abs/2408.12319v1 ) ライセンス: Link先を確認 | Steffen Limmer, Steffen Udluft, Clemens Otte, | (参考訳) 分散(ANOVA)分解の分析は、特定の決定出力に寄与する相互作用効果を理解するための体系的な方法を提供する。
本稿では,ANOVA分解を用いたガラス箱モデルにニューラルネットワークを分解する手法であるNeural-ANOVAを紹介する。
提案手法は,ANOVA分解計算に現れる部分空間上の積分の高速かつクローズドな評価を可能にする学習問題を定式化する。
最後に,学習された相互作用効果の分解による解釈可能性の向上とモデル検証の利点を示す数値実験を行った。
The analysis of variance (ANOVA) decomposition offers a systematic method to understand the interaction effects that contribute to a specific decision output. In this paper we introduce Neural-ANOVA, an approach to decompose neural networks into glassbox models using the ANOVA decomposition. Our approach formulates a learning problem, which enables rapid and closed-form evaluation of integrals over subspaces that appear in the calculation of the ANOVA decomposition. Finally, we conduct numerical experiments to illustrate the advantages of enhanced interpretability and model validation by a decomposition of the learned interaction effects. | 翻訳日:2024-08-23 14:13:31 公開日:2024-08-22 |
# PolyRouter:マルチLLMクエリシステム
PolyRouter: A Multi-LLM Querying System ( http://arxiv.org/abs/2408.12320v1 ) ライセンス: Link先を確認 | Dimitris Stripelis, Zijian Hu, Jipeng Zhang, Zhaozhuo Xu, Alay Shah, Han Jin, Yuhang Yao, Salman Avestimehr, Chaoyang He, | (参考訳) 様々なドメインにわたる大規模言語モデル(LLM)の急速な成長に伴い、多くの新しいLLMが出現し、それぞれがドメイン固有の専門知識を持っている。
この増殖は、高速で高品質で費用対効果の高いLCMクエリ応答方法の必要性を強調している。
しかし、このトリレンマを効率的にバランスさせるLLMは存在しない。
一部のモデルは強力だが非常に高価であり、他のモデルは高速で安価だが質的に劣る。
この課題に対処するために、PolyRouterを提案する。これはモノリシックなLLMクエリシステムで、様々なLLM専門家をシームレスに単一のクエリインターフェースに統合し、クエリの要求に基づいて入力クエリを最も高性能なエキスパートに動的にルーティングする。
大規模な実験を通じて,PolyRouterは,スタンドアロンのエキスパートモデルと比較して,クエリ効率を最大40%向上し,最大30%のコスト削減を実現するとともに,モデル性能を最大10%向上させることを示した。
With the rapid growth of Large Language Models (LLMs) across various domains, numerous new LLMs have emerged, each possessing domain-specific expertise. This proliferation has highlighted the need for quick, high-quality, and cost-effective LLM query response methods. Yet, no single LLM exists to efficiently balance this trilemma. Some models are powerful but extremely costly, while others are fast and inexpensive but qualitatively inferior. To address this challenge, we present PolyRouter, a non-monolithic LLM querying system that seamlessly integrates various LLM experts into a single query interface and dynamically routes incoming queries to the most high-performant expert based on query's requirements. Through extensive experiments, we demonstrate that when compared to standalone expert models, PolyRouter improves query efficiency by up to 40%, and leads to significant cost reductions of up to 30%, while maintaining or enhancing model performance by up to 10%. | 翻訳日:2024-08-23 14:13:31 公開日:2024-08-22 |
# MaVEn: マルチモーダル大規模言語モデルのための効果的な多言語ハイブリッドビジュアルエンコーディングフレームワーク
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model ( http://arxiv.org/abs/2408.12321v1 ) ライセンス: Link先を確認 | Chaoya Jiang, Jia Hongrui, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang, | (参考訳) 本稿では,Multimodal Large Language Models (MLLM) のマルチモーダル推論における機能向上を目的とした,革新的なマルチグラニュラリティビジュアルエンコーディングフレームワークであるMaVEnを提案する。
現在のMLLMは、主にシングルイメージの視覚的理解に焦点を当てており、複数の画像にまたがる情報の解釈と統合を制限している。
MaVEnは、粗い意味概念を抽象化する離散的な視覚記号列と、細かな特徴をモデル化する伝統的な連続表現列を組み合わせることで、この制限に対処する。
この二重アプローチは、視覚的データとテキストデータのセマンティックギャップを橋渡しし、複数の画像からの情報を効果的に処理し解釈するモデルの能力を向上させる。
さらに,マルチイメージ処理効率を向上させるために,時系列連続特徴を用いた動的リダクション機構を設計する。
実験により,MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することが示された。
This paper presents MaVEn, an innovative Multi-granularity Visual Encoding framework designed to enhance the capabilities of Multimodal Large Language Models (MLLMs) in multi-image reasoning. Current MLLMs primarily focus on single-image visual understanding, limiting their ability to interpret and integrate information across multiple images. MaVEn addresses this limitation by combining discrete visual symbol sequences, which abstract coarse-grained semantic concepts, with traditional continuous representation sequences that model fine-grained features. This dual approach bridges the semantic gap between visual and textual data, thereby improving the model's ability to process and interpret information from multiple images effectively. Additionally, we design a dynamic reduction mechanism by for long-sequence continuous features to enhance multi-image processing efficiency. Experimental results demonstrate that MaVEn significantly enhances MLLMs' understanding in complex multi-image scenarios, while also improving performance in single-image contexts. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# 教師なし3次元障害物検出のためのマルチモーダル基礎モデル
Multimodal Foundational Models for Unsupervised 3D General Obstacle Detection ( http://arxiv.org/abs/2408.12322v1 ) ライセンス: Link先を確認 | Tamás Matuszka, Péter Hajas, Dávid Szeghy, | (参考訳) 現在の自律運転知覚モデルは、主に事前に定義されたカテゴリによる教師付き学習に依存している。
しかし、これらのモデルは、それらの変動性と多くのエッジケースにより、固定されたカテゴリセットに含まれない一般的な障害を検出するのに苦労する。
この問題に対処するために,マルチモーダル基礎モデルに基づく障害物分割と従来の教師なし幾何に基づく外乱検出の組み合わせを提案する。
このアプローチはオフラインで動作し、非因果性を活用することができ、トレーニング不要の手法を利用する。
これにより、高価な再トレーニングを必要とせずに、3Dで一般的な障害物を検出することができる。
公開されている障害物検出データセットの限界を克服するため,遠隔地においてもさまざまな障害を含むデータセットを収集,注釈付けした。
Current autonomous driving perception models primarily rely on supervised learning with predefined categories. However, these models struggle to detect general obstacles not included in the fixed category set due to their variability and numerous edge cases. To address this issue, we propose a combination of multimodal foundational model-based obstacle segmentation with traditional unsupervised computational geometry-based outlier detection. Our approach operates offline, allowing us to leverage non-causality, and utilizes training-free methods. This enables the detection of general obstacles in 3D without the need for expensive retraining. To overcome the limitations of publicly available obstacle detection datasets, we collected and annotated our dataset, which includes various obstacles even in distant regions. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# EUIS-Net: 効率的な超音波画像分割のための畳み込みニューラルネットワーク
EUIS-Net: A Convolutional Neural Network for Efficient Ultrasound Image Segmentation ( http://arxiv.org/abs/2408.12323v1 ) ライセンス: Link先を確認 | Shahzaib Iqbal, Hasnat Ahmed, Muhammad Sharif, Madiha Hena, Tariq M. Khan, Imran Razzak, | (参考訳) 超音波画像のセグメンテーションは様々な医学的応用において重要であるが、超音波画像固有のノイズと予測不能のために大きな課題をもたらす。
これらの課題に対処するため,我々は,超音波画像を効率的に高精度に分割するCNNネットワークであるEUIS-Netを提案した。
提案したEUIS-Netは、4つのエンコーダデコーダブロックを利用しており、計算複雑性は著しく低下し、優れた性能を実現している。
提案したEUIS-Netは、チャネルと空間の注意機構をボトルネックに統合し、特徴表現を改善し、重要なコンテキスト情報を収集する。
さらに、EUIS-Netはスキップ接続にリージョン対応のアテンションモジュールを組み込んでおり、損傷の領域に集中する能力を高めている。
様々なネットワークブロック間で徹底的な情報交換を可能にするために、ネットワークの最下端から最上端までの接続アグリゲーションをスキップする。
一般に公開されている2つの超音波画像セグメンテーションデータセットについて総合評価を行った。
提案したEUIS-NetはIoUとダイススコア78。
12 %,85。
42 %,84。
73 %,89。
01\%であった。
本研究は, 臨床現場におけるEUIS-Netの有用性と, 各種超音波画像診断における有用性を示すものである。
Segmenting ultrasound images is critical for various medical applications, but it offers significant challenges due to ultrasound images' inherent noise and unpredictability. To address these challenges, we proposed EUIS-Net, a CNN network designed to segment ultrasound images efficiently and precisely. The proposed EUIS-Net utilises four encoder-decoder blocks, resulting in a notable decrease in computational complexity while achieving excellent performance. The proposed EUIS-Net integrates both channel and spatial attention mechanisms into the bottleneck to improve feature representation and collect significant contextual information. In addition, EUIS-Net incorporates a region-aware attention module in skip connections, which enhances the ability to concentrate on the region of the injury. To enable thorough information exchange across various network blocks, skip connection aggregation is employed from the network's lowermost to the uppermost block. Comprehensive evaluations are conducted on two publicly available ultrasound image segmentation datasets. The proposed EUIS-Net achieved mean IoU and dice scores of 78. 12\%, 85. 42\% and 84. 73\%, 89. 01\% in the BUSI and DDTI datasets, respectively. The findings of our study showcase the substantial capabilities of EUIS-Net for immediate use in clinical settings and its versatility in various ultrasound imaging tasks. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# 復号時間学習と真正比較による大規模言語モデルのファクタリティ向上
Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators ( http://arxiv.org/abs/2408.12325v1 ) ライセンス: Link先を確認 | Dingkang Yang, Dongling Xiao, Jinjie Wei, Mingcheng Li, Zhaoyu Chen, Ke Li, Lihua Zhang, | (参考訳) その顕著な能力にもかかわらず、Large Language Models (LLM) は、検証可能な事実、すなわち不信の幻覚内容に矛盾する応答を生成する傾向にある。
既存の取り組みは一般的に、モデルパラメータの最適化や意味表現の編集に重点を置いている。
加えて、幻覚は一般的に下流のタスクに多面的なパターンを示し、タスク全体でのモデル全体のパフォーマンスを制限する。
本稿では、応答幻覚を軽減するための比較器駆動型デコード時間(CDT)フレームワークを提案する。
まず,マルチタスク微調整サンプルを用いた幻覚・真理コンパレータを構築する。
本稿では,異なる幻覚や真実のパターンを個別のタスク命令で捉える能力を高めるための,専門家戦略のプロトタイプとガイダンスの組み合わせを提案する。
CDTは、ターゲットのLSMとこれらのコンパレータのロジット差を対比することにより、次点の予測を事実性-ロバスト分布に制約する。
複数の下流タスクに関する体系的な実験は、我々のフレームワークがモデルの性能と応答の事実性を著しく改善できることを示している。
Despite their remarkable capabilities, Large Language Models (LLMs) are prone to generate responses that contradict verifiable facts, i.e., unfaithful hallucination content. Existing efforts generally focus on optimizing model parameters or editing semantic representations, which compromise the internal factual knowledge of target LLMs. In addition, hallucinations typically exhibit multifaceted patterns in downstream tasks, limiting the model's holistic performance across tasks. In this paper, we propose a Comparator-driven Decoding-Time (CDT) framework to alleviate the response hallucination. Firstly, we construct hallucinatory and truthful comparators with multi-task fine-tuning samples. In this case, we present an instruction prototype-guided mixture of experts strategy to enhance the ability of the corresponding comparators to capture different hallucination or truthfulness patterns in distinct task instructions. CDT constrains next-token predictions to factuality-robust distributions by contrasting the logit differences between the target LLMs and these comparators. Systematic experiments on multiple downstream tasks show that our framework can significantly improve the model performance and response factuality. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# 大規模言語モデルにおける幻覚の緩和のための対話型デュアルチェッカー
Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models ( http://arxiv.org/abs/2408.12326v1 ) ライセンス: Link先を確認 | Meiyun Wang, Masahiro Suzuki, Hiroki Sakaji, Kiyoshi Izumi, | (参考訳) 大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
教師付き学習のための注釈付きデータセットを作成するコストが高くなると、LLMは効果的な数発のインコンテキスト学習を可能にすることで、貴重な代替手段を提供する。
しかし、これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
さらに, LLMを用いた知識蒸留法は, 教師モデルと学生モデルの両方の有効性向上に苦慮することが多い。
これらの課題に対処するため、我々は、幻覚を緩和し、知識蒸留における教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された革新的なフレームワークであるDualCheckerを紹介した。
DualCheckerはContextAlignerを使用して、教師モデルが提供するコンテキストが人間のラベル付け標準と一致していることを保証する。
モデルの相互作用を強化する動的チェッカーシステムも備えている: あるコンポーネントは、信頼度が低いときにより詳細な内容で教師モデルを再起動し、別のコンポーネントは生徒モデルから境界線のケースを特定して教育テンプレートを洗練させる。
この対話的なプロセスは、モデル間の継続的な改善と効果的な知識伝達を促進する。
我々は、バイナリ、マルチクラス、トークン分類タスクを含むグリーンイノベーションテキストデータセットを用いて、DualCheckerを評価する。
実験の結果、DualCheckerは既存の最先端手法よりも優れており、教師モデルではF1スコアが最大17%向上し、学生モデルでは10%向上していることがわかった。
特に、LLM予測で微調整された学生モデルは、挑戦的な領域であっても、実際のデータで微調整された生徒と同等に機能する。
私たちはこの研究からすべてのデータセット、モデル、コードを公開しています。
Large Language Models (LLMs) have demonstrated exceptional capabilities across various machine learning (ML) tasks. Given the high costs of creating annotated datasets for supervised learning, LLMs offer a valuable alternative by enabling effective few-shot in-context learning. However, these models can produce hallucinations, particularly in domains with incomplete knowledge. Additionally, current methods for knowledge distillation using LLMs often struggle to enhance the effectiveness of both teacher and student models. To address these challenges, we introduce DualChecker, an innovative framework designed to mitigate hallucinations and improve the performance of both teacher and student models during knowledge distillation. DualChecker employs ContextAligner to ensure that the context provided by teacher models aligns with human labeling standards. It also features a dynamic checker system that enhances model interaction: one component re-prompts teacher models with more detailed content when they show low confidence, and another identifies borderline cases from student models to refine the teaching templates. This interactive process promotes continuous improvement and effective knowledge transfer between the models. We evaluate DualChecker using a green innovation textual dataset that includes binary, multiclass, and token classification tasks. The experimental results show that DualChecker significantly outperforms existing state-of-the-art methods, achieving up to a 17% improvement in F1 score for teacher models and 10% for student models. Notably, student models fine-tuned with LLM predictions perform comparably to those fine-tuned with actual data, even in a challenging domain. We make all datasets, models, and code from this research publicly available. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# ランダム森林の確率的予測の簡易化
Simplifying Random Forests' Probabilistic Forecasts ( http://arxiv.org/abs/2408.12332v1 ) ライセンス: Link先を確認 | Nils Koster, Fabian Krüger, | (参考訳) Breimanによる導入以来、ランダムフォレスト(RF)は分類と回帰の両方に有用であることが証明されている。
未確認観測のRF予測は、すべてのトレーニングサンプル観測の重み付け和として表すことができる。
この近傍型表現は、予測分布の構築に特に有用である(Meinshausen, 2006)。
本稿では,RFを用いた予測分布の簡易化について検討する。
すなわち、最も近い隣人の小さな部分集合に焦点をあて、残りの重みを 0 に設定する。
このスペーシフィケーションステップは、RF予測の解釈可能性を大幅に改善する。
既存のRFモデルを再訓練することなく、任意の予測タスクに適用することができる。
実証実験では、単純化された予測は、予測性能の点で元の予測と似ているか、あるいは上回っているかを示す。
RFのスタイリング解析モデルを用いて,この発見の統計的源泉を探究する。
モデルは、未知の真の予測分布が不正確に推定される多くの小さな重みを含む場合、単純化が特に有望であることを示唆している。
Since their introduction by Breiman, Random Forests (RFs) have proven to be useful for both classification and regression tasks. The RF prediction of a previously unseen observation can be represented as a weighted sum of all training sample observations. This nearest-neighbor-type representation is useful, among other things, for constructing forecast distributions (Meinshausen, 2006). In this paper, we consider simplifying RF-based forecast distributions by sparsifying them. That is, we focus on a small subset of nearest neighbors while setting the remaining weights to zero. This sparsification step greatly improves the interpretability of RF predictions. It can be applied to any forecasting task without re-training existing RF models. In empirical experiments, we document that the simplified predictions can be similar to or exceed the original ones in terms of forecasting performance. We explore the statistical sources of this finding via a stylized analytical model of RFs. The model suggests that simplification is particularly promising if the unknown true forecast distribution contains many small weights that are estimated imprecisely. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# グラフ検索の信頼性向上
Graph Retrieval Augmented Trustworthiness Reasoning ( http://arxiv.org/abs/2408.12333v1 ) ライセンス: Link先を確認 | Ying Zhu, Shengchang Li, Ziqian Kong, Peilan Xu, | (参考訳) 不完全な情報を持つマルチプレイヤーゲームにおいて、信頼できる推論は不可欠であり、エージェントは潜在的な同盟者や敵を識別し、推論と意思決定のプロセスを強化する。
事前訓練されたモデルに依存する従来のアプローチでは、広範囲なドメイン固有データと相当な報奨フィードバックが必要であり、リアルタイム適応性の欠如により、動的環境での有効性が損なわれている。
本稿では,エージェントの信頼性向上にRAG(Retrieval-Augmented Generation)技術を活用するGRATR(Graph Retrieval Augmented Reasoning)フレームワークを提案する。
GRATRは、動的信頼性グラフを構築し、明快な情報でリアルタイムで更新し、関連する信頼データを取得して、Large Language Models(LLMs)の推論能力を増強する。
我々は,マルチプレイヤーゲーム"Werewolf"の実験を通じて,GRATRとNative RAGとRerank RAGを併用したベースラインLLMとLLMを比較し,本手法の有効性を検証した。
その結果, GRATR は勝利率を 30 % 以上上回り, 高い推算性能を示した。
さらに、GRATRは、アイデンティティや目的記憶といったLCM幻覚を効果的に緩和し、重要な点として、信頼性グラフを用いることで、推論プロセスをより透明でトレース可能にする。
Trustworthiness reasoning is crucial in multiplayer games with incomplete information, enabling agents to identify potential allies and adversaries, thereby enhancing reasoning and decision-making processes. Traditional approaches relying on pre-trained models necessitate extensive domain-specific data and considerable reward feedback, with their lack of real-time adaptability hindering their effectiveness in dynamic environments. In this paper, we introduce the Graph Retrieval Augmented Reasoning (GRATR) framework, leveraging the Retrieval-Augmented Generation (RAG) technique to bolster trustworthiness reasoning in agents. GRATR constructs a dynamic trustworthiness graph, updating it in real-time with evidential information, and retrieves relevant trust data to augment the reasoning capabilities of Large Language Models (LLMs). We validate our approach through experiments on the multiplayer game "Werewolf," comparing GRATR against baseline LLM and LLM enhanced with Native RAG and Rerank RAG. Our results demonstrate that GRATR surpasses the baseline methods by over 30\% in winning rate, with superior reasoning performance. Moreover, GRATR effectively mitigates LLM hallucinations, such as identity and objective amnesia, and crucially, it renders the reasoning process more transparent and traceable through the use of the trustworthiness graph. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# Lanczosをベースとした線形制約を持つグラフニューラルネットワークにおける表現性の向上
Enhanced Expressivity in Graph Neural Networks with Lanczos-Based Linear Constraints ( http://arxiv.org/abs/2408.12334v1 ) ライセンス: Link先を確認 | Niloofar Azizi, Nils Kriege, Horst Bischof, | (参考訳) グラフニューラルネットワーク(GNN)はグラフ構造化データの処理に優れるが、一般的に使用されるメッセージパッシングGNN(MPNN)の制限により、従来の手法と比較してリンク予測タスクでは性能が劣ることが多い。
特に、非同型グラフを区別する能力は、1次元ワイスフェイラー・リーマン検定によって制限される。
本研究では,GNNの表現性をグラフラプラシア行列の固有基底に埋め込むことにより向上させる新しい手法を提案する。
本稿では,Learnerable LanczosアルゴリズムとLearner Constraints(LLwLC)を導入し,頂点削除部分グラフの符号化とノイマン固有値制約の適用という2つの新しい部分グラフ抽出手法を提案する。
前者にとって、LLwLCは、効率的な時間複雑性を提供する普遍近似器を確立していると推測する。
後者は、$k$-regular graphsとノード自己同型の間の区別を可能にするリンク表現に焦点を当てている。
当社のアプローチは極めて軽量なアーキテクチャを実現し、広範なトレーニングデータセットの必要性を低減します。
実験により,提案手法は,ベンチマークデータセット間のリンク予測タスクの性能向上を実現し,その実用性を確立し,理論的結果をサポートする。
特に、LLwLCは、最先端と比較して、PubMedとOGBL-Vesselのデータセットから5%と10%のデータしか必要とせず、20倍と10倍のスピードアップを実現している。
Graph Neural Networks (GNNs) excel in handling graph-structured data but often underperform in link prediction tasks compared to classical methods, mainly due to the limitations of the commonly used Message Passing GNNs (MPNNs). Notably, their ability to distinguish non-isomorphic graphs is limited by the 1-dimensional Weisfeiler-Lehman test. Our study presents a novel method to enhance the expressivity of GNNs by embedding induced subgraphs into the graph Laplacian matrix's eigenbasis. We introduce a Learnable Lanczos algorithm with Linear Constraints (LLwLC), proposing two novel subgraph extraction strategies: encoding vertex-deleted subgraphs and applying Neumann eigenvalue constraints. For the former, we conjecture that LLwLC establishes a universal approximator, offering efficient time complexity. The latter focuses on link representations enabling differentiation between $k$-regular graphs and node automorphism, a vital aspect for link prediction tasks. Our approach results in an extremely lightweight architecture, reducing the need for extensive training datasets. Empirically, our method improves performance in challenging link prediction tasks across benchmark datasets, establishing its practical utility and supporting our theoretical findings. Notably, LLwLC achieves 20x and 10x speedup by only requiring 5% and 10% data from the PubMed and OGBL-Vessel datasets while comparing to the state-of-the-art. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# 財務文書に対する質問応答のための微調整小言語モデル
Fine-tuning Smaller Language Models for Question Answering over Financial Documents ( http://arxiv.org/abs/2408.12337v1 ) ライセンス: Link先を確認 | Karmvir Singh Phogat, Sai Akhil Puranam, Sridhar Dasaratha, Chetan Harsha, Shashishekar Ramakrishna, | (参考訳) 近年の研究では、より小規模な言語モデルでは、かなり大きな教師モデルによって構築された推論の卓越した微調整によって、実質的な推論能力を得ることができることが示されている。
我々は、金融分野におけるこのパラダイムを探求し、財務文書に対するマルチホップ数値推論を必要とする疑問に答えることに焦点をあてる。
我々は、必要な金銭的推論と計算を符号化するプログラムを生成するために微調整されたいくつかの小さなモデルの性能を評価する。
その結果,これらの微調整された小型モデルが教師モデルの性能に接近していることが判明した。
モデル性能のきめ細かい解析を行うために,微調整により強化された特定の学生モデル機能について検討する手法を提案する。
我々の経験的分析は、微調整により、特定のデータ形式にエンティティ抽出を適用するとともに、必要な財務概念を表現および適用できる学生モデルが洗練されることを示唆している。
さらに、比較的小さなデータセットを用いて、同等の金銭的推論能力を誘導できることを仮説化し、実証する。
Recent research has shown that smaller language models can acquire substantial reasoning abilities when fine-tuned with reasoning exemplars crafted by a significantly larger teacher model. We explore this paradigm for the financial domain, focusing on the challenge of answering questions that require multi-hop numerical reasoning over financial texts. We assess the performance of several smaller models that have been fine-tuned to generate programs that encode the required financial reasoning and calculations. Our findings demonstrate that these fine-tuned smaller models approach the performance of the teacher model. To provide a granular analysis of model performance, we propose an approach to investigate the specific student model capabilities that are enhanced by fine-tuning. Our empirical analysis indicates that fine-tuning refines the student models ability to express and apply the required financial concepts along with adapting the entity extraction for the specific data format. In addition, we hypothesize and demonstrate that comparable financial reasoning capability can be induced using relatively smaller datasets. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# VTON-HandFit:手書きプリミティブでガイドされた任意ハンドのバーチャルトライオン
VTON-HandFit: Virtual Try-on for Arbitrary Hand Pose Guided by Hand Priors Embedding ( http://arxiv.org/abs/2408.12340v1 ) ライセンス: Link先を確認 | Yujie Liang, Xiaobin Hu, Boyuan Jiang, Donghao Luo, Kai WU, Wenhui Han, Taisong Jin, Chengjie Wang, | (参考訳) 拡散型画像仮想トライオンは大きな進歩を遂げているが、新しいアプローチは手排せつ問題(例えば、手の部分によって排除された衣服領域)を効果的に解決することに苦慮しており、試着性能の顕著な低下につながっている。
実世界のシナリオに広く存在するこの問題に対処するために,手前の力を利用して手閉塞症例の外観と構造を再構築するVTON-HandFitを提案する。
まず,コントロールネットをベースとした構造を用いてハンドプレイス・アグリゲーション・ネットを設計し,グローバルハンドを明示的に適応的に符号化し,事前のポーズをとる。
また,手の構造と外観情報をフル活用するために,手前を手前と手前をパラメトリック・視覚的特徴に切り離し,マスク付きクロスアテンションをカスタマイズして,さらに切り離した特徴の埋め込みを行うハンドファインチャ・ディアンタングルメント・エンベディング・モジュールを提案する。
最後に、モデル画像のハンドテンプレートから構造エッジの知識をよりよく学習するために、手指の制約損失をカスタマイズする。
VTON-HandFitは、実世界のシナリオにおける任意の手動オクルージョンケースに対して、公開データセットと自己収集ハンドオクルージョンハンドフィット3Kデータセットの質的、定量的評価において、ベースラインよりも優れています。
コードとデータセットが公開されている。
Although diffusion-based image virtual try-on has made considerable progress, emerging approaches still struggle to effectively address the issue of hand occlusion (i.e., clothing regions occluded by the hand part), leading to a notable degradation of the try-on performance. To tackle this issue widely existing in real-world scenarios, we propose VTON-HandFit, leveraging the power of hand priors to reconstruct the appearance and structure for hand occlusion cases. Firstly, we tailor a Handpose Aggregation Net using the ControlNet-based structure explicitly and adaptively encoding the global hand and pose priors. Besides, to fully exploit the hand-related structure and appearance information, we propose Hand-feature Disentanglement Embedding module to disentangle the hand priors into the hand structure-parametric and visual-appearance features, and customize a masked cross attention for further decoupled feature embedding. Lastly, we customize a hand-canny constraint loss to better learn the structure edge knowledge from the hand template of model image. VTON-HandFit outperforms the baselines in qualitative and quantitative evaluations on the public dataset and our self-collected hand-occlusion Handfit-3K dataset particularly for the arbitrary hand pose occlusion cases in real-world scenarios. Code and dataset will be made publicly available. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# 単光子検出器アレイを用いた線形多重光子数分解
Linearly Multiplexed Photon Number Resolving Single-photon Detectors Array ( http://arxiv.org/abs/2408.12345v1 ) ライセンス: Link先を確認 | Leonardo Limongi, Francesco Martini, Thu Ha Dao, Alessandro Gaggero, Hamza Hasnaoui, Igor Lopez-Gonzalez, Fabio Chiarello, Fabio de Matteis, Alberto Quaranta, Andrea Salamon, Francesco Mattioli, Martino Bernard, Mirko Lobino, | (参考訳) 光子数分解検出器(英: Photon Number Resolving Detector、PNRD)は、入射光ビームに存在する光子数を測定する装置であり、光を量子レベルで測定し、特徴付けることができる。
本稿では, 単一モード導波路上に集積された線形多重光子数分解型単一光子検出器アレイの性能と設計について考察する。
本研究は, 種々の条件下でのアレーの忠実度の定義と解析に焦点をあて, 実装のための実用的な設計を提案する。
理論的解析と数値シミュレーションにより, 伝搬損失や暗黒数の増加がシステムの性能にどのような影響を及ぼすかを示し, 実用化においてこれらの効果を緩和することの重要性を強調した。
Photon Number Resolving Detectors (PNRDs) are devices capable of measuring the number of photons present in an incident optical beam, enabling light sources to be measured and characterized at the quantum level. In this paper, we explore the performance and design considerations of a linearly multiplexed photon number-resolving single-photon detector array, integrated on a single mode waveguide. Our investigation focus on defining and analyzing the fidelity of such an array under various conditions and proposing practical designs for its implementation. Through theoretical analysis and numerical simulations, we show how propagation losses and dark counts may have a strong impact on the performance of the system and highlight the importance of mitigating these effects in practical implementations. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# 雑音量子ハードウェアにおけるマルチパーティ・エンタングルメントの機械学習による認証
Machine-learning certification of multipartite entanglement for noisy quantum hardware ( http://arxiv.org/abs/2408.12349v1 ) ライセンス: Link先を確認 | Andreas J. C. Fuchs, Eric Brunner, Jiheon Seong, Hyeokjea Kwon, Seungchan Seo, Joonwoo Bae, Andreas Buchleitner, Edoardo G. Carnio, | (参考訳) 絡み合いは、概念的にも多くの応用のためにも、量子物理学の基本的な側面である。
任意の多部状態が絡み合った、あるいは分離可能なタスク(分離可能性問題と呼ばれるタスク)として分類することは、状態が多くの異なるパーティションに対して絡み合うことができるため、大きな課題となる。
本研究では,ランダムな局所測定の統計データを非線形次元還元アルゴリズムに供給し,量子状態のどの分割が絡み合っているかを決定する。
異なるパーティションに絡み合ったランダムに生成された量子状態のモデルをトレーニングした後、シミュレーションされたテストデータに基づいて予測の精度を検証し、最終的にIBM量子コンピューティングハードウェア上に用意された状態に適用する。
Entanglement is a fundamental aspect of quantum physics, both conceptually and for its many applications. Classifying an arbitrary multipartite state as entangled or separable -- a task referred to as the separability problem -- poses a significant challenge, since a state can be entangled with respect to many different of its partitions. We develop a certification pipeline that feeds the statistics of random local measurements into a non-linear dimensionality reduction algorithm, to determine with respect to which partitions a given quantum state is entangled. After training a model on randomly generated quantum states, entangled in different partitions and of varying purity, we verify the accuracy of its predictions on simulated test data, and finally apply it to states prepared on IBM quantum computing hardware. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# GarmentAligner: 検索強化多レベル補正によるテキスト・ツー・ゲージ生成
GarmentAligner: Text-to-Garment Generation via Retrieval-augmented Multi-level Corrections ( http://arxiv.org/abs/2408.12352v1 ) ライセンス: Link先を確認 | Shiyue Zhang, Zheng Chong, Xujie Zhang, Hanhui Li, Yuhao Cheng, Yiqiang Yan, Xiaodan Liang, | (参考訳) 一般的なテキスト・ツー・イメージモデルは、芸術、デザイン、メディアの分野に革新をもたらす。
しかし、衣料品生成に適用した場合、最先端のテクスト・ツー・イメージモデルでさえ、特に衣服部品の量、位置、相互関係に関して、細粒度のセマンティック・アライメントに悩まされる。
そこで本稿では,検索による多段階補正を訓練したテキストからガーメントへの拡散モデルであるGarmentAlignerを提案する。
コンポーネントレベルでのセマンティックアライメントを実現するため,自動コンポーネント抽出パイプラインを導入し,対応する画像やキャプションから衣服成分の空間的,定量的な情報を得る。
次に, 衣服画像中の成分関係を活用すべく, 成分レベルの類似度ランキングに基づく検索強化により, 各衣服の検索サブセットを構築し, 正および負のサンプルから成分のモデル知覚を高めるためにコントラスト学習を行う。
意味的,空間的,定量的な粒度にまたがるコンポーネントのアライメントを強化するために,詳細なコンポーネント情報を活用する多段階補正損失の利用を提案する。
実験結果から,GarmentAlignerは既存の競合相手と比較して優れた忠実度と微粒なセマンティックアライメントを実現することが示された。
General text-to-image models bring revolutionary innovation to the fields of arts, design, and media. However, when applied to garment generation, even the state-of-the-art text-to-image models suffer from fine-grained semantic misalignment, particularly concerning the quantity, position, and interrelations of garment components. Addressing this, we propose GarmentAligner, a text-to-garment diffusion model trained with retrieval-augmented multi-level corrections. To achieve semantic alignment at the component level, we introduce an automatic component extraction pipeline to obtain spatial and quantitative information of garment components from corresponding images and captions. Subsequently, to exploit component relationships within the garment images, we construct retrieval subsets for each garment by retrieval augmentation based on component-level similarity ranking and conduct contrastive learning to enhance the model perception of components from positive and negative samples. To further enhance the alignment of components across semantic, spatial, and quantitative granularities, we propose the utilization of multi-level correction losses that leverage detailed component information. The experimental findings demonstrate that GarmentAligner achieves superior fidelity and fine-grained semantic alignment when compared to existing competitors. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# 差分プライバシー下における分散準ニュートンロバスト推定
Distributed quasi-Newton robust estimation under differential privacy ( http://arxiv.org/abs/2408.12353v1 ) ライセンス: Link先を確認 | Chuhan Wang, Lixing Zhu, Xuehu Zhu, | (参考訳) 本稿では,プライバシ保護(PP)制約下でのビザンチンマシンによる分散コンピューティングにおいて,ノードマシンが5つのベクトルを中央プロセッサに送信するだけで高い漸近的相対効率で送信できる,ロバストなPP分散準ニュートン推定法を提案する。
より多くの送信ラウンドを必要とする勾配降下戦略や、ヘッセン行列全体の送信を必要とするニュートン反復戦略と比較すると、新しい準ニュートン反復はプライバシー予算と送信コストを削減する利点がある。
さらに、我々のPPアルゴリズムは勾配と二階微分の有界性に依存しない。
勾配と二階微分が部分指数分布に従うとき、十分に高い確率でPPを保証するメカニズムを提供する。
さらに、この新しい推定器は最適な収束率と漸近正規性を達成することができる。
合成および実データ集合に関する数値的研究は,提案アルゴリズムの性能を評価する。
For distributed computing with Byzantine machines under Privacy Protection (PP) constraints, this paper develops a robust PP distributed quasi-Newton estimation, which only requires the node machines to transmit five vectors to the central processor with high asymptotic relative efficiency. Compared with the gradient descent strategy which requires more rounds of transmission and the Newton iteration strategy which requires the entire Hessian matrix to be transmitted, the novel quasi-Newton iteration has advantages in reducing privacy budgeting and transmission cost. Moreover, our PP algorithm does not depend on the boundedness of gradients and second-order derivatives. When gradients and second-order derivatives follow sub-exponential distributions, we offer a mechanism that can ensure PP with a sufficiently high probability. Furthermore, this novel estimator can achieve the optimal convergence rate and the asymptotic normality. The numerical studies on synthetic and real data sets evaluate the performance of the proposed algorithm. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# 医用画像のためのクラスバランスなオープンセット半教師対象検出
Class-balanced Open-set Semi-supervised Object Detection for Medical Images ( http://arxiv.org/abs/2408.12355v1 ) ライセンス: Link先を確認 | Zhanyun Lu, Renshu Gu, Huimin Cheng, Siyu Pang, Mingyu Xu, Peifang Xu, Yaqi Wang, Yuichiro Kinoshita, Juan Ye, Gangyong Jia, Qing Wu, | (参考訳) 実世界の医療画像データセットは、しばしばラベル付きで不均衡であり、Semi-Supervised Object Detection (SSOD) はラベル付きデータを利用してオブジェクト検出器を改善することができる。
しかし、既存のアプローチでは、ラベルのないデータとテストデータには、アウト・オブ・ディストリビューション(OOD)クラスは含まれていないと推定されている。
数少ないオープンセットの半教師付きオブジェクト検出手法は2つの弱点がある: 第一に、クラス不均衡は考慮されない; 第二に、OODインスタンスは、擬似ラベル処理中に区別され、単に破棄される。
本稿では,OODクラスを含む未ラベルデータを利用して,医用画像のオブジェクト検出を改善するオープンセット半教師対象検出問題について考察する。
本研究は,CCE (Calegory Control Embed) とOODFC (Out-of-distriion Detection Fusion Classifier) の2つの重要なイノベーションを取り入れたものである。
CCEは、フォアグラウンド情報ライブラリを構築することでデータセットの不均衡に取り組むように設計されている。
提案手法は最先端のSSOD性能より優れ,パブリックなParasiteデータセットの4.25mAP改善を実現している。
Medical image datasets in the real world are often unlabeled and imbalanced, and Semi-Supervised Object Detection (SSOD) can utilize unlabeled data to improve an object detector. However, existing approaches predominantly assumed that the unlabeled data and test data do not contain out-of-distribution (OOD) classes. The few open-set semi-supervised object detection methods have two weaknesses: first, the class imbalance is not considered; second, the OOD instances are distinguished and simply discarded during pseudo-labeling. In this paper, we consider the open-set semi-supervised object detection problem which leverages unlabeled data that contain OOD classes to improve object detection for medical images. Our study incorporates two key innovations: Category Control Embed (CCE) and out-of-distribution Detection Fusion Classifier (OODFC). CCE is designed to tackle dataset imbalance by constructing a Foreground information Library, while OODFC tackles open-set challenges by integrating the ``unknown'' information into basic pseudo-labels. Our method outperforms the state-of-the-art SSOD performance, achieving a 4.25 mAP improvement on the public Parasite dataset. | 翻訳日:2024-08-23 14:03:43 公開日:2024-08-22 |
# SoK: RPKIセキュリティのイントロスペクティブ分析
SoK: An Introspective Analysis of RPKI Security ( http://arxiv.org/abs/2408.12359v1 ) ライセンス: Link先を確認 | Donika Mirdita, Haya Schulmann, Michael Waidner, | (参考訳) Resource Public Key Infrastructure (RPKI)は、BGPによるドメイン間ルーティングをプレフィックスのハイジャックから保護する主要なメカニズムである。
すでに大規模なプロバイダによって広くデプロイされており、採用率が重要な点に達しています。
現在、グローバルプレフィックスのほぼ半分はRPKIでカバーされており、27%のネットワークが既にRPKIを使用してBGPの発表を検証していることを示している。
過去10年間、RPKIでは、ソフトウェア脆弱性、インフラストラクチャの堅牢性、RPKIバリデーションの普及など、プロトコルのさまざまな側面を分析する多くの研究努力が続けられてきた。
本研究では,RPKIの脆弱性と誤設定に関する最初のシステム概要をコンパイルし,我々の測定と分析に基づいて,グローバルなRPKIデプロイメントのセキュリティ状況を定量化する。
調査の結果,グローバルRPKIバリデータのうち56%が,少なくとも1つの文書化脆弱性に悩まされていることがわかった。
また,既存のRPKIセキュリティ研究のための知識の体系化を行い,RPKIリポジトリの可用性の新たな動向と,RPKIバリデータとの通信パターンを明らかにする新しい測定手法で既存の知識を補完する。
我々は,既存の研究成果と研究成果をまとめ,脆弱性とその情報源の包括的表表を提供するとともに,RPKIの完全なグローバル展開への準備に必要な今後の研究パスを導出する。
The Resource Public Key Infrastructure (RPKI) is the main mechanism to protect inter-domain routing with BGP from prefix hijacks. It has already been widely deployed by large providers and the adoption rate is getting to a critical point. Almost half of all the global prefixes are now covered by RPKI and measurements show that 27% of networks are already using RPKI to validate BGP announcements. Over the past 10 years, there has been much research effort in RPKI, analyzing different facets of the protocol, such as software vulnerabilities, robustness of the infrastructure or the proliferation of RPKI validation. In this work we compile the first systemic overview of the vulnerabilities and misconfigurations in RPKI and quantify the security landscape of the global RPKI deployments based on our measurements and analysis. Our study discovers that 56% of the global RPKI validators suffer from at least one documented vulnerability. We also do a systematization of knowledge for existing RPKI security research and complement the existing knowledge with novel measurements in which we discover new trends in availability of RPKI repositories, and their communication patterns with the RPKI validators. We weave together the results of existing research and our study, to provide a comprehensive tableau of vulnerabilities, their sources, and to derive future research paths necessary to prepare RPKI for full global deployment. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# CLEANANERCorp: Anercorpデータセットにおける不正ラベルの同定と修正
CLEANANERCorp: Identifying and Correcting Incorrect Labels in the ANERcorp Dataset ( http://arxiv.org/abs/2408.12362v1 ) ライセンス: Link先を確認 | Mashael Al-Duwais, Hend Al-Khalifa, Abdulmalik Al-Salman, | (参考訳) ラベルエラーは、機械学習データセット、特に名前付きエンティティ認識のようなタスクにおいて一般的な問題である。
このようなラベルエラーは、モデルトレーニングを傷つけ、評価結果に影響し、モデルパフォーマンスの不正確な評価につながる可能性がある。
本研究では、広く採用されているアラビアのNERベンチマークデータセット(ANERcorp)の1つを深く掘り下げ、かなりの数のアノテーションエラー、ラベルの欠如、矛盾を発見した。
そこで本研究では,これらの誤りを理解し,修正し,CLEANANERCorpというデータセットのよりクリーンなバージョンを提案する。
CLEANANERCorpは、より正確で一貫したベンチマークとして研究コミュニティにサービスを提供する。
Label errors are a common issue in machine learning datasets, particularly for tasks such as Named Entity Recognition. Such label errors might hurt model training, affect evaluation results, and lead to an inaccurate assessment of model performance. In this study, we dived deep into one of the widely adopted Arabic NER benchmark datasets (ANERcorp) and found a significant number of annotation errors, missing labels, and inconsistencies. Therefore, in this study, we conducted empirical research to understand these errors, correct them and propose a cleaner version of the dataset named CLEANANERCorp. CLEANANERCorp will serve the research community as a more accurate and consistent benchmark. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# SAM-SP: SAMを再び素晴らしいものにするセルフプロンプト
SAM-SP: Self-Prompting Makes SAM Great Again ( http://arxiv.org/abs/2408.12364v1 ) ライセンス: Link先を確認 | Chunpeng Zhou, Kangjie Ning, Qianqian Shen, Sheng Zhou, Zhi Yu, Haishuai Wang, | (参考訳) 先日発表されたVisual Foundation Model(VFM)であるSegment Anything Model(SAM)は、さまざまな自然言語データセットにまたがるゼロショットセグメンテーションタスクにおいて、印象的な機能を示している。
その成功にもかかわらず、SAMは医療画像などの特定の領域に適用した場合、顕著なパフォーマンス劣化に遭遇する。
この問題に対処するための現在の取り組みは、バニラSAMの一般化性を高めるための微調整戦略である。
しかしながら、これらのアプローチは、評価フェーズにおいてドメイン固有の専門家レベルのプロンプトの使用を主に必要とします。
この制限を克服するために,バニラSAMモデルの拡張に適したSAM-SPと呼ばれる,自己プロンプトに基づくファインチューニング手法を導入する。
具体的には、SAM-SPはモデル自体の以前のイテレーションからの出力を利用して、モデルの後続のイテレーションをガイドする。
この自己増殖モジュールは、有用なプロンプトを自律的に生成する方法を学び、評価フェーズにおけるエキスパートプロンプトへの依存を緩和し、SAMの適用性を著しく拡大する。
さらに, 自己蒸留モジュールを統合し, 自己増殖プロセスをさらに強化する。
様々な領域固有のデータセットにわたる大規模な実験により、提案したSAM-SPの有効性が検証された。
我々のSAM-SPは、専門家のプロンプトへの依存を軽減するだけでなく、最先端のタスク固有のセグメンテーションアプローチ、バニラSAM、SAMベースのアプローチと比較して優れたセグメンテーション性能を示す。
The recently introduced Segment Anything Model (SAM), a Visual Foundation Model (VFM), has demonstrated impressive capabilities in zero-shot segmentation tasks across diverse natural image datasets. Despite its success, SAM encounters noticeably performance degradation when applied to specific domains, such as medical images. Current efforts to address this issue have involved fine-tuning strategies, intended to bolster the generalizability of the vanilla SAM. However, these approaches still predominantly necessitate the utilization of domain specific expert-level prompts during the evaluation phase, which severely constrains the model's practicality. To overcome this limitation, we introduce a novel self-prompting based fine-tuning approach, called SAM-SP, tailored for extending the vanilla SAM model. Specifically, SAM-SP leverages the output from the previous iteration of the model itself as prompts to guide subsequent iteration of the model. This self-prompting module endeavors to learn how to generate useful prompts autonomously and alleviates the dependence on expert prompts during the evaluation phase, significantly broadening SAM's applicability. Additionally, we integrate a self-distillation module to enhance the self-prompting process further. Extensive experiments across various domain specific datasets validate the effectiveness of the proposed SAM-SP. Our SAM-SP not only alleviates the reliance on expert prompts but also exhibits superior segmentation performance comparing to the state-of-the-art task-specific segmentation approaches, the vanilla SAM, and SAM-based approaches. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# 時系列予測における不確実性コミュニケーションの促進:洞察と勧告
Enhancing Uncertainty Communication in Time Series Predictions: Insights and Recommendations ( http://arxiv.org/abs/2408.12365v1 ) ライセンス: Link先を確認 | Apoorva Karagappa, Pawandeep Kaur Betz, Jonas Gilg, Moritz Zeumer, Andreas Gerndt, Bernhard Preim, | (参考訳) 世界は、異なる領域における予測の数学的モデルにますます依存しているため、時系列予測における不確実性の効果的なコミュニケーションは、情報的意思決定において重要である。
本研究では, 時系列予測における確率的不確実性を, 不確実性を示す線図の異なる変種で推定する方法を検討する。
個人特性とユーザ報告メトリクスが不確実性評価に与える影響について検討する。
これらの側面に対処することで、不確実性可視化の理解を深め、時系列予測の可視化におけるコミュニケーションの改善と予測データダッシュボードの設計を図り、世界は様々な領域における予測の数学的モデルにますます依存しているため、時系列予測における効果的な不確実性通信は、情報的意思決定において重要である。
本研究では, 時系列予測における確率的不確実性を, 不確実性を示す線図の異なる変種で推定する方法を検討する。
個人特性とユーザ報告メトリクスが不確実性評価に与える影響について検討する。
これらの側面に対処することにより、不確実性可視化の理解を深め、時系列予測可視化におけるコミュニケーションと予測データダッシュボードの設計を改善することを目的とする。
As the world increasingly relies on mathematical models for forecasts in different areas, effective communication of uncertainty in time series predictions is important for informed decision making. This study explores how users estimate probabilistic uncertainty in time series predictions under different variants of line charts depicting uncertainty. It examines the role of individual characteristics and the influence of user-reported metrics on uncertainty estimations. By addressing these aspects, this paper aims to enhance the understanding of uncertainty visualization and for improving communication in time series forecast visualizations and the design of prediction data dashboards.As the world increasingly relies on mathematical models for forecasts in different areas, effective communication of uncertainty in time series predictions is important for informed decision making. This study explores how users estimate probabilistic uncertainty in time series predictions under different variants of line charts depicting uncertainty. It examines the role of individual characteristics and the influence of user-reported metrics on uncertainty estimations. By addressing these aspects, this paper aims to enhance the understanding of uncertainty visualization and for improving communication in time series forecast visualizations and the design of prediction data dashboards. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# 識別型サンプル重み学習によるロバスト主成分分析
Robust Principal Component Analysis via Discriminant Sample Weight Learning ( http://arxiv.org/abs/2408.12366v1 ) ライセンス: Link先を確認 | Yingzhuo Deng, Ke Hu, Bo Li, Yao Zhang, | (参考訳) 主成分分析 (PCA) は古典的特徴抽出法であるが, 外れ値に悪影響を及ぼす可能性があり, プロジェクション行列の精度が低下する。
本稿では,データ平均とPCAプロジェクション行列の両方を,外乱量を含むデータから識別可能なサンプル重みを学習することにより,ロバストな推定法を提案する。
データセットの各サンプルには重みが割り当てられ、提案アルゴリズムは、それぞれ重み、平均、投射行列を反復的に学習する。
具体的には、平均値と投射行列が利用できる場合、各サンプルの重量が階層的に学習され、通常のサンプルが大きな重量を持つのに対して、各サンプルの重量は小さな重量を持つ。
学習した重みが利用可能であれば、データ平均と投影行列の両方を推定するために重み付け最適化問題を解く。
学習重量が正常試料から外れ値を識別するため, 外れ値の悪影響は, 対応する小重量値によって緩和される。
玩具データ, UCIデータセット, 顔データセットを用いた実験により, 平均および投射行列の推定における提案手法の有効性が示された。
Principal component analysis (PCA) is a classical feature extraction method, but it may be adversely affected by outliers, resulting in inaccurate learning of the projection matrix. This paper proposes a robust method to estimate both the data mean and the PCA projection matrix by learning discriminant sample weights from data containing outliers. Each sample in the dataset is assigned a weight, and the proposed algorithm iteratively learns the weights, the mean, and the projection matrix, respectively. Specifically, when the mean and the projection matrix are available, via fine-grained analysis of outliers, a weight for each sample is learned hierarchically so that outliers have small weights while normal samples have large weights. With the learned weights available, a weighted optimization problem is solved to estimate both the data mean and the projection matrix. Because the learned weights discriminate outliers from normal samples, the adverse influence of outliers is mitigated due to the corresponding small weights. Experiments on toy data, UCI dataset, and face dataset demonstrate the effectiveness of the proposed method in estimating the mean and the projection matrix from the data containing outliers. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# RoundTable: 問合せ回答におけるクエリ精度向上のための動的スキーマと文脈自動補完の活用
RoundTable: Leveraging Dynamic Schema and Contextual Autocomplete for Enhanced Query Precision in Tabular Question Answering ( http://arxiv.org/abs/2408.12369v1 ) ライセンス: Link先を確認 | Pratyush Kumar, Kuber Vijaykumar Bellad, Bharat Vadlamudi, Aman Chadha, | (参考訳) LLM(Large Language Models)の進歩により、出現した主要なユースケースは、データベースを平易な英語でクエリし、ユーザ質問を実行可能なデータベースクエリに変換することである。
しかし、現実世界のデータセットは、多くの属性と複雑な値を特徴としており、自然言語クエリから関連する列や値を正確に識別するLLMタスクを複雑にしている。
従来の手法では、データセットのサイズと複雑さをLLMに完全にリレーすることはできない。
これらの課題に対処するために,入力テーブル上でFTS(Full-Text Search)を活用する新しいフレームワークを提案する。
このアプローチは、特定の値や列を正確に検出するだけでなく、言語モデルの検索スペースを狭め、クエリの精度を向上させる。
さらに、テーブル内のデータに基づいたクエリを推奨するカスタムの自動補完機能もサポートされている。
この統合により、ユーザと複雑なデータセット間のインタラクションが大幅に改善され、現在のテーブルクエリ機能によって直面する制限に対する高度なソリューションが提供される。
この作業にはMacとWindowsプラットフォーム用のアプリケーションが含まれており、読者は自身のデータで試すことができる。
With advancements in Large Language Models (LLMs), a major use case that has emerged is querying databases in plain English, translating user questions into executable database queries, which has improved significantly. However, real-world datasets often feature a vast array of attributes and complex values, complicating the LLMs task of accurately identifying relevant columns or values from natural language queries. Traditional methods cannot fully relay the datasets size and complexity to the LLM. To address these challenges, we propose a novel framework that leverages Full-Text Search (FTS) on the input table. This approach not only enables precise detection of specific values and columns but also narrows the search space for language models, thereby enhancing query accuracy. Additionally, it supports a custom auto-complete feature that suggests queries based on the data in the table. This integration significantly refines the interaction between the user and complex datasets, offering a sophisticated solution to the limitations faced by current table querying capabilities. This work is accompanied by an application for both Mac and Windows platforms, which readers can try out themselves on their own data. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# 相対論的運動下における基底非依存量子コヒーレンスとその分布
Basis-independent quantum coherence and its distribution under relativistic motion ( http://arxiv.org/abs/2408.12370v1 ) ライセンス: Link先を確認 | Ming-Ming Du, Hong-Wei Li, Zhen Tao, Shu-Ting Shen, Xiao-Jing Yan. Xi-Yun Li, Wei Zhong, Yu-Bo Sheng, Lan Zhou, | (参考訳) 近年の研究では、相対論的運動が量子コヒーレンスに与える影響に焦点が当てられている。
以前の研究では、相対運動が基底依存性の量子コヒーレンスに与える影響を主に検討し、加速条件下でのデコヒーレンスに対する感受性を裏付けた。
しかし、基底非依存の量子コヒーレンスに対する相対論的運動の影響は、系の固有の量子的特徴を理解する上で重要なものであり、興味深い疑問である。
本稿では, 加速度と結合強度の合計, 集合的, 局所的コヒーレンスの影響について検討する。
解析の結果,加速と結合強度の増大に伴い,総コヒーレンスと集合コヒーレンスの両方が著しく減少し,最終的には高レベルの加速で消滅することが明らかとなった。
このことは、ウンルー熱雑音の深刻な影響を浮き彫りにする。
逆に、局所コヒーレンス(英語版)は相対的な安定性を示し、無限加速の極端な条件下でのみゼロに減少する。
さらに, 集合的, 局所的, 基底に依存しないコヒーレンスが, 三角形の不等式を包括的に満たしていることを示す。
これらの発見は、高い加速を受ける環境における量子情報力学の理解を深め、相対論的条件下での量子コヒーレンスの挙動に関する貴重な洞察を提供するために重要である。
Recent studies have increasingly focused on the effect of relativistic motion on quantum coherence. Prior research predominantly examined the influence of relative motion on basis-dependent quantum coherence, underscoring its susceptibility to decoherence under accelerated conditions. Yet, the effect of relativistic motion on basis-independent quantum coherence, which is critical for understanding the intrinsic quantum features of a system, remains an interesting open question. This paper addresses this question by examining how total, collective, and localized coherence are affected by acceleration and coupling strength. Our analysis reveals that both total and collective coherence significantly decrease with increasing acceleration and coupling strength, ultimately vanishing at high levels of acceleration. This underscores the profound impact of Unruh thermal noise. Conversely, localized coherence exhibits relative stability, decreasing to zero only under the extreme condition of infinite acceleration. Moreover, we demonstrate that collective, localized, and basis-independent coherence collectively satisfy the triangle inequality. These findings are crucial for enhancing our understanding of quantum information dynamics in environments subjected to high acceleration and offer valuable insights on the behavior of quantum coherence under relativistic conditions. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# 細胞オントロジー誘導トランスクリプトーム基盤モデル
Cell-ontology guided transcriptome foundation model ( http://arxiv.org/abs/2408.12373v1 ) ライセンス: Link先を確認 | Xinyu Yuan, Zhihao Zhan, Zuobai Zhang, Manqi Zhou, Jianan Zhao, Boyu Han, Yue Li, Jian Tang, | (参考訳) トランスクリプトーム基礎モデル TFM は、大規模単一細胞遺伝子発現データによる自己教師付き学習により、多様な細胞機能を規定する転写言語を解読し、究極的にはヒト疾患の複雑なメカニズムを解明する、という大きな約束を持っている。
しかし、現在のTFMは、細胞を独立したサンプルとして扱い、細胞オントロジーグラフで利用可能な細胞タイプ間の分類学的関係を無視している。
我々は、このオントロジー情報をTFM事前学習で効果的に活用することで、生物学的に意味のある遺伝子共発現パターンを学習し、TFMを下流ゼロショットおよび微調整タスクのための汎用基盤モデルとして保存することが可能になると論じている。
この目的のために、 TFM scCello をガイドした \textbf{s}ingle \textbf{c}ell, \textbf{Cell}-\textbf{o}ntology を示す。
本研究は,細胞型コヒーレンス・ロスとオントロジーアライメント・ロスを導入し,プレトレーニング中のマスク付き遺伝子発現予測損失と合わせて最小化する。
新規な損失成分ガイドscCelloは、細胞オントロジーグラフから細胞タイプ特異的表現と細胞タイプ間の構造的関係をそれぞれ学習する。
オープンバイオロジー・バイオメディカルオントロジーファウンデーションの細胞オントロジーグラフにマッピングされた細胞型ラベルを利用して,CellxGeneデータベースから2200万の細胞上でscCelloを事前訓練した。
我々のTFMは、新規な未確認細胞のタイプ同定、細胞型特異的マーカー遺伝子の予測、がん薬物応答など、生物学的に重要なタスクにおいて、既存のTFMよりも競合的な一般化と伝達性性能を示す。
Transcriptome foundation models TFMs hold great promises of deciphering the transcriptomic language that dictate diverse cell functions by self-supervised learning on large-scale single-cell gene expression data, and ultimately unraveling the complex mechanisms of human diseases. However, current TFMs treat cells as independent samples and ignore the taxonomic relationships between cell types, which are available in cell ontology graphs. We argue that effectively leveraging this ontology information during the TFM pre-training can improve learning biologically meaningful gene co-expression patterns while preserving TFM as a general purpose foundation model for downstream zero-shot and fine-tuning tasks. To this end, we present \textbf{s}ingle \textbf{c}ell, \textbf{Cell}-\textbf{o}ntology guided TFM scCello. We introduce cell-type coherence loss and ontology alignment loss, which are minimized along with the masked gene expression prediction loss during the pre-training. The novel loss component guide scCello to learn the cell-type-specific representation and the structural relation between cell types from the cell ontology graph, respectively. We pre-trained scCello on 22 million cells from CellxGene database leveraging their cell-type labels mapped to the cell ontology graph from Open Biological and Biomedical Ontology Foundry. Our TFM demonstrates competitive generalization and transferability performance over the existing TFMs on biologically important tasks including identifying novel cell types of unseen cells, prediction of cell-type-specific marker genes, and cancer drug responses. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# カスナー宇宙における静的鏡による静的原子の時間的仮想遷移と将来のクルスカル・シェケレス領域
Timelike virtual transition in a static atom by a static mirror in Kasner Universe and in future Kruskal-Szekeres region ( http://arxiv.org/abs/2408.12378v1 ) ライセンス: Link先を確認 | Subhajit Barman, Pradeep Kumawat, Bibhas Ranjan Majhi, | (参考訳) ミンコフスキー時空のカスナー領域および(1+1)$次元シュワルツシルトブラックホールの領域内における無限反射鏡の存在下での2レベル原子の時間的遷移について検討する。
特に、カスナー時空を考えると、2つの特定のシナリオが --$で処理される。
(i)$ a static mirror is synchronized with Minkowski time, the static atom is using future Kasner time, $
(ii)静的原子はミンコフスキー時間を使用し、ミラーは将来のカスナー時間に従っている。
ブラックホールの時空における類似のシナリオは -- 静的鏡は将来のクルスカル時間を使用し、静的原子はブラックホールの内部で定義されているシュワルツシルト時間のような座標を時間として使用し、その逆は逆である。
これらすべてのシナリオにおいて、熱応答とその周期的依存は原子と鏡の分離に依存する。
これらの反応はこの分離によって周期的に消えるが、これは一様加速のシナリオとは対照的である。
1+1)$次元ミンコフスキー・カスナー応答は原子と磁場の周波数が等しいときに同じである。
同時に、シュワルツシルト中間子と$(3+1)$次元ミンコフスキー=カスナーは同じ原子と磁場の周波数に対して不等式である。
したがって、2つのシナリオ間の対称性のロバスト性は、時空の曲率だけでなく次元にも大きく依存する。
定性的にはミンコフスキー・カスナーとシュワルツシルト・インターチェンジの間にはある種の類似点があるが、それらは決定的な違いももたらしている。
これらの観察の物理的解釈について議論する。
We investigate the timelike transitions in a two-level atom in the presence of an infinite reflecting mirror in the Kasner regions of a Minkowski spacetime as well as region interior of a $(1+1)$ dimensional Schwarzschild black hole. In particular, when considering the Kasner spacetime, two specific scenarios are dealt with -- $(i)$ a static mirror is synchronized with Minkowski time while the static atom is using future Kasner time, $(ii)$ a static atom is using Minkowski time and the mirror is following the future Kasner time. Analogous scenarios in the black hole spacetime are -- the static mirror is using future Kruskal time while the static atom is using Schwarzschild timelike coordinate, defined inside the black hole, as its time, and vice-versa. In all of these scenarios, we observe thermal response and its periodic dependence on the separation between the atom and the mirror. These responses vanish periodically with this separation, which contrasts the scenario of uniform acceleration. We observe that the $(1+1)$ dimensional Minkowski-Kasner responses are the same when the atomic and field frequencies are equal. At the same time, the Schwarzschild-interior and $(3+1)$ dimensional Minkowski-Kasner are unequal for the same atomic and field frequencies. Therefore we feel that the robustness of the symmetry between the two scenarios crucially depends on the dimension as well as the curvature of the spacetime. Although qualitatively, there exist similarities to a certain degree between the responses in the Minkowski-Kasner and Schwarzschild-interior, they also carry crucial differences. We discuss the physical interpretations of these observations. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# UMERegRobust - ロバストポイントクラウド登録のための互換性のある機能を組み込んだユニバーサルマニフォールド
UMERegRobust -- Universal Manifold Embedding Compatible Features for Robust Point Cloud Registration ( http://arxiv.org/abs/2408.12380v1 ) ライセンス: Link先を確認 | Yuval Haitman, Amit Efraim, Joseph M. Francos, | (参考訳) 本稿では,厳密な変換を推定するためのUME(Universal Manifold Embedding)フレームワークを採用し,それを拡張することにより,部分的な重複と異なるサンプルの点群を含むシナリオに対応する。
UMEは、剛体変換に関連する同じ物体の観測を単一の低次元線型部分空間にマッピングするために設計された方法論である。
この過程は、その行列形式表現が変換と共変(すなわち同変)であるような、観測の変換不変表現をもたらす。
独自のUMEコントラスト損失とサンプリング等化器を付加したUME互換特徴抽出手法を導入することで、UMEフレームワークを拡張した。
これらのコンポーネントは、UMERegRobustという、包括的で堅牢な登録パイプラインに統合される。
本稿では,大規模な回転を含むシナリオの登録方法を評価するために,RotKITTI登録ベンチマークを提案する。
UMERegRobust は KITTI ベンチマークの最先端性能よりも優れており、特に (1{\deg}, 10cm) の厳密な精度(平均利得+9%)が考慮され、特に RotKITTI ベンチマークの SOTA 法よりも優れている(最近の SOTA 法と比較すると +45% 向上)。
私たちのコードはhttps://github.com/yuvalH9/UMERegRobust.comから入手可能です。
In this paper, we adopt the Universal Manifold Embedding (UME) framework for the estimation of rigid transformations and extend it, so that it can accommodate scenarios involving partial overlap and differently sampled point clouds. UME is a methodology designed for mapping observations of the same object, related by rigid transformations, into a single low-dimensional linear subspace. This process yields a transformation-invariant representation of the observations, with its matrix form representation being covariant (i.e. equivariant) with the transformation. We extend the UME framework by introducing a UME-compatible feature extraction method augmented with a unique UME contrastive loss and a sampling equalizer. These components are integrated into a comprehensive and robust registration pipeline, named UMERegRobust. We propose the RotKITTI registration benchmark, specifically tailored to evaluate registration methods for scenarios involving large rotations. UMERegRobust achieves better than state-of-the-art performance on the KITTI benchmark, especially when strict precision of (1{\deg}, 10cm) is considered (with an average gain of +9%), and notably outperform SOTA methods on the RotKITTI benchmark (with +45% gain compared the most recent SOTA method). Our code is available at https://github.com/yuvalH9/UMERegRobust. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# アマゾン森林破壊検知のための群集の知恵に基づくサンプリング戦略
Sampling Strategies based on Wisdom of Crowds for Amazon Deforestation Detection ( http://arxiv.org/abs/2408.12381v1 ) ライセンス: Link先を確認 | Hugo Resende, Eduardo B. Neto, Fabio A. M. Cappabianco, Alvaro L. Fazenda, Fabio A. Faria, | (参考訳) 熱帯林の保全は、地球生態系において重要な役割を担っているため、社会的・生態学的に非常に関係がある。
しかし、森林破壊と荒廃は毎年数百万ヘクタールに影響を及ぼし、効果的な森林モニタリングを確保するために政府や民間のイニシアチブを必要としている。
2019年4月、フォレストアイス(FE)と呼ばれる市民科学と機械学習モデルに基づくプロジェクトが立ち上げられた。
最近の研究では、FEプロジェクトのボランティア/市民科学者のラベル付けが機械学習モデルの調整に役立つことが示されている。
この意味で、私たちはFEプロジェクトを採用し、群衆の知恵に基づいて異なるサンプリング戦略を作成し、トレーニングセットから最も適したサンプルを選択し、SVM技術を学び、森林破壊検出タスクにおいてより良い分類結果を得る。
本実験では, ランダムサンプリング手法と比較して, 森林破壊検出タスクにおいて, ユーザのエントロピー増加に基づく戦略が, 最高の分類結果を達成し, SVM手法の収束時間を短縮することを示した。
Conserving tropical forests is highly relevant socially and ecologically because of their critical role in the global ecosystem. However, the ongoing deforestation and degradation affect millions of hectares each year, necessitating government or private initiatives to ensure effective forest monitoring. In April 2019, a project based on Citizen Science and Machine Learning models called ForestEyes (FE) was launched with the aim of providing supplementary data to assist experts from government and non-profit organizations in their deforestation monitoring efforts. Recent research has shown that labeling FE project volunteers/citizen scientists helps tailor machine learning models. In this sense, we adopt the FE project to create different sampling strategies based on the wisdom of crowds to select the most suitable samples from the training set to learn an SVM technique and obtain better classification results in deforestation detection tasks. In our experiments, we can show that our strategy based on user entropy-increasing achieved the best classification results in the deforestation detection task when compared with the random sampling strategies, as well as, reducing the convergence time of the SVM technique. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# ハイブリッドマイクロ波回路を用いたファンデルワールス銅酸化物超伝導体の探索
Exploring van der Waals cuprate superconductors using a hybrid microwave circuit ( http://arxiv.org/abs/2408.12383v1 ) ライセンス: Link先を確認 | Haolin Jin, Giuseppe Serpico, Yejin Lee, Tommaso Confalone, Christian N. Saggau, Flavia Lo Sardo, Genda Gu, Berit H. Goodge, Edouard Lesne, Domenico Montemurro, Kornelius Nielsch, Nicola Poccia, Uri Vool, | (参考訳) 二次元ファンデルワールス物質の出現は、凝縮物質物理学と量子デバイスの最前線である。
しかし, バルク材料技術に限界があるため, 特殊な手法の開発が必要であるため, キャラクタリゼーションは依然として困難である。
本研究では,Bi2Sr2CaCu2O8+xの超伝導特性について,ハイブリッド超伝導マイクロ波共振器と一体化して検討した。
ハイブリット共振器は、高品質な要素を維持しつつ、フレークとの相互作用によって著しく変更される。
また, 温度上昇に伴う共振器周波数の顕著なアップシフトと, 正の非線形性も観察した。
これらの効果は、現在のフレーク内の未知の顕微鏡機構に由来するもので、共振モードと相互作用する2レベルのシステムバスとしてモデル化することができる。
我々の発見は、ファンデルワールスフレークスを用いた高品質ハイブリッド回路の道を開き、新しい材料を探索し、量子技術のための新しいデバイスを開発する。
The advent of two-dimensional van der Waals materials is a frontier of condensed matter physics and quantum devices. However, characterizing such materials remains challenging due to the limitations of bulk material techniques, necessitating the development of specialized methods. In this study, we investigate the superconducting properties of Bi2Sr2CaCu2O8+x flakes by integrating them with a hybrid superconducting microwave resonator. The hybrid resonator is significantly modified by the interaction with the flake while maintaining a high quality factor. We also observe a significant upshift of the resonator frequency with increasing temperature, as well as a positive nonlinearity. These effects originate from a presently unknown microscopic mechanism within the flake, and can be modeled as a two-level system bath interacting with resonant mode. Our findings open a path for high quality hybrid circuits with van der Waals flakes for exploring novel materials and developing new devices for quantum technology. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# Sharper、Chebyshev Momentと差別的プライバシおよびそれ以上のアプリケーションとのマッチングをサポート
Sharper Bounds for Chebyshev Moment Matching with Applications to Differential Privacy and Beyond ( http://arxiv.org/abs/2408.12385v1 ) ライセンス: Link先を確認 | Cameron Musco, Christopher Musco, Lucas Rosenblatt, Apoorv Vikram Singh, | (参考訳) 本研究では,チェビシェフ多項式モーメントの雑音測定により,確率分布をおよそ復元する問題について検討する。
我々は、ワッサーシュタイン距離の正確な回復が、以前よりも多くのノイズで可能であることを証明し、事前の作業を強化した。
メインアプリケーションとして,Wasserstein-1 エラー $\tilde{O}(1/n)$ で差分プライベートな合成データ分布を構築するための単純な "線形クエリ" アルゴリズムを作成した。
この境界はログファクタに最適であり、Boedihardjo, Strohmer, and Vershynin [Probab. Theory. Rel., 2024]の最近のブレークスルーと一致する。
ブレーバーマン、クリシュナン、マスコ(STOC 2022)のアプローチを改善することにより、我々の結果は、ワッサーシュタイン距離の小さな誤差まで対称行列のスペクトル密度を推定するより高速なアルゴリズムをもたらす。
We study the problem of approximately recovering a probability distribution given noisy measurements of its Chebyshev polynomial moments. We sharpen prior work, proving that accurate recovery in the Wasserstein distance is possible with more noise than previously known. As a main application, our result yields a simple "linear query" algorithm for constructing a differentially private synthetic data distribution with Wasserstein-1 error $\tilde{O}(1/n)$ based on a dataset of $n$ points in $[-1,1]$. This bound is optimal up to log factors and matches a recent breakthrough of Boedihardjo, Strohmer, and Vershynin [Probab. Theory. Rel., 2024], which uses a more complex "superregular random walk" method to beat an $O(1/\sqrt{n})$ accuracy barrier inherent to earlier approaches. We illustrate a second application of our new moment-based recovery bound in numerical linear algebra: by improving an approach of Braverman, Krishnan, and Musco [STOC 2022], our result yields a faster algorithm for estimating the spectral density of a symmetric matrix up to small error in the Wasserstein distance. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# 遅延測定による量子ラビンオブリバスト転移の加熱
Cheating in quantum Rabin oblivious transfer using delayed measurements ( http://arxiv.org/abs/2408.12388v1 ) ライセンス: Link先を確認 | James T. Peat, Erika Andersson, | (参考訳) マルチパーティ計算のビルディングブロックとして使用できるため、オープントランスファーは研究の関心を集めている。
可観測移動には様々な形態があり、ラビン可観測移動(Rabin oblivious transfer)と呼ばれる変種を探索する。
ここで、送信側Aliceは1ビットであり、受信側Bobはこのビットを一定の確率で取得する。
送信側は受信者がビットを取得したかどうかを知らない。
従来提案されていたプロトコルでは,遅延測定による攻撃の可能性を示す。
これにより、不正行為当事者は、相手が行ったテストに合格でき、正直であるかどうかよりも多くの情報を得ることができる。
この攻撃によって、プロトコルが変更されない限り、完全な不正行為が可能であることを示し、検査された不正行為戦略の不正行為確率を低くする変更を提案する。
Oblivious transfer has been the interest of study as it can be used as a building block for multiparty computation. There are many forms of oblivious transfer; we explore a variant known as Rabin oblivious transfer. Here the sender Alice has one bit, and the receiver Bob obtains this bit with a certain probability. The sender does not know whether the receiver obtained the bit or not. For a previously suggested protocol, we show a possible attack using a delayed measurement. This allows a cheating party to pass tests carried out by the other party, while gaining more information than if they would have been honest. We show how this attack allows perfect cheating, unless the protocol is modified, and suggest changes which lower the cheating probability for the examined cheating strategies. | 翻訳日:2024-08-23 13:53:43 公開日:2024-08-22 |
# シュワルツシルト時空の背景における最大操舵コヒーレンス
Maximal steered coherence in the background of Schwarzschild space-time ( http://arxiv.org/abs/2408.12395v1 ) ライセンス: Link先を確認 | Ming-Ming Du, Hong-Wei Li, Shu-Ting Shen, Xiao-Jing Yan, Xi-Yun Li, Lan Zhou, Wei Zhong, Yu-Bo Sheng, | (参考訳) 過去20年間、シュワルツシルトの時空における量子性の探索は、特にホーキング放射が量子相関や量子コヒーレンスに与える影響に関して大きな関心を集めてきた。
この基礎の上に、ホーキング放射が最大ステアリングコヒーレンス(MSC)にどのように影響するかを調査する。
ホーキング温度が上昇するにつれて、物理的にアクセス可能なMSCは低下し、アクセス不可能なMSCは上昇する。
この観測は、かつて慣性観測者によって認識されていた初期量子相関の再分配が、全ての二部体モードに起因している。
特に、ホーキング温度が無限大になる場合、アクセス可能なMSCはその初期値の 1/\sqrt{2} に等しく、到達できないMSCも同じ値である。
我々の発見はブラックホール近傍の量子情報の複雑なダイナミクスを解明し、湾曲した時空における量子コヒーレンスと絡み合いの風景を形作る上でホーキング放射が重要な役割を担っていることを示唆している。
この研究は、ブラックホールの熱力学の理論的な理解を深めるだけでなく、量子力学と一般相対性理論の相互作用を研究するための新たな道を開く。
In the past two decades, the exploration of quantumness within Schwarzschild spacetime has garnered significant interest, particularly regarding the Hawking radiation's impact on quantum correlations and quantum coherence. Building on this foundation, we investigate how Hawking radiation influences maximal steered coherence (MSC)-a crucial measure for gauging the ability to generate coherence through steering. We find that as the Hawking temperature increases, the physically accessible MSC degrade while the unaccessible MSC increase. This observation is attributed to a redistribution of the initial quantum correlations, previously acknowledged by inertial observers, across all bipartite modes. In particular, we find that in limit case that the Hawking temperature tends to infinity, the accessible MSC equals to 1/\sqrt{2} of its initial value, and the unaccessible MSC also equals to the same value. Our findings illuminate the intricate dynamics of quantum information in the vicinity of black holes, suggesting that Hawking radiation plays a pivotal role in reshaping the landscape of quantum coherence and entanglement in curved spacetime. This study not only advances our theoretical understanding of black hole thermodynamics but also opens new avenues for investigating the interface between quantum mechanics and general relativity. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# クロスドメインファンデーションモデル適応:物理データ解析のためのコンピュータビジョンモデルのパイオニア化
Cross-Domain Foundation Model Adaptation: Pioneering Computer Vision Models for Geophysical Data Analysis ( http://arxiv.org/abs/2408.12396v1 ) ライセンス: Link先を確認 | Zhixiang Guo, Xinming Wu, Luming Liang, Hanlin Sheng, Nuo Chen, Zhengfa Bi, | (参考訳) コンピュータビジョン領域から地球科学への適応基盤モデル(FM)について検討する。
大規模なデータセットでトレーニングされた大規模なニューラルネットワークであるFMは、顕著な適応性と汎用性を備えた多様なタスクに優れています。
しかし、ジオサイエンスは、キュレートされたトレーニングデータセットの欠如や、特殊なFMを開発するための高い計算コストといった課題に直面している。
本研究では,コンピュータビジョンから地学へのFMの適用について検討し,その規模,適応性,地学データ解析の汎用性について考察した。
本稿では,既存のコンピュータビジョンFMを活用し,地学的なタスクを微調整し,開発コストを低減し,精度を向上するワークフローを提案する。
実験を通じて,このワークフローの有効性を,月面画像,地震データ,DASアレイなどの地質学的データを処理・解釈するための広範囲な応用で実証した。
本研究は, 地学への高度ML技術の導入, クロスドメインFMの適応の実現可能性とメリットの証明, 地質学的データ解析のさらなる進歩, その他の科学領域におけるFMs応用に有用な洞察の提供について紹介する。
We explore adapting foundation models (FMs) from the computer vision domain to geoscience. FMs, large neural networks trained on massive datasets, excel in diverse tasks with remarkable adaptability and generality. However, geoscience faces challenges like lacking curated training datasets and high computational costs for developing specialized FMs. This study considers adapting FMs from computer vision to geoscience, analyzing their scale, adaptability, and generality for geoscientific data analysis. We introduce a workflow that leverages existing computer vision FMs, fine-tuning them for geoscientific tasks, reducing development costs while enhancing accuracy. Through experiments, we demonstrate this workflow's effectiveness in broad applications to process and interpret geoscientific data of lunar images, seismic data, DAS arrays and so on. Our findings introduce advanced ML techniques to geoscience, proving the feasibility and advantages of cross-domain FMs adaptation, driving further advancements in geoscientific data analysis and offering valuable insights for FMs applications in other scientific domains. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# サイテーション評価における信心度と人間の比較分析
A Comparative Analysis of Faithfulness Metrics and Humans in Citation Evaluation ( http://arxiv.org/abs/2408.12398v1 ) ライセンス: Link先を確認 | Weijia Zhang, Mohammad Aliannejadi, Jiahuan Pei, Yifei Yuan, Jia-Hong Huang, Evangelos Kanoulas, | (参考訳) 大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成する。
これを解決するために、検索拡張LDMを使用して、コンテンツに引用を含ませ、検証可能なソースにコンテンツを基盤とする。
このような発展にもかかわらず、引用が関連するステートメントをどの程度うまくサポートしているかを手作業で評価することは、依然として大きな課題である。
従来の研究では、信頼度指標を活用して引用支援を自動的に見積もっていた。
しかし、彼らはこの引用支援推定を二項分類シナリオに制限し、実践シナリオにおけるきめ細かい引用支援を無視した。
細粒度シナリオにおける忠実度指標の有効性を検討するため, 完全, 部分, サポートなしの3段階のサポートレベル間の引用を識別する上で, メトリクスの有効性を評価するための比較評価フレームワークを提案する。
本フレームワークでは, 相関分析, 分類評価, 検索評価を用いて, 測定値と人的判断とのアライメントを総合的に測定する。
以上の結果から,全ての評価において一貫した指標が存在しないことが示唆され,詳細なサポートレベルを正確に評価することの難しさが強調された。
特に、最高のパフォーマンスのメトリクスは、部分的なサポートと完全なサポートやサポートの欠如を区別するのに苦労しています。
これらの知見に基づき、より効果的なメトリクスを開発するための実践的なレコメンデーションを提供する。
Large language models (LLMs) often generate content with unsupported or unverifiable content, known as "hallucinations." To address this, retrieval-augmented LLMs are employed to include citations in their content, grounding the content in verifiable sources. Despite such developments, manually assessing how well a citation supports the associated statement remains a major challenge. Previous studies tackle this challenge by leveraging faithfulness metrics to estimate citation support automatically. However, they limit this citation support estimation to a binary classification scenario, neglecting fine-grained citation support in practical scenarios. To investigate the effectiveness of faithfulness metrics in fine-grained scenarios, we propose a comparative evaluation framework that assesses the metric effectiveness in distinguishing citations between three-category support levels: full, partial, and no support. Our framework employs correlation analysis, classification evaluation, and retrieval evaluation to measure the alignment between metric scores and human judgments comprehensively. Our results indicate no single metric consistently excels across all evaluations, highlighting the complexity of accurately evaluating fine-grained support levels. Particularly, we find that the best-performing metrics struggle to distinguish partial support from full or no support. Based on these findings, we provide practical recommendations for developing more effective metrics. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# マスク生成モデルによるマルチスタイル顔スケッチ合成
Multi-Style Facial Sketch Synthesis through Masked Generative Modeling ( http://arxiv.org/abs/2408.12400v1 ) ライセンス: Link先を確認 | Bowen Sun, Guo Lu, Shibao Zheng, | (参考訳) 顔写真からスケッチ画像を生成することのできる顔スケッチ合成(FSS)モデルは、クロスモーダルな顔認識、エンターテイメント、アート、メディアなどを含む複数の領域に深く影響している。
しかし, 高品質スケッチの作成は, 1) アーティストが描いたデータの不足, (2) 限られたスタイル型による制約, (3) 既存モデルにおける入力情報の処理不足, の3つの主要な要因に関連する課題や欠点から, 依然として困難な課題である。
これらの問題に対処するために,画像を対応するマルチスティル化されたスケッチに変換する軽量なエンドツーエンド合成モデルを提案し,補足的な入力(3次元幾何)の必要性を排除した。
本研究では,半教師付き学習を学習プロセスに取り入れることで,データ不足の問題を克服する。
さらに,マスク付き画像トークンの反復予測において,特徴抽出モジュールとスタイル埋め込みを用いて生成変換器を巧みに操り,スケッチにおける顔の特徴を正確に保持する連続的なスタイル化出力を実現する。
実験により,提案手法は複数のベンチマークにおいて従来アルゴリズムよりも常に優れており,相違点が明らかであることが示された。
The facial sketch synthesis (FSS) model, capable of generating sketch portraits from given facial photographs, holds profound implications across multiple domains, encompassing cross-modal face recognition, entertainment, art, media, among others. However, the production of high-quality sketches remains a formidable task, primarily due to the challenges and flaws associated with three key factors: (1) the scarcity of artist-drawn data, (2) the constraints imposed by limited style types, and (3) the deficiencies of processing input information in existing models. To address these difficulties, we propose a lightweight end-to-end synthesis model that efficiently converts images to corresponding multi-stylized sketches, obviating the necessity for any supplementary inputs (\eg, 3D geometry). In this study, we overcome the issue of data insufficiency by incorporating semi-supervised learning into the training process. Additionally, we employ a feature extraction module and style embeddings to proficiently steer the generative transformer during the iterative prediction of masked image tokens, thus achieving a continuous stylized output that retains facial features accurately in sketches. The extensive experiments demonstrate that our method consistently outperforms previous algorithms across multiple benchmarks, exhibiting a discernible disparity. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# 一般化SAM: 可変入力画像サイズに対するSAMの効率的な微調整
Generalized SAM: Efficient Fine-Tuning of SAM for Variable Input Image Sizes ( http://arxiv.org/abs/2408.12406v1 ) ライセンス: Link先を確認 | Sota Kato, Hinako Mitsuoka, Kazuhiro Hotta, | (参考訳) 近年,ファウンデーションモデルの改良に関する研究が盛んに行われている。
本稿では,Segment Anything Model(SAM)の入力画像サイズを可変化するための,効率的な微調整手法を提案する。
SAMは、巨大なデータセットでトレーニングされた画像セグメンテーションのための強力な基礎モデルであるが、任意のクラスを認識するには微調整が必要である。
SAMの入力画像サイズは1024 x 1024で固定され、トレーニング中にかなりの計算要求が発生する。
さらに、固定入力画像サイズは、固定アスペクト比による画像情報、例えば、損失をもたらす可能性がある。
この問題に対処するため,一般化SAM (Generalized SAM) を提案する。
従来の手法とは異なり、GSAMはSAMを用いたトレーニング中にランダムトリミングを初めて適用し、トレーニングの計算コストを大幅に削減した。
様々な種類のデータセットと様々なピクセル数の実験により、GSAMはSAMや他のSAMの微調整方法よりも効率的に訓練することができ、同等または高い精度を達成することが示されている。
There has been a lot of recent research on improving the efficiency of fine-tuning foundation models. In this paper, we propose a novel efficient fine-tuning method that allows the input image size of Segment Anything Model (SAM) to be variable. SAM is a powerful foundational model for image segmentation trained on huge datasets, but it requires fine-tuning to recognize arbitrary classes. The input image size of SAM is fixed at 1024 x 1024, resulting in substantial computational demands during training. Furthermore, the fixed input image size may result in the loss of image information, e.g. due to fixed aspect ratios. To address this problem, we propose Generalized SAM (GSAM). Different from the previous methods, GSAM is the first to apply random cropping during training with SAM, thereby significantly reducing the computational cost of training. Experiments on datasets of various types and various pixel counts have shown that GSAM can train more efficiently than SAM and other fine-tuning methods for SAM, achieving comparable or higher accuracy. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# ハイブリッド符号化を用いた適応スパイクニューラルネットワーク
Adaptive Spiking Neural Networks with Hybrid Coding ( http://arxiv.org/abs/2408.12407v1 ) ライセンス: Link先を確認 | Huaxu He, | (参考訳) スパイキングニューラルネットワーク(SNN)は、独自のスパイキング駆動の性質から、ニューラルネットワークよりもエネルギー効率が高く効果的なニューラルネットワークである。
符号化方式はネットワーク全体の性能に直接影響を与え、現在、直接符号化は直接訓練されたSNNに主に使用されている。
静的なイメージデータセットを扱う場合、ダイレクトエンコーディングは同じフィーチャーマップをステップ毎に入力し、SNNの時空間特性を完全に活用することができない。
時空間符号化は入力データを時空間特性を持つスパイク列車に変換するが、従来のSNNは異なる時間ステップで入力データを処理する際に同じニューロンを利用し、時空間情報の統合と有効利用を制限し、これに対応するために時空間符号化を採用し、適応スパイキングニューラルネットワーク(ASNN)を提案し、従来のSNNにおける時空間符号化の利用を向上する。
さらに、短時間のステップが入力データ情報の大幅な損失を招き、実用的なアプリケーションではより多くの時間ステップを必要とするため、テンポラリエンコーディングがあまり使われない。
しかし、ハードウェアの制約のため、長時間のステップで大規模なSNNをトレーニングすることは困難である。
そこで本研究では,学習に必要な時間ステップを削減するだけでなく,ネットワーク性能の向上も継続するハイブリッド符号化手法を提案する。しかしながら,Spikformer と Spiking ResNet アーキテクチャの両方において,分類性能の大幅な改善が観察されている。
The Spiking Neural Network (SNN), due to its unique spiking-driven nature, is a more energy-efficient and effective neural network compared to Artificial Neural Networks (ANNs). The encoding method directly influences the overall performance of the network, and currently, direct encoding is primarily used for directly trained SNNs. When working with static image datasets, direct encoding inputs the same feature map at every time step, failing to fully exploit the spatiotemporal properties of SNNs. While temporal encoding converts input data into spike trains with spatiotemporal characteristics, traditional SNNs utilize the same neurons when processing input data across different time steps, limiting their ability to integrate and utilize spatiotemporal information effectively.To address this, this paper employs temporal encoding and proposes the Adaptive Spiking Neural Network (ASNN), enhancing the utilization of temporal encoding in conventional SNNs. Additionally, temporal encoding is less frequently used because short time steps can lead to significant loss of input data information, often necessitating a higher number of time steps in practical applications. However, training large SNNs with long time steps is challenging due to hardware constraints. To overcome this, this paper introduces a hybrid encoding approach that not only reduces the required time steps for training but also continues to improve the overall network performance.Notably, significant improvements in classification performance are observed on both Spikformer and Spiking ResNet architectures.our code is available at https://github.com/hhx0320/ASNN | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# 株式市場トレンド予測のためのディープラーニングモデルの評価
An Evaluation of Deep Learning Models for Stock Market Trend Prediction ( http://arxiv.org/abs/2408.12408v1 ) ライセンス: Link先を確認 | Gonzalo Lopez Gil, Paul Duhamel-Sebline, Andrew McCarren, | (参考訳) 株式市場は金融システムの基本的な構成要素であり、経済の健全性を反映し、投資機会を提供し、世界的なダイナミクスに影響を与える。
正確な株式市場予測は、大きな利益をもたらし、より良い投資決定を促進する可能性がある。
しかし、その非線形で確率的な性質のため、株式市場のトレンドを予測することは困難である。
本研究では,S&P 500指数とブラジルETF EWZの日時閉値を用いた短期トレンド予測のための先進的なディープラーニングモデルの有効性について検討した。
調査対象となったモデルは、TCN(Tunformal Convolutional Networks)、N-BEATS(Neural Basis Expansion Analysis for Time Series Forecasting)、TFT(Temporal Fusion Transformers)、N-HiTS(Neural Hierarchical Interpolation for Time Series Forecasting)、TiDE(Time-Series Dense Encoder)である。
さらに、時系列予測に最適化されたxLSTM適応であるxLSTM-TSモデルを導入する。
ウェーブレットの復調技術は、信号の平滑化と小さなゆらぎの低減に応用され、全てのアプローチの入力としてよりクリーンなデータを提供する。
株価の予測性能は大幅に向上した。
テストされたモデルの中で、xLSTM-TSは一貫して他のモデルよりも優れていた。
例えば、テスト精度72.82%、F1スコア73.16%をEWZの日次データセットで達成した。
先進的なディープラーニングモデルと効果的なデータ前処理技術を活用することで、この研究は、市場の動き予測への機械学習の適用に関する貴重な洞察を与え、関連する可能性と課題の両方を強調します。
The stock market is a fundamental component of financial systems, reflecting economic health, providing investment opportunities, and influencing global dynamics. Accurate stock market predictions can lead to significant gains and promote better investment decisions. However, predicting stock market trends is challenging due to their non-linear and stochastic nature. This study investigates the efficacy of advanced deep learning models for short-term trend forecasting using daily and hourly closing prices from the S&P 500 index and the Brazilian ETF EWZ. The models explored include Temporal Convolutional Networks (TCN), Neural Basis Expansion Analysis for Time Series Forecasting (N-BEATS), Temporal Fusion Transformers (TFT), Neural Hierarchical Interpolation for Time Series Forecasting (N-HiTS), and Time-series Dense Encoder (TiDE). Furthermore, we introduce the Extended Long Short-Term Memory for Time Series (xLSTM-TS) model, an xLSTM adaptation optimised for time series prediction. Wavelet denoising techniques were applied to smooth the signal and reduce minor fluctuations, providing cleaner data as input for all approaches. Denoising significantly improved performance in predicting stock price direction. Among the models tested, xLSTM-TS consistently outperformed others. For example, it achieved a test accuracy of 72.82% and an F1 score of 73.16% on the EWZ daily dataset. By leveraging advanced deep learning models and effective data preprocessing techniques, this research provides valuable insights into the application of machine learning for market movement forecasting, highlighting both the potential and the challenges involved. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# 時系列表現学習のためのマルチソース知識ベースハイブリッドニューラルネットワークフレームワーク
Multi-Source Knowledge-Based Hybrid Neural Framework for Time Series Representation Learning ( http://arxiv.org/abs/2408.12409v1 ) ライセンス: Link先を確認 | Sagar Srinivas Sakhinana, Krishna Sai Sudhir Aripirala, Shivam Gupta, Venkataramana Runkana, | (参考訳) 相互接続型センサネットワークにおける高次元多変量時系列(MTS)を特徴とする複雑な力学系の挙動を正確に予測することは,リスクを最小限に抑えるために,様々なアプリケーションにおける情報決定に不可欠である。
グラフ予測ネットワーク(GFN)は、時空間依存を示すMSSデータを予測するのに理想的であるが、先行研究は、MTSデータ内の変数間の固有の関係構造的依存関係を無視し、非線形ダイナミクスをモデル化するための時系列変数間の関係性に関するドメイン固有の知識にのみ依存している。
対照的に、現代の研究はMTSデータから関係構造を推測するが、ドメイン固有の知識は無視する。
提案したハイブリッドアーキテクチャは,知識に基づく構成一般化を用いて,MTSデータに基づく関係構造のドメイン固有知識と暗黙的知識を組み合わせることで,これらの制約に対処する。
ハイブリッドアーキテクチャは、複数のベンチマークデータセットで有望な結果を示し、最先端の予測方法よりも優れています。
さらに、アーキテクチャは、マルチ水平予測の不確実性の変化をモデル化する。
Accurately predicting the behavior of complex dynamical systems, characterized by high-dimensional multivariate time series(MTS) in interconnected sensor networks, is crucial for informed decision-making in various applications to minimize risk. While graph forecasting networks(GFNs) are ideal for forecasting MTS data that exhibit spatio-temporal dependencies, prior works rely solely on the domain-specific knowledge of time-series variables inter-relationships to model the nonlinear dynamics, neglecting inherent relational structural dependencies among the variables within the MTS data. In contrast, contemporary works infer relational structures from MTS data but neglect domain-specific knowledge. The proposed hybrid architecture addresses these limitations by combining both domain-specific knowledge and implicit knowledge of the relational structure underlying the MTS data using Knowledge-Based Compositional Generalization. The hybrid architecture shows promising results on multiple benchmark datasets, outperforming state-of-the-art forecasting methods. Additionally, the architecture models the time varying uncertainty of multi-horizon forecasts. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# 混合状態が極端に極端に純粋な状態であるなら、弱測定で検出できる
If Mixed States Are Secretly Quickly Oscillating Pure States, Weak Measurements Can Detect It ( http://arxiv.org/abs/2408.12411v1 ) ライセンス: Link先を確認 | Igor Prlina, | (参考訳) ブラックホール情報パラドックスにおける見かけ上の非一様進化と、非一様非線形確率演算子による波動関数の崩壊を記述する最近の研究は、混合状態が急速振動する純粋な状態と区別できるかどうかを分析する動機となった。
厳密な非ポスト選択測定のみを行えば,その答えはすべての実用目的に当てはまらないことが実証された。
しかし、後続系における弱い測定が用いられる場合、混合状態と急速振動状態は異なる結果をもたらす。
黒体放射、脱コヒーレンス、固体物質の熱化、ウンルー放射、ホーキング放射などに起因する混合状態の性質を原理的に決定できる実験手法が提案されている。
この研究における解析は、プランクスケールを含む全ての高速振動に適用される。
そのため、テーブルトップの弱い測定は、強い非ポスト選択された測定を適用できない(非常に特異的な)潜在的な高エネルギー挙動を探索するために用いられる。
この研究は、すべての実用目的のためには不可能な測定を除外する必要があるため、弱い測定はポストセレクションなしでの強い測定のセットと等価ではないことも示している。
The apparent nonunitary evolution in the black hole information paradox and recent work on describing wavefunction collapse via nonunitary nonlinear stochastic operators has motivated us to analyze whether mixed states can be distinguished from quickly oscillating pure states. We have demonstrated that the answer is no for all practical purposes if only strong nonpostselected measurements are performed. However, if weak measurements in postselected systems are used, mixed states and quickly oscillating states produce different results. An experimental procedure is proposed which could in principle determine the nature of mixed states stemming from blackbody radiation, decoherence, thermalization in solid state materials, Unruh radiation and Hawking radiation, among others. The analysis in this work applies to all fast oscillations, including those at Planck scale. As such, tabletop weak measurements can be used to probe (very specific) potential high energy behavior, where strong nonpostselected measurements cannot be applied. This work also demonstrates that weak measurements are not equivalent to a set of strong measurements without postselection since measurements which are impossible for all practical purposes need to be excluded. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# 動的PDB:タンパク質構造における動的挙動と物性の統合による新しいデータセットとSE(3)モデル拡張
Dynamic PDB: A New Dataset and a SE(3) Model Extension by Integrating Dynamic Behaviors and Physical Properties in Protein Structures ( http://arxiv.org/abs/2408.12413v1 ) ライセンス: Link先を確認 | Ce Liu, Jun Wang, Zhiqiang Cai, Yingxu Wang, Huizhen Kuang, Kaihui Cheng, Liwei Zhang, Qingkun Su, Yining Tang, Fenglei Cao, Limei Han, Siyu Zhu, Yuan Qi, | (参考訳) 静的なタンパク質の構造の収集と予測が著しく進歩したにもかかわらず、その最も重要な特徴の一つであるタンパク質の動的挙動は、以前の研究でほとんど見落とされた。
この監視は、動的タンパク質データセットの可用性、多様性、不均一性に起因している。
このギャップに対処するために、動的データと追加の物理特性を統合することにより、PDB(Protein Data Bank)のような既存の高名な静的3Dタンパク質構造データベースを強化することを提案する。
具体的には、約12.6Kのタンパク質を含む大規模データセットであるDynamic PDBを導入し、1マイクロ秒間の全原子分子動力学シミュレーションを行い、コンフォメーション変化を捉える。
さらに、原子速度と力、タンパク質の電位および運動エネルギー、シミュレーション環境の温度など、シミュレーションを通して1ピコ秒間隔で記録された、総合的な物理特性スイートを提供する。
本研究は, 軌道予測の課題に対して, 提案したデータセット上での最先端手法の評価を行う。
タンパク質力学および関連モデル設計の研究において、よりリッチな物理特性を統合することの価値を実証するために、我々はSE(3)拡散モデルに基づくアプローチを行い、これらの物理特性を軌道予測プロセスに組み込む。
予備的な結果から, このSE(3)モデルの直接拡張は, 提案された物理特性を考慮すると, MAE および RMSD によって測定された精度が向上することが示された。
Despite significant progress in static protein structure collection and prediction, the dynamic behavior of proteins, one of their most vital characteristics, has been largely overlooked in prior research. This oversight can be attributed to the limited availability, diversity, and heterogeneity of dynamic protein datasets. To address this gap, we propose to enhance existing prestigious static 3D protein structural databases, such as the Protein Data Bank (PDB), by integrating dynamic data and additional physical properties. Specifically, we introduce a large-scale dataset, Dynamic PDB, encompassing approximately 12.6K proteins, each subjected to all-atom molecular dynamics (MD) simulations lasting 1 microsecond to capture conformational changes. Furthermore, we provide a comprehensive suite of physical properties, including atomic velocities and forces, potential and kinetic energies of proteins, and the temperature of the simulation environment, recorded at 1 picosecond intervals throughout the simulations. For benchmarking purposes, we evaluate state-of-the-art methods on the proposed dataset for the task of trajectory prediction. To demonstrate the value of integrating richer physical properties in the study of protein dynamics and related model design, we base our approach on the SE(3) diffusion model and incorporate these physical properties into the trajectory prediction process. Preliminary results indicate that this straightforward extension of the SE(3) model yields improved accuracy, as measured by MAE and RMSD, when the proposed physical properties are taken into consideration. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# 大規模言語モデルにおける非学習トロイの木馬:自然言語とソースコードの比較
Unlearning Trojans in Large Language Models: A Comparison Between Natural Language and Source Code ( http://arxiv.org/abs/2408.12416v1 ) ライセンス: Link先を確認 | Mahdi Kazemi, Aftab Hussain, Md Rafiqul Islam Rabin, Mohammad Amin Alipour, Sen Lin, | (参考訳) 本研究では,従来の大規模言語モデル (Text-LLM) やコードの大規模言語モデル (Code-LLM) に埋め込まれたトロイの木馬の影響を緩和するためのマシン・アンラーニング (MU) の適用について検討する。
ファインチューニング,リトレーニング,バニラ勾配上昇といった従来の手法に対するLYAの有効性を比較した。
本研究対象は,感情分析とコード欠陥検出のタスクであるBERTとCodeBERTである。
以上の結果から,LYAにおける勾配上昇とFIMによる正則化の併用は,有毒モデルからトロイの木馬の影響を除去し,元の機能を保ちながら,既存の方法よりも優れていたことが示唆された。
我々の知る限りでは、これはNL と Coding の領域において LLM のトロヤ群 MU を比較して対比する最初の研究である。
This work investigates the application of Machine Unlearning (MU) for mitigating the impact of trojans embedded in conventional large language models of natural language (Text-LLMs) and large language models of code (Code-LLMs) We propose a novel unlearning approach, LYA, that leverages both gradient ascent and elastic weight consolidation, a Fisher Information Matrix (FIM) based regularization technique, to unlearn trojans from poisoned models. We compare the effectiveness of LYA against conventional techniques like fine-tuning, retraining, and vanilla gradient ascent. The subject models we investigate are BERT and CodeBERT, for sentiment analysis and code defect detection tasks, respectively. Our findings demonstrate that the combination of gradient ascent and FIM-based regularization, as done in LYA, outperforms existing methods in removing the trojan's influence from the poisoned model, while preserving its original functionality. To the best of our knowledge, this is the first work that compares and contrasts MU of trojans in LLMs, in the NL and Coding domain. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# CODE: 信頼性のある通常の差分編集
CODE: Confident Ordinary Differential Editing ( http://arxiv.org/abs/2408.12418v1 ) ライセンス: Link先を確認 | Bastien van Delft, Tommaso Martorella, Alexandre Alahi, | (参考訳) コンディショニング画像生成は、シームレスな編集とフォトリアリスティック画像の作成を容易にする。
しかし、ノイズやアウト・オブ・ディストリビューション(OoD)画像の条件付けは、特に出力の入力とリアリズムに忠実さをバランスさせることにおいて大きな課題を生じさせる。
我々は,OoD誘導画像を効果的に処理する画像合成のための新しいアプローチであるCODE(Confident Ordinary Differential Editing)を紹介する。
拡散モデルを用いて、CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新により、画像を強化する。
この方法は、タスク固有のトレーニング、手作りのモジュール、条件付け画像に影響を及ぼす腐敗に関する仮定を必要としない。
我々の方法はどんな拡散モデルとも相容れない。
条件付き画像生成とブラインド画像復元の交差点に位置するCODEは、事前訓練された生成モデルのみに依存して、完全に盲目的に動作する。
提案手法では,不確実性を維持しつつ,入力画像の可能性を高めることを目的としている。
これにより、入力周辺の最も確率の高い分布内画像が得られる。
私たちの貢献は2倍です。
まず、CODEをベースとした新しい編集手法を導入し、SDEベースのものと比べ、制御性、リアリズム、忠実性を高めた。
第2に、信頼区間に基づくクリッピング方式を導入し、特定の画素や情報を無視することでCODEの有効性を向上し、視覚的に復元プロセスを向上する。
実験結果からCODEが既存の手法,特に重度劣化やOoD入力を含むシナリオにおいて有効であることが示されている。
Conditioning image generation facilitates seamless editing and the creation of photorealistic images. However, conditioning on noisy or Out-of-Distribution (OoD) images poses significant challenges, particularly in balancing fidelity to the input and realism of the output. We introduce Confident Ordinary Differential Editing (CODE), a novel approach for image synthesis that effectively handles OoD guidance images. Utilizing a diffusion model as a generative prior, CODE enhances images through score-based updates along the probability-flow Ordinary Differential Equation (ODE) trajectory. This method requires no task-specific training, no handcrafted modules, and no assumptions regarding the corruptions affecting the conditioning image. Our method is compatible with any diffusion model. Positioned at the intersection of conditional image generation and blind image restoration, CODE operates in a fully blind manner, relying solely on a pre-trained generative model. Our method introduces an alternative approach to blind restoration: instead of targeting a specific ground truth image based on assumptions about the underlying corruption, CODE aims to increase the likelihood of the input image while maintaining fidelity. This results in the most probable in-distribution image around the input. Our contributions are twofold. First, CODE introduces a novel editing method based on ODE, providing enhanced control, realism, and fidelity compared to its SDE-based counterpart. Second, we introduce a confidence interval-based clipping method, which improves CODE's effectiveness by allowing it to disregard certain pixels or information, thus enhancing the restoration process in a blind manner. Experimental results demonstrate CODE's effectiveness over existing methods, particularly in scenarios involving severe degradation or OoD inputs. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# 参照動作アライメントを用いた動的タンパク質構造予測のための4次元拡散
4D Diffusion for Dynamic Protein Structure Prediction with Reference Guided Motion Alignment ( http://arxiv.org/abs/2408.12419v1 ) ライセンス: Link先を確認 | Kaihui Cheng, Ce Liu, Qingkun Su, Jun Wang, Liwei Zhang, Yining Tang, Yao Yao, Siyu Zhu, Yuan Qi, | (参考訳) タンパク質の構造予測は、タンパク質の構造と機能の関係を理解し、生物学的研究を進め、医薬品開発と実験設計を促進するために重要である。
深層学習法と実験的な3Dタンパク質構造の拡張は構造予測を加速させてきたが、タンパク質構造の動的性質は限定的に注目されている。
本研究では分子動力学(MD)シミュレーションデータを用いた動的タンパク質構造学習のための革新的4次元拡散モデルを提案する。
提案手法は,(1)バックボーンと側鎖の両方を含む動的タンパク質構造を生成可能な統一拡散モデル,(2)初期3次元タンパク質構造の潜伏埋め込みを統合することで構造整合性を高める参照ネットワーク,(3)複数の時間ステップで時間的構造整合性を改善することを目的とした運動アライメントモジュールによって特徴付けられる。
我々の知る限り、これはタンパク質の軌道を複数の時間ステップで同時に予測することを目的とした初めての拡散モデルである。
ベンチマークデータセットの検証により,32時間で最大256個のアミノ酸を含むタンパク質の動的3次元構造を予測し,局所的な安定性と構造変化を効果的に捉えた。
Protein structure prediction is pivotal for understanding the structure-function relationship of proteins, advancing biological research, and facilitating pharmaceutical development and experimental design. While deep learning methods and the expanded availability of experimental 3D protein structures have accelerated structure prediction, the dynamic nature of protein structures has received limited attention. This study introduces an innovative 4D diffusion model incorporating molecular dynamics (MD) simulation data to learn dynamic protein structures. Our approach is distinguished by the following components: (1) a unified diffusion model capable of generating dynamic protein structures, including both the backbone and side chains, utilizing atomic grouping and side-chain dihedral angle predictions; (2) a reference network that enhances structural consistency by integrating the latent embeddings of the initial 3D protein structures; and (3) a motion alignment module aimed at improving temporal structural coherence across multiple time steps. To our knowledge, this is the first diffusion-based model aimed at predicting protein trajectories across multiple time steps simultaneously. Validation on benchmark datasets demonstrates that our model exhibits high accuracy in predicting dynamic 3D structures of proteins containing up to 256 amino acids over 32 time steps, effectively capturing both local flexibility in stable states and significant conformational changes. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# Dataset | Mindset = Explainable AI : 解釈可能なAI
Dataset | Mindset = Explainable AI | Interpretable AI ( http://arxiv.org/abs/2408.12420v1 ) ライセンス: Link先を確認 | Caesar Wu, Rajkumar Buyya, Yuan Fang Li, Pascal Bouvry, | (参考訳) 機械学習(ML)のアウトプットを支える理由を説明するために、データセットにさまざまなXAIツールを適用する場合、私たちはしばしば、"説明可能な"人工知能(XAI)"と"解釈可能なAI(IAI)"を相互に使用します。
しかし、これらの概念は、解釈がしばしば主観的な意味を持つのに対して、説明は客観的事実に傾いているため、混乱することがある。
我々は、XAIはIAIのサブセットであると主張している。
IAIの概念はデータセットの範囲を超えています。
それはマインドセットのドメインを含んでいる。
このあいまいさの中核は理性の双対性であり、そこでは外向きか内向きかを推論することができる。
外向きに向くと、私たちは自然の法則を通じて理にかなう理由を望んでいます。
内向きに向くと、私たちは、心の法則に導かれ、幸せになる理由を望んでいます。
XAIとIAIは、倫理的AIと信頼できるAI(TAI)の文脈における透明性、明確性、公正性、信頼性、説明責任という目標の共通概念として理性を共有しているが、その相違点は、XAIがデータセットのポストホック分析を強調することにある。
この仮説は、オープンデータセットに基づいた実証実験によって証明され、ハイパフォーマンスコンピューティング(HPC)によって活用される。
XAIとIAIの分離は、医療、人的資源、銀行、金融など、多くのAIアプリケーションに対する規制ポリシーを決定することは不可能であるため、不可欠である。
我々は、これらの概念を明確にし、将来のAI応用と研究における多くの実践者や政策立案者に対して、XAI、IAI、EAI、TAIの基礎を築いたいと考えています。
We often use "explainable" Artificial Intelligence (XAI)" and "interpretable AI (IAI)" interchangeably when we apply various XAI tools for a given dataset to explain the reasons that underpin machine learning (ML) outputs. However, these notions can sometimes be confusing because interpretation often has a subjective connotation, while explanations lean towards objective facts. We argue that XAI is a subset of IAI. The concept of IAI is beyond the sphere of a dataset. It includes the domain of a mindset. At the core of this ambiguity is the duality of reasons, in which we can reason either outwards or inwards. When directed outwards, we want the reasons to make sense through the laws of nature. When turned inwards, we want the reasons to be happy, guided by the laws of the heart. While XAI and IAI share reason as the common notion for the goal of transparency, clarity, fairness, reliability, and accountability in the context of ethical AI and trustworthy AI (TAI), their differences lie in that XAI emphasizes the post-hoc analysis of a dataset, and IAI requires a priori mindset of abstraction. This hypothesis can be proved by empirical experiments based on an open dataset and harnessed by High-Performance Computing (HPC). The demarcation of XAI and IAI is indispensable because it would be impossible to determine regulatory policies for many AI applications, especially in healthcare, human resources, banking, and finance. We aim to clarify these notions and lay the foundation of XAI, IAI, EAI, and TAI for many practitioners and policymakers in future AI applications and research. | 翻訳日:2024-08-23 13:43:10 公開日:2024-08-22 |
# 時系列表現学習のための多知識融合ネットワーク
Multi-Knowledge Fusion Network for Time Series Representation Learning ( http://arxiv.org/abs/2408.12423v1 ) ライセンス: Link先を確認 | Sagar Srinivas Sakhinana, Shivam Gupta, Krishna Sai Sudhir Aripirala, Venkataramana Runkana, | (参考訳) 高次元多変量時系列(MTS)を特徴とする相互接続型センサネットワークのような複雑な力学系の振舞いを予測することは、幅広い応用分野において情報的決定と将来の計画を行う上で極めて重要である。
グラフ予測ネットワーク(GFN)は時空間依存性を示すMSSデータの予測に適している。
しかし、MTS予測に関するGFNベースの手法のこれまでのほとんどの研究は、システムの非線形力学をモデル化するためにドメインエキスパートに依存していたが、MTSデータに基づく時系列変数間の関係構造的依存関係を利用する可能性を無視した。
一方、同時代の研究では、変数間の複雑な依存関係の関連構造を推測し、相互接続系の非線形力学を同時に学習するが、予測精度を向上させるためにドメイン固有の事前知識を組み込む可能性を無視している。
この目的のために,MTSデータ内の関係構造の暗黙的な知識と明示的な事前知識を組み合わせたハイブリッドアーキテクチャを提案する。
時系列内時間依存性と時系列間空間依存性を時間条件付き構造的時空間帰納バイアスを符号化することにより、より正確で信頼性の高い予測を提供する。
また、マルチ水平予測の不確実性の時間変化をモデル化し、予測不確実性の見積もりを提供することで意思決定を支援する。
提案アーキテクチャは、複数のベンチマークデータセットに対して有望な結果を示し、最先端の予測手法をかなりの差で上回っている。
予測アーキテクチャを検証するためのアブレーション研究を報告し、議論する。
Forecasting the behaviour of complex dynamical systems such as interconnected sensor networks characterized by high-dimensional multivariate time series(MTS) is of paramount importance for making informed decisions and planning for the future in a broad spectrum of applications. Graph forecasting networks(GFNs) are well-suited for forecasting MTS data that exhibit spatio-temporal dependencies. However, most prior works of GFN-based methods on MTS forecasting rely on domain-expertise to model the nonlinear dynamics of the system, but neglect the potential to leverage the inherent relational-structural dependencies among time series variables underlying MTS data. On the other hand, contemporary works attempt to infer the relational structure of the complex dependencies between the variables and simultaneously learn the nonlinear dynamics of the interconnected system but neglect the possibility of incorporating domain-specific prior knowledge to improve forecast accuracy. To this end, we propose a hybrid architecture that combines explicit prior knowledge with implicit knowledge of the relational structure within the MTS data. It jointly learns intra-series temporal dependencies and inter-series spatial dependencies by encoding time-conditioned structural spatio-temporal inductive biases to provide more accurate and reliable forecasts. It also models the time-varying uncertainty of the multi-horizon forecasts to support decision-making by providing estimates of prediction uncertainty. The proposed architecture has shown promising results on multiple benchmark datasets and outperforms state-of-the-art forecasting methods by a significant margin. We report and discuss the ablation studies to validate our forecasting architecture. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# 高速音声強調のための動的ゲージ付きリカレントニューラルネットワーク
Dynamic Gated Recurrent Neural Network for Compute-efficient Speech Enhancement ( http://arxiv.org/abs/2408.12425v1 ) ライセンス: Link先を確認 | Longbiao Cheng, Ashutosh Pandey, Buye Xu, Tobi Delbruck, Shih-Chii Liu, | (参考訳) 本稿では,リソース制約のあるハードウェアプラットフォーム上で動作する計算効率の高い音声強調モデルのための動的Gated Recurrent Neural Network (DG-RNN)を提案する。
ステップ上のRNN隠れ状態の緩やかな進化特性を活用し、新たに提案された選択ゲートをRNNモデルに追加することにより、各ステップで選択されたニューロンのみを更新する。
この選択ゲートにより、ネットワーク推論中に従来のRNNの計算コストを削減できる。
DG-RNNの実現として,追加パラメータを必要としない動的Gated Recurrent Unit (D-GRU)を提案する。
DNSチャレンジデータセットを用いて、最先端の計算効率の高いRNNベースの音声強調アーキテクチャから得られた実験結果から、D-GRUベースのモデルでは、GRUの計算量が平均50%減少しても、ベースラインのGRUベースのモデルに匹敵する、類似した音声インテリジェンスと品質指標が維持されていることが示された。
This paper introduces a new Dynamic Gated Recurrent Neural Network (DG-RNN) for compute-efficient speech enhancement models running on resource-constrained hardware platforms. It leverages the slow evolution characteristic of RNN hidden states over steps, and updates only a selected set of neurons at each step by adding a newly proposed select gate to the RNN model. This select gate allows the computation cost of the conventional RNN to be reduced during network inference. As a realization of the DG-RNN, we further propose the Dynamic Gated Recurrent Unit (D-GRU) which does not require additional parameters. Test results obtained from several state-of-the-art compute-efficient RNN-based speech enhancement architectures using the DNS challenge dataset, show that the D-GRU based model variants maintain similar speech intelligibility and quality metrics comparable to the baseline GRU based models even with an average 50% reduction in GRU computes. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# 作物分類のための解釈可能な機械学習アプローチによる内陸農業の強化
Enhanced Infield Agriculture with Interpretable Machine Learning Approaches for Crop Classification ( http://arxiv.org/abs/2408.12426v1 ) ライセンス: Link先を確認 | Sudi Murindanyi, Joyce Nakatumba-Nabende, Rahman Sanya, Rose Nakibuule, Andrew Katumba, | (参考訳) 近年、人工知能の人気が高まっており、特に農業における画像分類への関心が高まっている。
コンピュータビジョン、機械学習、ディープラーニングの助けを借りて、このセクターは大きな変革を遂げ、この分野における作物の分類のための新しい技術の開発に繋がった。
様々な画像分類技術に関する広範な研究にもかかわらず、ほとんどの場合、低い精度、データの使用の制限、レポートモデルのサイズと予測の欠如といった制限がある。
すべてにおいて最も重要な制限は、モデル説明可能性の必要性である。
本研究では,SIFT,ORB,カラーヒストグラムなどの手作り特徴抽出手法を用いた従来のML,カスタムデザインCNN,AlexNetなどのDLアーキテクチャ,EfficientNetV2,ResNet152V2,Xception,Inception-ResNetV2,MobileNetV3などのイメージネットを用いた事前学習,YOLOv8,DINOv2などの最先端基盤モデルなど,作物分類の4つのアプローチを評価する。
全てのモデルの性能は良好に向上したが、Xceptionはこれら全てを一般化し、80.03MBのモデルサイズと0.0633秒の予測時間で98%の精度を達成した。
この研究の重要な側面は、すべてのモデルの説明可能性を提供するための説明可能なAIの適用である。
このジャーナルは、LIME、SHAP、GradCAMによるXceptionモデルの説明可能性を示し、モデルの予測における透明性と信頼性を保証する。
本研究では,タスク固有のニーズに応じて適切なモデルを選択することの重要性を強調した。
また、農業におけるAIの展開における説明可能性の重要な役割を強調し、AI駆動の作物管理戦略を強化するための洞察力のある情報を提供する。
The increasing popularity of Artificial Intelligence in recent years has led to a surge in interest in image classification, especially in the agricultural sector. With the help of Computer Vision, Machine Learning, and Deep Learning, the sector has undergone a significant transformation, leading to the development of new techniques for crop classification in the field. Despite the extensive research on various image classification techniques, most have limitations such as low accuracy, limited use of data, and a lack of reporting model size and prediction. The most significant limitation of all is the need for model explainability. This research evaluates four different approaches for crop classification, namely traditional ML with handcrafted feature extraction methods like SIFT, ORB, and Color Histogram; Custom Designed CNN and established DL architecture like AlexNet; transfer learning on five models pre-trained using ImageNet such as EfficientNetV2, ResNet152V2, Xception, Inception-ResNetV2, MobileNetV3; and cutting-edge foundation models like YOLOv8 and DINOv2, a self-supervised Vision Transformer Model. All models performed well, but Xception outperformed all of them in terms of generalization, achieving 98% accuracy on the test data, with a model size of 80.03 MB and a prediction time of 0.0633 seconds. A key aspect of this research was the application of Explainable AI to provide the explainability of all the models. This journal presents the explainability of Xception model with LIME, SHAP, and GradCAM, ensuring transparency and trustworthiness in the models' predictions. This study highlights the importance of selecting the right model according to task-specific needs. It also underscores the important role of explainability in deploying AI in agriculture, providing insightful information to help enhance AI-driven crop management strategies. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# FlexEdit: フレキシブルなイメージ編集のための自由形マスクをVLLMに変換する
FlexEdit: Marrying Free-Shape Masks to VLLM for Flexible Image Editing ( http://arxiv.org/abs/2408.12429v1 ) ライセンス: Link先を確認 | Jue Wang, Yuxiang Lin, Tianshuo Yuan, Zhi-Qi Cheng, Xiaolong Wang, Jiao GH, Wei Chen, Xiaojiang Peng, | (参考訳) 視覚大言語モデル(VLLM)と拡散モデルを組み合わせることで、人間の言語命令に基づいて画像編集タスクを実行する強力な方法が提供される。
しかし、言語命令だけでは、特にユーザーが画像の特定の領域の要素を追加したり置き換えたりしたい場合に、正確にユーザー要求を伝えるのに不足することが多い。
幸いなことに、マスクは編集対象の正確な位置や要素を効果的に示すことができる。
そこで本稿では,フレキシブル編集のための自由形状マスクと言語命令の両方を活用する,エンドツーエンドの画像編集手法であるFlexEditを提案する。
本手法では,画像内容,マスク,ユーザ指示の解釈にVLLMを用いる。
さらに,画像データとVLLMの埋め込みを融合させ,マスク情報とモデル出力の埋め込みをシームレスに統合するMask Enhance Adapter (MEA)を導入する。
さらに,8種類の自由形マスクを含む自由形マスクに適したベンチマークであるFSMI-Editを構築した。
LLM画像編集におけるSOTA(State-of-the-art)の精度が向上し,本手法の有効性が明らかとなった。
コードとデータはhttps://github.com/A-new-b/flex_editで確認できる。
Combining Vision Large Language Models (VLLMs) with diffusion models offers a powerful method for executing image editing tasks based on human language instructions. However, language instructions alone often fall short in accurately conveying user requirements, particularly when users want to add, replace elements in specific areas of an image. Luckily, masks can effectively indicate the exact locations or elements to be edited, while they require users to precisely draw the shapes at the desired locations, which is highly user-unfriendly. To address this, we propose FlexEdit, an end-to-end image editing method that leverages both free-shape masks and language instructions for Flexible Editing. Our approach employs a VLLM in comprehending the image content, mask, and user instructions. Additionally, we introduce the Mask Enhance Adapter (MEA) that fuses the embeddings of the VLLM with the image data, ensuring a seamless integration of mask information and model output embeddings. Furthermore, we construct FSMI-Edit, a benchmark specifically tailored for free-shape mask, including 8 types of free-shape mask. Extensive experiments show that our method achieves state-of-the-art (SOTA) performance in LLM-based image editing, and our simple prompting technique stands out in its effectiveness. The code and data can be found at https://github.com/A-new-b/flex_edit. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# 数値正規化のための位置記述
Positional Description for Numerical Normalization ( http://arxiv.org/abs/2408.12430v1 ) ライセンス: Link先を確認 | Deepanshu Gupta, Javier Latorre, | (参考訳) 本稿では,桁列に適した位置記述方式(PDS)を提案し,各桁のプレースホルダ値情報を統合する。
サブワードトークン化アルゴリズムの構造的制限を考えると、言語モデルは数値的なタスクを扱う際に重要なテキスト正規化(TN)問題に遭遇する。
我々のスキーマは、素直な前処理によってこの問題に対処し、モデルアーキテクチャを保存しつつ、数値正規化を著しく単純化し、問題を抽出可能なものにします。
これはタスクを単純化し、より小さなデータセットから学習可能な、よりコンパクトなプロダクション対応モデルを容易にする。
さらに,PDSは言語モデルの算術処理能力を向上し,複雑な算術処理において相対的精度が23%から51%向上することを示した。
我々は、PDSがニューラルネットワークモデルにおける致命的な数値正規化誤差を効果的に軽減し、ルールベースの有限状態トランスデューサ(FST)を使わずに、わずかな量のトレーニングデータしか必要としないことを示した。
PDSはテキスト音声と音声認識の両方のテキスト処理に必須であり、生産制約下で有効なTNを実現することを実証する。
We present a Positional Description Scheme (PDS) tailored for digit sequences, integrating placeholder value information for each digit. Given the structural limitations of subword tokenization algorithms, language models encounter critical Text Normalization (TN) challenges when handling numerical tasks. Our schema addresses this challenge through straightforward pre-processing, preserving the model architecture while significantly simplifying number normalization, rendering the problem tractable. This simplifies the task and facilitates more compact production-ready models capable of learning from smaller datasets. Furthermore, our investigations reveal that PDS enhances the arithmetic processing capabilities of language models, resulting in a relative accuracy improvement of 23% to 51% on complex arithmetic tasks. We demonstrate that PDS effectively mitigates fatal numerical normalization errors in neural models, requiring only a modest amount of training data without rule-based Finite State Transducers (FST). We demonstrate that PDS is essential for both the Text-To-Speech and Speech Recognition text processing, enabling effective TN under production constraints. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# IQMの20kbit量子コンピュータの技術と性能ベンチマーク
Technology and Performance Benchmarks of IQM's 20-Qubit Quantum Computer ( http://arxiv.org/abs/2408.12433v1 ) ライセンス: Link先を確認 | Leonid Abdurakhimov, Janos Adam, Hasnain Ahmad, Olli Ahonen, Manuel Algaba, Guillermo Alonso, Ville Bergholm, Rohit Beriwal, Matthias Beuerle, Clinton Bockstiegel, Alessio Calzona, Chun Fai Chan, Daniele Cucurachi, Saga Dahl, Rakhim Davletkaliyev, Olexiy Fedorets, Alejandro Gomez Frieiro, Zheming Gao, Johan Guldmyr, Andrew Guthrie, Juha Hassel, Hermanni Heimonen, Johannes Heinsoo, Tuukka Hiltunen, Keiran Holland, Juho Hotari, Hao Hsu, Antti Huhtala, Eric Hyyppä, Aleksi Hämäläinen, Joni Ikonen, Sinan Inel, David Janzso, Teemu Jaakkola, Mate Jenei, Shan Jolin, Kristinn Juliusson, Jaakko Jussila, Shabeeb Khalid, Seung-Goo Kim, Miikka Koistinen, Roope Kokkoniemi, Anton Komlev, Caspar Ockeloen-Korppi, Otto Koskinen, Janne Kotilahti, Toivo Kuisma, Vladimir Kukushkin, Kari Kumpulainen, Ilari Kuronen, Joonas Kylmälä, Niclas Lamponen, Julia Lamprich, Alessandro Landra, Martin Leib, Tianyi Li, Per Liebermann, Aleksi Lintunen, Wei Liu, Jürgen Luus, Fabian Marxer, Arianne Meijer-van de Griend, Kunal Mitra, Jalil Khatibi Moqadam, Jakub Mrożek, Henrikki Mäkynen, Janne Mäntylä, Tiina Naaranoja, Francesco Nappi, Janne Niemi, Lucas Ortega, Mario Palma, Miha Papič, Matti Partanen, Jari Penttilä, Alexander Plyushch, Wei Qiu, Aniket Rath, Kari Repo, Tomi Riipinen, Jussi Ritvas, Pedro Figueroa Romero, Jarkko Ruoho, Jukka Räbinä, Sampo Saarinen, Indrajeet Sagar, Hayk Sargsyan, Matthew Sarsby, Niko Savola, Mykhailo Savytskyi, Ville Selinmaa, Pavel Smirnov, Marco Marín Suárez, Linus Sundström, Sandra Słupińska, Eelis Takala, Ivan Takmakov, Brian Tarasinski, Manish Thapa, Jukka Tiainen, Francesca Tosto, Jani Tuorila, Carlos Valenzuela, David Vasey, Edwin Vehmaanperä, Antti Vepsäläinen, Aapo Vienamo, Panu Vesanen, Alpo Välimaa, Jaap Wesdorp, Nicola Wurz, Elisabeth Wybo, Lily Yang, Ali Yurtalan, | (参考訳) 量子コンピューティングは、古典的な情報処理における基本的な制限を克服する大きな可能性を秘めている。
しかし、今日の品質とスケーリングにおける技術的な制限は、その潜在能力を最大限に活用することを妨げる。
超伝導量子処理ユニット(QPU)に基づく量子コンピューティングは、実用的な量子優位性に対する最も有望なアプローチの一つである。
本稿では, IQM量子コンピュータの基本技術アプローチについて述べる。
特に、Garnet QPUとそのアーキテクチャを特徴とする20量子ビットの量子コンピュータに焦点を当てており、最大150量子ビットまでスケールする。
QPUとシステムレベルのベンチマークも提示し、中央値の2キュービットゲートの忠実度は99.5%で、グリーンバーガー・ホーネ・ザイリンガー(GHZ)状態の20キュービット全てを真のエンハングリングする。
Quantum computing has tremendous potential to overcome some of the fundamental limitations present in classical information processing. Yet, today's technological limitations in the quality and scaling prevent exploiting its full potential. Quantum computing based on superconducting quantum processing units (QPUs) is among the most promising approaches towards practical quantum advantage. In this article the basic technological approach of IQM Quantum Computers is described covering both the QPU and the rest of the full-stack quantum computer. In particular, the focus is on a 20-qubit quantum computer featuring the Garnet QPU and its architecture, which we will scale up to 150 qubits. We also present QPU and system-level benchmarks, including a median 2-qubit gate fidelity of 99.5% and genuinely entangling all 20 qubits in a Greenberger-Horne-Zeilinger (GHZ) state. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# 原子配列を用いた重力波信号の選択的増幅
Selective Amplification of a Gravitational Wave Signal Using an Atomic Array ( http://arxiv.org/abs/2408.12436v1 ) ライセンス: Link先を確認 | Navdeep Arya, Magdalena Zych, | (参考訳) 本研究では、1次元の原子配列の集合放射ダイナミクスを利用して重力波の信号を不整合および集合ミンコフスキー的寄与に対して選択的に増幅することにより、重力波を量子的に検出する新しい原理を提案する。
単一原子とは対照的に、アレイの集合放射動力学は振幅の1次重力波に敏感である。
重力波を検知するために協調する原子の有効個数は、参加する原子の総個数から上限まで線形にスケールすることを示した。
その結果、アレイの放出速度における重力波のインプリントは、参加する原子の数とほぼ2倍にスケールする。
さらに、アレイの放射動力学へのこの寄与は、適切に定義された方向と入射重力波の周波数によってシフトした周波数でコヒーレント光子放出を含む。
本稿では,現在および近未来の実験能力を考慮した提案手法の有効性について論じる。
We present a novel principle for quantum sensing of gravitational waves by exploiting the collective radiative dynamics of a one-dimensional array of atoms to selectively amplify a gravitational wave signal against the incoherent and collective Minkowskian contributions. We find that, in contrast to a single atom, the collective radiative dynamics of the array is sensitive to the gravitational wave at first order in its amplitude. We demonstrate that the effective number of atoms cooperating to sense the gravitational wave scales linearly with the total number of participating atoms, up to an upper limit. As a result, the imprint of the gravitational wave in the emission rate of the array scales nearly quadratically with the number of participating atoms. Additionally, this contribution to the radiative dynamics of the array involves coherent photon emission with well-defined directionality and at frequencies shifted by the frequency of the incident gravitational wave. We discuss the feasibility of this scheme in light of current and near-future experimental capabilities. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# 鼻腔内鼻咽喉頭水腫に対するロボットアイインハンドビジュアルサーボの有用性
Robotic Eye-in-hand Visual Servo Axially Aligning Nasopharyngeal Swabs with the Nasal Cavity ( http://arxiv.org/abs/2408.12437v1 ) ライセンス: Link先を確認 | Peter Q. Lee, John S. Zelek, Katja Mombaur, | (参考訳) 鼻咽喉科検査は、新型コロナウイルス(COVID-19)を含む様々な種類の呼吸器疾患を診断するための培養物を集める方法である。
このタスクをロボットに委譲することは、感染リスクを減らし、医療システムを強化するという点で有益であるが、NPスワブテストの重要な要素は、過度の不快感や怪我を引き起こすことなく、鼻腔にスワブを適切に合わせることである。
ロボットNPスワビングに関する既存の研究は、典型的には患者の頭部が固定器内に保持されていると仮定している。
これはアライメントの問題を単純化するが、患者が通常無起立している臨床シナリオと類似している。
その結果、我々の研究は視覚誘導型パイプラインを作成し、計装されたロボットアームが、自立患者の鼻孔に対して、NPスワブを適切に位置決めし、オリエントにすることができるようにした。
パイプラインの最初のコンポーネントは、あらかじめ計算されたジョイントルックアップテーブルで、腕が指定されたワークスペース内の患者の任意の位置を満足できるようにし、ジョイントリミットを回避する。
我々のパイプラインは、コンピュータビジョンのセマンティック・フェイスモデルを利用して、エンドエフェクターに配置された単眼のRGB-Dカメラに対して、顔のユークリッドのポーズを推定する。
これらの推定は、多様体状態推定器上の無刺激カルマンフィルタと、スワブを鼻孔の前にある指定されたポーズに移動させるポーズに基づく視覚サーボ制御ループに渡される。
我々のパイプラインは、25人の参加者によるコホートを含むヒトの治験で検証された。
このシステムは有効であり、参加者の84%に近づき、統計学的にはコホート内で有意な人口統計バイアスは見つからなかった。
The nasopharyngeal (NP) swab test is a method for collecting cultures to diagnose for different types of respiratory illnesses, including COVID-19. Delegating this task to robots would be beneficial in terms of reducing infection risks and bolstering the healthcare system, but a critical component of the NP swab test is having the swab aligned properly with the nasal cavity so that it does not cause excessive discomfort or injury by traveling down the wrong passage. Existing research towards robotic NP swabbing typically assumes the patient's head is held within a fixture. This simplifies the alignment problem, but is also dissimilar to clinical scenarios where patients are typically free-standing. Consequently, our work creates a vision-guided pipeline to allow an instrumented robot arm to properly position and orient NP swabs with respect to the nostrils of free-standing patients. The first component of the pipeline is a precomputed joint lookup table to allow the arm to meet the patient's arbitrary position in the designated workspace, while avoiding joint limits. Our pipeline leverages semantic face models from computer vision to estimate the Euclidean pose of the face with respect to a monocular RGB-D camera placed on the end-effector. These estimates are passed into an unscented Kalman filter on manifolds state estimator and a pose based visual servo control loop to move the swab to the designated pose in front of the nostril. Our pipeline was validated with human trials, featuring a cohort of 25 participants. The system is effective, reaching the nostril for 84% of participants, and our statistical analysis did not find significant demographic biases within the cohort. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# MIMOビデオ復元ネットワークの低レイテンシ制約への適応
Adapting MIMO video restoration networks to low latency constraints ( http://arxiv.org/abs/2408.12439v1 ) ライセンス: Link先を確認 | Valéry Dewil, Zhe Zheng, Arnaud Barral, Lara Raad, Nao Nicolas, Ioannis Cassagne, Jean-michel Morel, Gabriele Facciolo, Bruno Galerne, Pablo Arias, | (参考訳) MIMO(multiple input, multiple output)アプローチは、各ネットワーク評価が複数の出力フレームを生成するビデオ復元問題のニューラルネットワークアーキテクチャにおける最近のトレンドである。
ビデオは、独立して処理されるフレームの重複しないスタックに分割され、その結果、出力品質と計算コストの非常に魅力的なトレードオフをもたらす。
この作業では、利用可能な将来のフレームの数を制限することで、低レイテンシ設定に焦点を当てます。
また,MIMO アーキテクチャは,これまでほとんど注目されていなかった問題,すなわち(1) 時間的受容場減少による性能低下,特にスタック境界のフレームの減少,(2) ステップワイドな動作アーチファクトを誘発するスタック遷移における時間的不連続性が強くなる,といった問題に悩まされている。
そこで我々は,MIMOスタック間の繰り返しによる時間的受容領域の増大による出力品質の向上と,スタック遷移における時間的不連続性を円滑にするための出力スタックの重複という2つの簡単な解を提案する。
これらの変更はどんなMIMOアーキテクチャにも適用できる。
計算コストの異なる3つの最先端ビデオデノベーションネットワーク上でテストを行う。
提案したコントリビューションは、再構成エラーと時間的一貫性の両面において、低レイテンシネットワークのための新しい最先端技術をもたらす。
さらなるコントリビューションとして、標準的なベンチマークでは明らかでない時間的一貫性の問題に注目する、ドローン映像からなる新しいベンチマークを導入する。
MIMO (multiple input, multiple output) approaches are a recent trend in neural network architectures for video restoration problems, where each network evaluation produces multiple output frames. The video is split into non-overlapping stacks of frames that are processed independently, resulting in a very appealing trade-off between output quality and computational cost. In this work we focus on the low-latency setting by limiting the number of available future frames. We find that MIMO architectures suffer from problems that have received little attention so far, namely (1) the performance drops significantly due to the reduced temporal receptive field, particularly for frames at the borders of the stack, (2) there are strong temporal discontinuities at stack transitions which induce a step-wise motion artifact. We propose two simple solutions to alleviate these problems: recurrence across MIMO stacks to boost the output quality by implicitly increasing the temporal receptive field, and overlapping of the output stacks to smooth the temporal discontinuity at stack transitions. These modifications can be applied to any MIMO architecture. We test them on three state-of-the-art video denoising networks with different computational cost. The proposed contributions result in a new state-of-the-art for low-latency networks, both in terms of reconstruction error and temporal consistency. As an additional contribution, we introduce a new benchmark consisting of drone footage that highlights temporal consistency issues that are not apparent in the standard benchmarks. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# 4次元木形構造の時空間解析と生成に対するリーマン的アプローチ
A Riemannian Approach for Spatiotemporal Analysis and Generation of 4D Tree-shaped Structures ( http://arxiv.org/abs/2408.12443v1 ) ライセンス: Link先を確認 | Tahmina Khanam, Hamid Laga, Mohammed Bennamoun, Guanjin Wang, Ferdous Sohel, Farid Boussaid, Guan Wang, Anuj Srivastava, | (参考訳) 木のような4Dオブジェクトの時空間形状の変動をモデル化し解析するための,最初の総合的アプローチを提案する。
我々の重要な貢献は、正方根速度関数木(SRVFT)を用いた木のような3次元形状の表現である。
L2メートル法を備えたSRVFT空間における空間登録を解くことにより、この空間における4次元木形構造は時間パラメータ化された軌道となる。
これにより、4D木のような形状のモデリングと解析の問題をSRVFT空間の弾性軌道のモデリングと解析の課題に還元する。
本稿では,これらの軌跡の形状空間の数学的表現,その空間上のリーマン計量,高速かつ正確な時空間登録と4次元木形構造間の測地線計算のための計算ツールを提案する。
これらのビルディングブロックを活用することで、統計モデルを用いて時空間変動をモデル化し、一組の例から新しい4D木のような構造を生成するための完全なフレームワークを開発する。
実際の4Dプラントデータを用いて,提案手法の実証と検証を行った。
We propose the first comprehensive approach for modeling and analyzing the spatiotemporal shape variability in tree-like 4D objects, i.e., 3D objects whose shapes bend, stretch, and change in their branching structure over time as they deform, grow, and interact with their environment. Our key contribution is the representation of tree-like 3D shapes using Square Root Velocity Function Trees (SRVFT). By solving the spatial registration in the SRVFT space, which is equipped with an L2 metric, 4D tree-shaped structures become time-parameterized trajectories in this space. This reduces the problem of modeling and analyzing 4D tree-like shapes to that of modeling and analyzing elastic trajectories in the SRVFT space, where elasticity refers to time warping. In this paper, we propose a novel mathematical representation of the shape space of such trajectories, a Riemannian metric on that space, and computational tools for fast and accurate spatiotemporal registration and geodesics computation between 4D tree-shaped structures. Leveraging these building blocks, we develop a full framework for modelling the spatiotemporal variability using statistical models and generating novel 4D tree-like structures from a set of exemplars. We demonstrate and validate the proposed framework using real 4D plant data. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# マルチインスタンス・タイムロック・プラグにおける正則線形結合の検証
Verifiable Homomorphic Linear Combinations in Multi-Instance Time-Lock Puzzles ( http://arxiv.org/abs/2408.12444v1 ) ライセンス: Link先を確認 | Aydin Abadi, | (参考訳) TLP(Time-Lock Puzzles)は、信頼できる第三者に頼ることなく、機密情報を未来に安全に送信するために開発された。
マルチインスタンス TLP はスケーラブルな TLP の変種であり、サーバがクライアントが一度に提供するさまざまなパズルに対するソリューションを効率的に見つけることができる。
それでも、既存のマルチインスタンスTLPは(検証可能な)同型計算をサポートしていない。
この制限に対処するために、クライアントに属するパズルの正則線形結合を効率的に検証するマルチインスタンスTLPである"Multi-Instance partial Homomorphic TLP"(MH-TLP)を導入する。
誰でも計算と解の正しさを検証できるようにします。
さらに,MH-TLPに基づいて,Multi-instance Multi-client verible partial Homomorphic TLP (MMH-TLP)を提案する。
MH-TLPの全ての特徴をサポートするだけでなく、異なるクライアントからのパズルの同型線形結合を検証することもできる。
我々のスキームは、検証に非対称キー暗号を使うことを控え、ほとんどの同型TLPとは異なり、信頼できる第三者を必要としない。
包括的コスト分析により、我々のスキームはクライアント数やパズル数と線形にスケールできることが示される。
Time-Lock Puzzles (TLPs) have been developed to securely transmit sensitive information into the future without relying on a trusted third party. Multi-instance TLP is a scalable variant of TLP that enables a server to efficiently find solutions to different puzzles provided by a client at once. Nevertheless, existing multi-instance TLPs lack support for (verifiable) homomorphic computation. To address this limitation, we introduce the "Multi-Instance partially Homomorphic TLP" (MH-TLP), a multi-instance TLP supporting efficient verifiable homomorphic linear combinations of puzzles belonging to a client. It ensures anyone can verify the correctness of computations and solutions. Building on MH-TLP, we further propose the "Multi-instance Multi-client verifiable partially Homomorphic TLP" (MMH-TLP). It not only supports all the features of MH-TLP but also allows for verifiable homomorphic linear combinations of puzzles from different clients. Our schemes refrain from using asymmetric-key cryptography for verification and, unlike most homomorphic TLPs, do not require a trusted third party. A comprehensive cost analysis demonstrates that our schemes scale linearly with the number of clients and puzzles. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# EX-DRL:極端分布強化学習による重損対策
EX-DRL: Hedging Against Heavy Losses with EXtreme Distributional Reinforcement Learning ( http://arxiv.org/abs/2408.12446v1 ) ライセンス: Link先を確認 | Parvin Malekzadeh, Zissis Poulos, Jacky Chen, Zeyu Wang, Konstantinos N. Plataniotis, | (参考訳) 近年の分散強化学習(DRL)による損失分布のモデル化は,デリバティブ市場におけるヘッジ戦略開発において有望であることを示している。
DRLの一般的なアプローチは、特定のレベルでの損失分布の量子化をQR(Quantile Regression)を用いて学習することである。
この方法は、直接量的リスク評価(VaR)や条件的リスク評価(CVaR)など、オプションヘッジにおいて特に有効である。
しかし、これらのリスク尺度は損失分布の尾部における極端定量値の正確な推定に依存しており、文献で強調されているように、QRベースのDRLでは、テールデータの希少性と極端性のために不正確である。
そこで本研究では,損失分布の尾部をGPD(Generalized Pareto Distribution)を用いてモデル化することにより,極端量子化予測を向上させるEX-DRLを提案する。
本手法は,極端量子化観測の不足を軽減するために補足データを導入し,QRによる推定精度を向上させる。
ガンマヘッジオプションに関する総合的な実験により、EX-DRLは極端量子化のより正確な推定を提供することで既存のQRベースのモデルを改善し、複雑な金融リスク管理のためのリスクメトリクスの計算と信頼性を向上させることが示されている。
Recent advancements in Distributional Reinforcement Learning (DRL) for modeling loss distributions have shown promise in developing hedging strategies in derivatives markets. A common approach in DRL involves learning the quantiles of loss distributions at specified levels using Quantile Regression (QR). This method is particularly effective in option hedging due to its direct quantile-based risk assessment, such as Value at Risk (VaR) and Conditional Value at Risk (CVaR). However, these risk measures depend on the accurate estimation of extreme quantiles in the loss distribution's tail, which can be imprecise in QR-based DRL due to the rarity and extremity of tail data, as highlighted in the literature. To address this issue, we propose EXtreme DRL (EX-DRL), which enhances extreme quantile prediction by modeling the tail of the loss distribution with a Generalized Pareto Distribution (GPD). This method introduces supplementary data to mitigate the scarcity of extreme quantile observations, thereby improving estimation accuracy through QR. Comprehensive experiments on gamma hedging options demonstrate that EX-DRL improves existing QR-based models by providing more precise estimates of extreme quantiles, thereby improving the computation and reliability of risk metrics for complex financial risk management. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# LSVOS Challenge RVOS Track における第2の解:一貫性セマンティックセマンティックセグメンテーションのための時空間補正
The 2nd Solution for LSVOS Challenge RVOS Track: Spatial-temporal Refinement for Consistent Semantic Segmentation ( http://arxiv.org/abs/2408.12447v1 ) ライセンス: Link先を確認 | Tuyen Tran, | (参考訳) ビデオオブジェクトセグメンテーション(RVOS)の参照は、時間的理解を必要とするため難しい課題である。
計算複雑性の障害のため、多くの最先端モデルは短時間で訓練される。
テスト中、これらのモデルは短時間で効果的に情報を処理できるが、長い時間列に対する一貫した認識を維持するのに苦労し、結果としてセマンティックセグメンテーションマスクの不整合をもたらす。
この課題に対処するために、新たに導入されたSegment Anything Modelバージョン2(SAM-v2)のトラッキング機能を活用して、参照オブジェクトセグメンテーションモデルの時間的一貫性を高めることで、この作業をさらに進める。
提案手法は,MeViSデータセットのテストセット上での60.40 \mathcal{J\text{\&}F}のスコアを達成し,ECCV 2024 LSVOS ChallengeにおけるRVOSトラックの最終ランキングで2位となった。
Referring Video Object Segmentation (RVOS) is a challenging task due to its requirement for temporal understanding. Due to the obstacle of computational complexity, many state-of-the-art models are trained on short time intervals. During testing, while these models can effectively process information over short time steps, they struggle to maintain consistent perception over prolonged time sequences, leading to inconsistencies in the resulting semantic segmentation masks. To address this challenge, we take a step further in this work by leveraging the tracking capabilities of the newly introduced Segment Anything Model version 2 (SAM-v2) to enhance the temporal consistency of the referring object segmentation model. Our method achieved a score of 60.40 \mathcal{J\text{\&}F} on the test set of the MeViS dataset, placing 2nd place in the final ranking of the RVOS Track at the ECCV 2024 LSVOS Challenge. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# 散逸と相互作用-非エルミート皮膚効果
Dissipation and Interaction-Controlled Non-Hermitian Skin Effects ( http://arxiv.org/abs/2408.12451v1 ) ライセンス: Link先を確認 | Yang Li, Zhao-Fan Cai, Tao Liu, Franco Nori, | (参考訳) 非エルミート皮膚効果 (NHSE) は近年, 単一粒子レベルで広く研究されている。
多体相互作用が支配的になると、新しい非エルミート的な物理現象が出現する。
本研究では,散逸と相互作用によって制御されるNHSEについて理論的に検討する。
1DジグザグBose-Hubbard格子は磁気フラックス,スタガードオンサイト単一粒子損失,および均一なオンサイト2粒子損失を考慮に入れた。
2粒子の損失が小さい場合、磁気フラックスとスタガード単一粒子の損失の相互作用により、2体有界固有状態(すなわち2体有界固有状態)は、すべて同じ境界で局在する。
一方, 強い二粒子損失では, ドバイロンの局在方向が予想外に逆転する。
これは粒子対の仮想二階ホッピング法と三階ホッピング法によって誘導されるドバイロンの強い非相互ホッピングに、磁束、スタッガード単粒子損失、強い二粒子損失が組み合わさったことに起因する。
さらに、二粒子ゲインは同じ皮膚局在化と逆転特性を誘導することができ、これはNHSEとその相互作用によって制御されるドーバロンの逆転を動的に観察するために利用することができる。
本研究は,多体系における新しい非エルミート現象を探求するための新たな道を開くものである。
Non-Hermitian skin effects (NHSEs) have recently been investigated extensively at the single-particle level. When many-body interactions become dominant, novel non-Hermitian physical phenomena can emerge. In this work, we theoretically study NHSEs controlled by dissipation and interaction. We consider a 1D zigzag Bose-Hubbard lattice, subject to magnetic flux, staggered onsite single-particle loss, and uniform onsite two-particle loss. When the two-particle loss is small, two-body bound eigenstates (i.e., doublons) are all localized at the same boundary due to the interplay of the magnetic flux and staggered single-particle loss. While, for strong two-particle loss, the localization direction of doublons is unexpectedly reversed. This is attributed to the effective strong nonreciprocal hopping of doublons induced by the virtual second-order and third-order hopping processes of particle pairs with the combination of the magnetic flux, staggered single-particle loss, and strong two-particle loss. Moreover, a two-particle gain can induce the same skin-localization and reversal features of doublons, which can be utilized to dynamically observe the NHSE and its reversal of doublons controlled by interactions. Our results open up a new avenue for exploring novel non-Hermitian phenomena in many-body systems. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# 量子制限横変位推定のためのモーメントエンタングル2光子干渉
Momentum-entangled two-photon interference for quantum-limited transverse-displacement estimation ( http://arxiv.org/abs/2408.12452v1 ) ライセンス: Link先を確認 | Danilo Triggiani, Vincenzo Tamma, | (参考訳) 本稿では、2つの干渉光子間の横変位推定のための究極の量子精度を実現する手法を提案する。
このような横変位は、例えば、伝播媒体の屈折特性、またはミラー系の配向によって引き起こされる。
異なるモーメントで伝播する光子の分極-絡み合った対間の逆モメンタムサンプリング干渉を行うことにより、光子の逆モーメントの差で増加する精度で横変位推定を行うことができることを示す。
さらに, 微小変位を推定するためには, 過渡モメンタム分解検出器をバケット検出器に置き換えて, 感度を損なうことなく簡易に測定できることを示す。
より根本的には、空間領域における前庭量子制限感度の心にある横モータにおける2光子の絡み合いから生じる量子干渉であることを示す。
We propose a scheme achieving the ultimate quantum precision for the estimation of the transverse displacement between two interfering photons. Such a transverse displacement could be caused, for example, by the refracting properties of the propagation medium, or by the orientation of a system of mirrors. By performing transverse-momentum sampling interference between polarization-entangled pairs of photons that propagate with different momenta, we show that it is possible to perform transverse-displacement estimation with a precision that increases with the difference of the transverse momenta of the photons. Moreover, we show that for the estimation of small displacements, it is possible to simplify the measurement scheme replacing the transverse-momentum resolving detectors with bucket detectors without any loss in sensitivity. More fundamentally, we demonstrate that it is the quantum interference arising from two-photon entanglement in the transverse momenta at the very heart of the foreseen quantum-limited sensitivity in the spatial domain. | 翻訳日:2024-08-23 13:32:07 公開日:2024-08-22 |
# 視覚におけるG$-Biasesによる緩和回転等価性
Relaxed Rotational Equivariance via $G$-Biases in Vision ( http://arxiv.org/abs/2408.12454v1 ) ライセンス: Link先を確認 | Zhiqiang Wu, Licheng Sun, Yingjie Liu, Jian Yang, Hanlin Dong, Shing-Ho J. Lin, Xuan Tang, Jinpeng Mi, Bo Jin, Xian Wei, | (参考訳) 群同変畳み込み(GConv)は回転対称性データを効果的に扱うことができる。
彼らはすべての特徴に対して一様かつ厳密な回転対称性を仮定し、特定の群の下での変換を仮定する。
しかし、実世界のデータは、システムやデータセットで一般的には回転対称性と呼ばれる厳密な回転対称性に従わないため、GConvはこの現象に効果的に適応できない。
この問題に対して,厳密な群制約を破り, \textbf{R}elaxed \textbf{R}otational \textbf{E}quivarant \textbf{Conv}olution (RREConv) を達成するために, G$-Biases と呼ばれる一連の学習可能なバイアスを利用する,単純かつ高効率な手法を提案する。
回転対称群 $\mathcal{C}_n$ (eg $\mathcal{C}_2$, $\mathcal{C}_4$, $\mathcal{C}_6$ group) 上の緩和回転同値性を検証するための広範な実験を行う。
さらに,提案したRREConv法は,自然画像データセットの分類・検出タスクにおける既存のGConv法と比較して,優れた性能を示すことを示す。
Group Equivariant Convolution (GConv) can effectively handle rotational symmetry data. They assume uniform and strict rotational symmetry across all features, as the transformations under the specific group. However, real-world data rarely conforms to strict rotational symmetry commonly referred to as Rotational Symmetry-Breaking in the system or dataset, making GConv unable to adapt effectively to this phenomenon. Motivated by this, we propose a simple but highly effective method to address this problem, which utilizes a set of learnable biases called the $G$-Biases under the group order to break strict group constraints and achieve \textbf{R}elaxed \textbf{R}otational \textbf{E}quivarant \textbf{Conv}olution (RREConv). We conduct extensive experiments to validate Relaxed Rotational Equivariance on rotational symmetry groups $\mathcal{C}_n$ (e.g. $\mathcal{C}_2$, $\mathcal{C}_4$, and $\mathcal{C}_6$ groups). Further experiments demonstrate that our proposed RREConv-based methods achieve excellent performance, compared to existing GConv-based methods in classification and detection tasks on natural image datasets. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# 大規模言語モデル編集における知識消去によるマルチホップ推論の強化
Enhancing Multi-hop Reasoning through Knowledge Erasure in Large Language Model Editing ( http://arxiv.org/abs/2408.12456v1 ) ライセンス: Link先を確認 | Mengqi Zhang, Bowen Fang, Qiang Liu, Pengjie Ren, Shu Wu, Zhumin Chen, Liang Wang, | (参考訳) 大規模言語モデル(LLM)は、内部知識の不正確さと時代遅れの情報による課題に直面している。
知識編集はこれらの問題を緩和するための重要なアプローチとして現れてきた。
現在の知識編集技術はシングルホップ推論タスクにおいて有望な性能を示すが、マルチホップ推論に適用した場合の限界を示す。
認知神経科学とLCMの操作機構に基づいて,編集後の残余シングルホップ知識が,複数ホップ質問処理時の元の回答に逆戻りし,マルチホップ推論タスクにおける性能を損なうという仮説を立てた。
この仮説を検証するために、我々は仮定を実証的に確認する一連の実験を行った。
検証された仮説に基づいて,大規模言語モデル編集(KELE)のための知識消去機構を組み込んだ新しい知識編集手法を提案する。
具体的には,残余知識に対する消去関数と,新しい知識に対する注入関数を設計する。
共同最適化により、最適リコールベクトルを導出し、その後、ランクワン編集フレームワーク内で、ターゲットとなるモデル層のパラメータを更新する。
GPT-JとGPT-2 XLの大規模な実験により、KELEは編集LDMのマルチホップ推論能力を大幅に向上することが示された。
Large language models (LLMs) face challenges with internal knowledge inaccuracies and outdated information. Knowledge editing has emerged as a pivotal approach to mitigate these issues. Although current knowledge editing techniques exhibit promising performance in single-hop reasoning tasks, they show limitations when applied to multi-hop reasoning. Drawing on cognitive neuroscience and the operational mechanisms of LLMs, we hypothesize that the residual single-hop knowledge after editing causes edited models to revert to their original answers when processing multi-hop questions, thereby undermining their performance in multihop reasoning tasks. To validate this hypothesis, we conduct a series of experiments that empirically confirm our assumptions. Building on the validated hypothesis, we propose a novel knowledge editing method that incorporates a Knowledge Erasure mechanism for Large language model Editing (KELE). Specifically, we design an erasure function for residual knowledge and an injection function for new knowledge. Through joint optimization, we derive the optimal recall vector, which is subsequently utilized within a rank-one editing framework to update the parameters of targeted model layers. Extensive experiments on GPT-J and GPT-2 XL demonstrate that KELE substantially enhances the multi-hop reasoning capability of edited LLMs. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# クロージャの発見:畳み込みニューラルネットワークにおけるクロージャのゲシュタルト法則の概観
Finding Closure: A Closer Look at the Gestalt Law of Closure in Convolutional Neural Networks ( http://arxiv.org/abs/2408.12460v1 ) ライセンス: Link先を確認 | Yuyan Zhang, Derya Soydaner, Lisa Koßmann, Fatemeh Behrad, Johan Wagemans, | (参考訳) 人間の脳は、部分の欠如や断片化があっても、フィギュアを完全な全体として知覚するギャップを埋める能力を持っている。
この現象は、人間の脳が視覚刺激をどのように解釈するかを説明する、知覚組織のゲシュタルト法則の1つである心理学におけるクロージャとして知られる。
ヒトの物体認識におけるクロージャの重要性を考えると、ニューラルネットワークが同様のメカニズムに依存しているかどうかを検討する。
この重要な人間の視覚的スキルをニューラルネットワークで探索することは、人間との相性が強調される可能性がある。
最近の研究では、ニューラルネットワークにおけるクロージャ効果が研究されている。
しかし、彼らは通常、限定された畳み込みニューラルネットワーク(CNN)の選択に焦点を当てており、クロージャを実行する能力について合意に達していない。
これらのギャップに対処するために、ニューラルネットワークにおけるクロージャ原理を調査するための体系的な枠組みを提案する。
我々は、モーダルとアモーダルの両方を含むクロージャ効果をテストするために設計された、精巧なデータセットを導入する。
次に、異なる測定値を用いた各種CNNの実験を行う。
VGG16とDenseNet-121はクロージャ効果を示し,他のCNNは可変結果を示した。
我々はこれらの知見を心理学とニューラルネットワーク研究の洞察を混ぜ合わせて解釈し、ニューラルネットワークの理解における透明性を高めるユニークな視点を提供する。
コードとデータセットはGitHubで公開されます。
The human brain has an inherent ability to fill in gaps to perceive figures as complete wholes, even when parts are missing or fragmented. This phenomenon is known as Closure in psychology, one of the Gestalt laws of perceptual organization, explaining how the human brain interprets visual stimuli. Given the importance of Closure for human object recognition, we investigate whether neural networks rely on a similar mechanism. Exploring this crucial human visual skill in neural networks has the potential to highlight their comparability to humans. Recent studies have examined the Closure effect in neural networks. However, they typically focus on a limited selection of Convolutional Neural Networks (CNNs) and have not reached a consensus on their capability to perform Closure. To address these gaps, we present a systematic framework for investigating the Closure principle in neural networks. We introduce well-curated datasets designed to test for Closure effects, including both modal and amodal completion. We then conduct experiments on various CNNs employing different measurements. Our comprehensive analysis reveals that VGG16 and DenseNet-121 exhibit the Closure effect, while other CNNs show variable results. We interpret these findings by blending insights from psychology and neural network research, offering a unique perspective that enhances transparency in understanding neural networks. Our code and dataset will be made available on GitHub. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# エッジインテリジェンスとモデル最適化を用いたスマートフォンによるアイトラッキングシステム
Smartphone-based Eye Tracking System using Edge Intelligence and Model Optimisation ( http://arxiv.org/abs/2408.12463v1 ) ライセンス: Link先を確認 | Nishan Gunawardena, Gough Yumu Lui, Jeewani Anupama Ginige, Bahman Javadi, | (参考訳) 現在のスマートフォンベースのアイトラッキングアルゴリズムの大幅な制限は、ビデオタイプの視覚刺激に適用する際の精度の低下である。
また、スマートフォン上でのゲーム、VR、ARといったリアルタイムインタラクティブアプリケーションに対する需要の増加は、計算能力の制限、バッテリ寿命、ネットワーク帯域幅といったリソース制約によって引き起こされる制限を克服する必要がある。
そこで我々は、コンボリューショナルニューラルネットワーク(CNN)と2つの異なるリカレントニューラルネットワーク(RNN)、すなわちLong Short Term Memory(LSTM)とGated Recurrent Unit(GRU)を組み合わせることで、ビデオ型ビジュアルのための新しい2つのスマートフォンアイトラッキング技術を開発した。
我々のCNN+LSTMモデルとCNN+GRUモデルは平均根平均角誤差0.955cmと1.091cmを達成した。
スマートフォンの計算制約に対処するため,スマートフォンによるアイトラッキングの性能向上を目的としたエッジインテリジェンスアーキテクチャを開発した。
我々は、エッジデバイス上でのエネルギー、CPU、メモリ使用量を改善するために、量子化やプルーニングといった様々な最適化手法をディープラーニングモデルに適用し、リアルタイム処理に焦点を当てた。
モデル量子化を用いて、CNN+LSTMとCNN+GRUのモデル推論時間は、エッジデバイス上でそれぞれ21.72%、19.50%削減された。
A significant limitation of current smartphone-based eye-tracking algorithms is their low accuracy when applied to video-type visual stimuli, as they are typically trained on static images. Also, the increasing demand for real-time interactive applications like games, VR, and AR on smartphones requires overcoming the limitations posed by resource constraints such as limited computational power, battery life, and network bandwidth. Therefore, we developed two new smartphone eye-tracking techniques for video-type visuals by combining Convolutional Neural Networks (CNN) with two different Recurrent Neural Networks (RNN), namely Long Short Term Memory (LSTM) and Gated Recurrent Unit (GRU). Our CNN+LSTM and CNN+GRU models achieved an average Root Mean Square Error of 0.955cm and 1.091cm, respectively. To address the computational constraints of smartphones, we developed an edge intelligence architecture to enhance the performance of smartphone-based eye tracking. We applied various optimisation methods like quantisation and pruning to deep learning models for better energy, CPU, and memory usage on edge devices, focusing on real-time processing. Using model quantisation, the model inference time in the CNN+LSTM and CNN+GRU models was reduced by 21.72% and 19.50%, respectively, on edge devices. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# 展開ファイバ上のリモートおよび独立量子ネットワークノードの拡張可能な光位相同期
Extendable optical phase synchronization of remote and independent quantum network nodes over deployed fibers ( http://arxiv.org/abs/2408.12464v1 ) ライセンス: Link先を確認 | A. J. Stolk, J. J. B. Biemond, K. L. van der Enden, L. van Dooren, E. J. van Zwet, R. Hanson, | (参考訳) 遠隔量子ビットシステム間の絡み合い生成は、量子通信における中心的なタスクである。
将来の量子ネットワークは、低損失の通信帯域と互換性があり、キュービットノード間の大きな分離で動作する必要がある。
シングルクリックのヘラルディングスキームは、光学的に位相同期アーキテクチャを必要とするコストで絡み合い率を高めるために使用できる。
本稿では,低損失通信Lバンドで動作する大都市圏量子ネットワークの位相同期方式を提案する。
通信遅延や光パワー制限といった様々な課題を克服するため、このスキームは個別に安定化された複数のタスクから構成される。
それぞれのタスクを特徴付け、主要なノイズ源を特定し、設計選択を動機付け、同期スキームを記述する。
各タスクのパフォーマンスは、周波数応答とフィードバック帯域を調査する転送関数の測定によって定量化される。
最後に、フルデプロイされたシステムの10時間にわたる光位相安定性について検討し、平均光位相の短期安定性標準偏差を${\sigma} \approx 30 \deg$とし、平均光位相の長期安定性を数度以内に報告する。
このスキームは、NV中心に基づく大都市圏量子リンクの鍵となる技術として機能した。
このスキームは、拡張可能でテレコム互換の位相同期ソリューションの恩恵を受ける他の量子ネットワークプラットフォームにとって興味深いものである。
Entanglement generation between remote qubit systems is the central tasks for quantum communication. Future quantum networks will have to be compatible with low-loss telecom bands and operate with large separation between qubit nodes. Single-click heralding schemes can be used to increase entanglement rates at the cost of needing an optically phase-synchronized architecture. In this paper we present such a phase synchronization scheme for a metropolitan quantum network, operating in the low-loss telecom L-band. To overcome various challenges such as communication delays and optical power limitations, the scheme consists of multiple tasks that are individually stabilized. We characterize each task, identify the main noise sources, motivate the design choices and describe the synchronization schemes. The performance of each of the tasks is quantified by a transfer-function measurement that investigates the frequency response and feedback bandwidth. Finally we investigate the resulting optical phase stability of the fully deployed system over a continuous period of 10 hours, reporting a short-term stability standard deviation of ${\sigma} \approx 30 \deg$ and a long-term stability of the average optical phase to within a few degrees. The scheme presented served as a key enabling technology for an NV-center based metropolitan quantum link. This scheme is of interest for other quantum network platforms that benefit from an extendable and telecom compatible phase synchronization solution. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# WCEbleedGen:ワイヤレスカプセル内視鏡データセットとその自動出血分類、検出、セグメンテーションのためのベンチマーク
WCEbleedGen: A wireless capsule endoscopy dataset and its benchmarking for automatic bleeding classification, detection, and segmentation ( http://arxiv.org/abs/2408.12466v1 ) ライセンス: Link先を確認 | Palak Handa, Manas Dhir, Amirreza Mahbod, Florian Schwarzhans, Ramona Woitek, Nidhi Goel, Deepak Gunjan, | (参考訳) 無線カプセル内視鏡(WCE)のコンピュータによる解析が重要である。
しかし, 自動分類, 検出, セグメンテーションの訓練と評価のための医学的注釈付きWCEデータセットは, 現在不足している。
本研究は,出血フレームと非出血フレームの自動分類,検出,セグメンテーションのための医用注釈付きWCEデータセットWCEbleedGenの開発に焦点を当てた。
さまざまなインターネットリソースや既存のWCEデータセットから収集された2,618個のWCE出血フレームと非出血フレームで構成されている。
開発したデータセットの総合的なベンチマークと評価は,9つの分類ベース,3つの検出ベース,および3つのセグメンテーションベースディープラーニングモデルを用いて行った。
データセットは高品質で、クラスバランスが取れており、単一の出血部位と複数の出血部位を含んでいる。
ベンチマークの結果,Visual Geometric Group (VGG) 19, You Only Look Once バージョン8 nano (YOLOv8n), Link Network (Linknet)はそれぞれ,自動分類,検出,セグメンテーションに基づく評価において最善であった。
WCEビデオの解釈には自動出血診断が不可欠である。
この多様なデータセットは、WCEにおける自動出血診断のためのリアルタイムなマルチタスク学習ベースの革新的なソリューションの開発に役立つだろう。
データセットとコードはhttps://zenodo.org/records/10156571とhttps://github.com/misahub2023/Benchmarking-Codes-of-WCEBleedGen-datasetで公開されている。
Computer-based analysis of Wireless Capsule Endoscopy (WCE) is crucial. However, a medically annotated WCE dataset for training and evaluation of automatic classification, detection, and segmentation of bleeding and non-bleeding frames is currently lacking. The present work focused on development of a medically annotated WCE dataset called WCEbleedGen for automatic classification, detection, and segmentation of bleeding and non-bleeding frames. It comprises 2,618 WCE bleeding and non-bleeding frames which were collected from various internet resources and existing WCE datasets. A comprehensive benchmarking and evaluation of the developed dataset was done using nine classification-based, three detection-based, and three segmentation-based deep learning models. The dataset is of high-quality, is class-balanced and contains single and multiple bleeding sites. Overall, our standard benchmark results show that Visual Geometric Group (VGG) 19, You Only Look Once version 8 nano (YOLOv8n), and Link network (Linknet) performed best in automatic classification, detection, and segmentation-based evaluations, respectively. Automatic bleeding diagnosis is crucial for WCE video interpretations. This diverse dataset will aid in developing of real-time, multi-task learning-based innovative solutions for automatic bleeding diagnosis in WCE. The dataset and code are publicly available at https://zenodo.org/records/10156571 and https://github.com/misahub2023/Benchmarking-Codes-of-the-WCEBleedGen-dataset. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# ファウショット学習のための大規模言語モデルによるクラスエンティティ推論の提案
Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning ( http://arxiv.org/abs/2408.12469v1 ) ライセンス: Link先を確認 | Mushui Liu, Fangtai Wu, Bozheng Li, Ziqian Lu, Yunlong Yu, Xi Li, | (参考訳) FSL(Few-shot Learning)は、限られたビジュアルサンプルを用いて新しい概念を認識することを目的としている。
既存のアプローチでは、カテゴリ理解のための限られた視覚データに意味情報を組み込もうとしている。
しかし、これらの手法はしばしば抽象圏名を持つクラスレベルの特徴表現を豊かにし、効果的な一般化に不可欠なニュアンス付き特徴を捉えなかった。
この問題に対処するため,我々は,抽象クラスセマンティクスとLarge Language Models (LLMs) から抽出した具体的なクラスエンティティを組み込んだFSLの新しいフレームワークを提案する。
具体的には,セマンティック・ガイド・ビジュアル・パターン抽出(SVPE)モジュールとプロトタイプ・キャリブレーション(PC)モジュールで構成され,SVPEは多種多様なスケールのセマンティック・アウェア・ビジュアル・パターンを巧みに抽出し,PCモジュールはこれらのパターンをシームレスに統合して視覚的プロトタイプを洗練し,その表現性を向上する。
4つのショット分類ベンチマークとBSCD-FSLクロスドメインベンチマークに対する大規模な実験は、現在の最先端の手法よりも顕著な進歩を示している。
特に、難易度の高いワンショット環境では、ResNet-12のバックボーンを利用するアプローチは、第2の競争相手に比べて1.95%の大幅な平均的な改善を実現しています。
Few-shot learning (FSL) aims to recognize new concepts using a limited number of visual samples. Existing approaches attempt to incorporate semantic information into the limited visual data for category understanding. However, these methods often enrich class-level feature representations with abstract category names, failing to capture the nuanced features essential for effective generalization. To address this issue, we propose a novel framework for FSL, which incorporates both the abstract class semantics and the concrete class entities extracted from Large Language Models (LLMs), to enhance the representation of the class prototypes. Specifically, our framework composes a Semantic-guided Visual Pattern Extraction (SVPE) module and a Prototype-Calibration (PC) module, where the SVPE meticulously extracts semantic-aware visual patterns across diverse scales, while the PC module seamlessly integrates these patterns to refine the visual prototype, enhancing its representativeness. Extensive experiments on four few-shot classification benchmarks and the BSCD-FSL cross-domain benchmarks showcase remarkable advancements over the current state-of-the-art methods. Notably, for the challenging one-shot setting, our approach, utilizing the ResNet-12 backbone, achieves an impressive average improvement of 1.95% over the second-best competitor. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# ほとんど経路を持たない直進st接続性は量子対数空間にある
Directed st-connectivity with few paths is in quantum logspace ( http://arxiv.org/abs/2408.12473v1 ) ライセンス: Link先を確認 | Roman Edenhofer, Simon Apers, | (参考訳) 我々は、有向グラフ上の$st$-pathをカウントするために$\mathsf{BQSPACE}(O(\log n))$-procedureを提示する。
比較すると、$st$-接続性を決定するのに最もよく知られている古典上界は$\mathsf{DSPACE}(O(\log^2 n/ \log \log n))$である。
その結果、$\mathsf{BQL}$と$\mathsf{NL}$の曖昧さと小ささのサブクラスとの間の新しい関係が確立される。
さらに、このアプローチのいくつかの前処理により、$\mathsf{BQSPACE}(O(\log n))$の任意の2つのノードの間に、少なくとも多項式的に多くの経路が存在するかどうかを検証できる。
これは、$\mathsf{BQL}$と$\mathsf{L}$と$\mathsf{BPL}$を分離する言語問題に対する最初の自然な候補となる。
これまで、これらのクラスを分ける候補者は全員、約束の問題だった。
We present a $\mathsf{BQSPACE}(O(\log n))$-procedure to count $st$-paths on directed graphs for which we are promised that there are at most polynomially many paths starting in $s$ and polynomially many paths ending in $t$. For comparison, the best known classical upper bound in this case just to decide $st$-connectivity is $\mathsf{DSPACE}(O(\log^2 n/ \log \log n))$. The result establishes a new relationship between $\mathsf{BQL}$ and unambiguity and fewness subclasses of $\mathsf{NL}$. Further, some preprocessing in our approach also allows us to verify whether there are at most polynomially many paths between any two nodes in $\mathsf{BQSPACE}(O(\log n))$. This yields the first natural candidate for a language problem separating $\mathsf{BQL}$ from $\mathsf{L}$ and $\mathsf{BPL}$. Until now, all candidates separating these classes were promise problems. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# 分解側バンド状態における2次元ガリウムホスフィンヒド光学結晶
A two-dimensional gallium phosphide optomechanical crystal in the resolved-sideband regime ( http://arxiv.org/abs/2408.12474v1 ) ライセンス: Link先を確認 | Sho Tamaki, Mads Bjerregaard Kristensen, Théo Martel, Rémy Braive, Albert Schliesser, | (参考訳) テレコム光子とマイクロ波力学的振動の間の忠実な量子状態移動は、高速な変換速度と低い熱雑音を必要とする。
2次元(2次元)光学結晶(OMC)は、これらの要件を満たす候補として好ましい。
2D OMCは、多くの量子プロトコルの前提条件である、解決されたサイドバンド状態を実現するのに十分な機械的周波数(1$\sim$10 GHz)を可能にする。
また、1D構造よりも高い熱伝導性をサポートし、寄生虫のレーザー吸収加熱を緩和する。
さらに、ガリウムホスフィンヒド(GaP)は、2光子吸収を抑制する2.26eVの電子バンドギャップと、電気通信Cバンドでの高屈折率$n$ = 3.05により、高いQ$光学モードをもたらすため、有望な材料選択である。
ここでは、GaPで作られた2D OMCを作製し、特徴付けする。
通信周波数195.6 THzの直線幅$\kappa/2\pi$ = 2.5 GHzに対応する7.9\times 10^{4}$の高光学的$Q$-factorを実現する。
この光学モードはいくつかのメカニカルモードに結合し、その周波数はすべてキャビティ線幅を超える。
最も強く結合されたモードは光線幅の3倍以上の7.7GHzで発振し、真空オプトメカニカルカップリングレート$g_{\mathrm{0}}/2\pi$ =450 kHzに達する。
これにより、このプラットフォームは、低温でのテレコム光子に対する長寿命で決定論的量子メモリの候補として期待できる。
Faithful quantum state transfer between telecom photons and microwave frequency mechanical oscillations necessitate a fast conversion rate and low thermal noise. Two-dimensional (2D) optomechanical crystals (OMCs) are favorable candidates that satisfy those requirements. 2D OMCs enable sufficiently high mechanical frequency (1$\sim$10 GHz) to make the resolved-sideband regime achievable, a prerequisite for many quantum protocols. It also supports higher thermal conductance than 1D structures, mitigating the parasitic laser absorption heating. Furthermore, gallium phosphide (GaP) is a promising material choice thanks to its large electronic bandgap of 2.26 eV, which suppresses two-photon absorption, and high refractive index $n$ = 3.05 at the telecom C-band, leading to a high-$Q$ optical mode. Here, we fabricate and characterize a 2D OMC made of GaP. We realize a high optical $Q$-factor of $7.9\times 10^{4}$, corresponding to a linewidth $\kappa/2\pi$ = 2.5 GHz at the telecom frequency 195.6 THz. This optical mode couples to several mechanical modes, whose frequencies all exceed the cavity linewidth. The most strongly coupled mode oscillates at 7.7 GHz, more than 3 times the optical linewidth, while achieving a substantial vacuum optomechanical coupling rate $g_{\mathrm{0}}/2\pi$ = 450 kHz. This makes the platform a promising candidate for a long-lived, deterministic quantum memory for telecom photons at low temperatures. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# フレームオーダー事項:Few-Shot行動認識のための時間系列認識モデル
Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition ( http://arxiv.org/abs/2408.12475v1 ) ライセンス: Link先を確認 | Bozheng Li, Mushui Liu, Gaoang Wang, Yunlong Yu, | (参考訳) 本稿では, 逐次パーシーバアダプタを事前学習フレームワークに組み込んで, 特徴埋め込みに空間情報と逐次時間ダイナミクスを統合する, 数ショット動作認識のためのTSAM(Temporal Sequence-Aware Model)を提案する。
全てのフレーム間の関係を探索することで時間情報を捉える既存の微調整アプローチとは異なり、知覚器ベースのアダプタは、時系列に沿った逐次的ダイナミクスを反復的にキャプチャし、順序変化を知覚することができる。
各クラスの識別表現を得るために,大言語モデル(LLM)から派生した各クラスのテキストコーパスを拡張し,文脈意味情報を統合することで視覚的プロトタイプを充実させる。
さらに,機能マッチングのための不均衡な最適輸送戦略を導入し,クラス非関連の特徴の影響を緩和し,より効果的な意思決定を容易にする。
5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
In this paper, we propose a novel Temporal Sequence-Aware Model (TSAM) for few-shot action recognition (FSAR), which incorporates a sequential perceiver adapter into the pre-training framework, to integrate both the spatial information and the sequential temporal dynamics into the feature embeddings. Different from the existing fine-tuning approaches that capture temporal information by exploring the relationships among all the frames, our perceiver-based adapter recurrently captures the sequential dynamics alongside the timeline, which could perceive the order change. To obtain the discriminative representations for each class, we extend a textual corpus for each class derived from the large language models (LLMs) and enrich the visual prototypes by integrating the contextual semantic information. Besides, We introduce an unbalanced optimal transport strategy for feature matching that mitigates the impact of class-unrelated features, thereby facilitating more effective decision-making. Experimental results on five FSAR datasets demonstrate that our method set a new benchmark, beating the second-best competitors with large margins. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# AQIと気象特性に基づく機械学習による太陽光発電予測
Predicting Solar Energy Generation with Machine Learning based on AQI and Weather Features ( http://arxiv.org/abs/2408.12476v1 ) ライセンス: Link先を確認 | Arjun Shah, Varun Viswanath, Kashish Gandhi, Dr. Nilesh Madhukar Patil, | (参考訳) 本稿では,効率的なグリッド統合に欠かせない,正確な太陽エネルギー予測モデルの必要性に対処する。
先進的な機械学習とディープラーニング技術を用いて,大気質指数と気象特性が太陽エネルギー生成に与える影響について検討する。
本手法は時系列モデリングを用い,パワートランスフォーメーションの正規化とゼロインフレードモデリングを新たに活用する。
様々な機械学習アルゴリズムとConv2D長短期記憶モデルに基づくディープラーニングモデルをこれらの変換に適用して正確な予測を行う。
その結果,大気質指数と気象特性による予測精度の向上が示された。
我々はコンブ2D長短期記憶モデルを用いた0.9691ドルR^2$スコア、0.18MAE、0.10RMSEを達成し、太陽エネルギー発生の時系列予測の強化における電力変換技術の革新を実証した。
このような結果は,太陽エネルギー予測のための大気質指数,気象特性,深層学習技術との相乗効果に関する貴重な知見に寄与する。
This paper addresses the pressing need for an accurate solar energy prediction model, which is crucial for efficient grid integration. We explore the influence of the Air Quality Index and weather features on solar energy generation, employing advanced Machine Learning and Deep Learning techniques. Our methodology uses time series modeling and makes novel use of power transform normalization and zero-inflated modeling. Various Machine Learning algorithms and Conv2D Long Short-Term Memory model based Deep Learning models are applied to these transformations for precise predictions. Results underscore the effectiveness of our approach, demonstrating enhanced prediction accuracy with Air Quality Index and weather features. We achieved a 0.9691 $R^2$ Score, 0.18 MAE, 0.10 RMSE with Conv2D Long Short-Term Memory model, showcasing the power transform technique's innovation in enhancing time series forecasting for solar energy generation. Such results help our research contribute valuable insights to the synergy between Air Quality Index, weather features, and Deep Learning techniques for solar energy prediction. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# Vintern-1B:ベトナム語のための効率的なマルチモーダル大言語モデル
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese ( http://arxiv.org/abs/2408.12480v1 ) ライセンス: Link先を確認 | Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang, | (参考訳) 本稿ではベトナム語タスクのための信頼性の高い1ビリオンパラメトリック・マルチモーダル言語モデル(MLLM)であるVintern-1Bを紹介する。
Qwen2-0.5B-Instruct言語モデルとInternViT-300M-448pxビジュアルモデルを統合することで、Vintern-1Bは、光学文字認識(OCR)、文書抽出、ベトナムの文脈における一般的な質問応答など、幅広い用途に最適化されている。
このモデルは300万以上の画像検索と回答のペアからなる広範なデータセットに基づいて微調整され、OpenViVQAやViTextVQAといったベトナムの複数の言語ベンチマークで堅牢なパフォーマンスと信頼性を実現している。
Vintern-1Bは、様々なデバイス上のアプリケーションに簡単に適合できるほど小さい。
さらに、Gemini 1.5 Flashで作成されたテキストとダイアグラムのためのベトナムの視覚質問応答(VQA)データセットをオープンソース化しました。
私たちのモデルは、https://huggingface.co/5CD-AI/Vintern-1B-v2で利用可能です。
In this report, we introduce Vintern-1B, a reliable 1-billion-parameters multimodal large language model (MLLM) for Vietnamese language tasks. By integrating the Qwen2-0.5B-Instruct language model with the InternViT-300M-448px visual model, Vintern-1B is optimized for a range of applications, including optical character recognition (OCR), document extraction, and general question-answering in Vietnamese context. The model is fine-tuned on an extensive dataset of over 3 million image-question-answer pairs, achieving robust performance and reliable results across multiple Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is small enough to fit into various on-device applications easily. Additionally, we have open-sourced several Vietnamese vision question answering (VQA) datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are available at: https://huggingface.co/5CD-AI/Vintern-1B-v2. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# 超低消費電力オーディオセンサにおける個人化キーワードスポッティングのための自己学習
Self-Learning for Personalized Keyword Spotting on Ultra-Low-Power Audio Sensors ( http://arxiv.org/abs/2408.12481v1 ) ライセンス: Link先を確認 | Manuele Rusci, Francesco Paci, Marco Fariselli, Eric Flamand, Tinne Tuytelaars, | (参考訳) 本稿では,超低消費電力スマートオーディオセンサへの展開後,個人化キーワードスポッティング(KWS)モデルをインクリメンタルに訓練する自己学習フレームワークを提案する。
類似度スコアに基づいて,新たに録音した音声フレームに擬似ラベルを割り当てることにより,ラベル付きトレーニングデータがないという根本的な問題に対処する。
2つの公開データセット上で最大0.5Mまでのパラメータを持つ複数のKWSモデルを実験することにより、大規模なジェネリックキーワードセットで事前訓練された初期モデルに対して、+19.2%と+16.0%の精度向上を示す。
低消費電力マイクロホンとエネルギー効率のマイクロコントローラ(MCU)からなるセンサシステムでラベリングタスクを実演する。
MCUの不均一な処理エンジンを効率的に活用することにより、常時オンのラベリングタスクは平均電力コスト8.2mWでリアルタイムに実行される。
同じプラットフォーム上で,DS-CNN-SモデルやDS-CNN-Mモデルを用いて,5秒ないし16.4秒毎に新しい発話をサンプリングする場合,デバイス上でのトレーニングを行う場合,ラベル付けエネルギーよりも10倍低いエネルギーコストを推定する。
私たちの経験的結果は、極端に自己適応型のKWSセンサを配置する方法を舗装しています。
This paper proposes a self-learning framework to incrementally train (fine-tune) a personalized Keyword Spotting (KWS) model after the deployment on ultra-low power smart audio sensors. We address the fundamental problem of the absence of labeled training data by assigning pseudo-labels to the new recorded audio frames based on a similarity score with respect to few user recordings. By experimenting with multiple KWS models with a number of parameters up to 0.5M on two public datasets, we show an accuracy improvement of up to +19.2% and +16.0% vs. the initial models pretrained on a large set of generic keywords. The labeling task is demonstrated on a sensor system composed of a low-power microphone and an energy-efficient Microcontroller (MCU). By efficiently exploiting the heterogeneous processing engines of the MCU, the always-on labeling task runs in real-time with an average power cost of up to 8.2 mW. On the same platform, we estimate an energy cost for on-device training 10x lower than the labeling energy if sampling a new utterance every 5 s or 16.4 s with a DS-CNN-S or a DS-CNN-M model. Our empirical result paves the way to self-adaptive personalized KWS sensors at the extreme edge. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# すべてのサンプルを平等に活用すべきではない - データセット蒸留の理解と改善に向けて
Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation ( http://arxiv.org/abs/2408.12483v1 ) ライセンス: Link先を確認 | Shaobo Wang, Yantai Yang, Qilong Wang, Kaixin Li, Linfeng Zhang, Junchi Yan, | (参考訳) Dataset Distillation (DD)は、オリジナルのデータセットと互換性のある小さなデータセットを合成することを目的としている。
多くのDD法が成功したにも拘わらず、この地域の理論的調査は未だ行われていない。
本稿では,サンプル難易度の観点から,様々なマッチング型DD手法の理解に向けて最初の一歩を踏み出した。
まず,勾配ノルムによって測定されたサンプルの難易度を実験的に検討し,異なるマッチングベースの手法が特定の難易度と大まかに一致することを観察する。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
以上の結果から,原データセットからの簡易なサンプル合成の優先順位付けは,特にIPC(image-per-class)の低い設定において,蒸留データセットの品質を高めることが示唆された。
実験的な観察と理論的解析に基づいて,より簡単なサンプルを主に生成し,より高いデータセット品質を実現するSDC(Sampple Difficulty Correction)アプローチを導入する。
私たちのSDCは、最小限のコード調整を伴うプラグインとして既存のメソッドにシームレスに統合できます。
実験の結果, SDCを添加すると, 7つの蒸留法と6つの蒸留法にまたがる高品質な蒸留データセットが生成されることがわかった。
Dataset Distillation (DD) aims to synthesize a small dataset capable of performing comparably to the original dataset. Despite the success of numerous DD methods, theoretical exploration of this area remains unaddressed. In this paper, we take an initial step towards understanding various matching-based DD methods from the perspective of sample difficulty. We begin by empirically examining sample difficulty, measured by gradient norm, and observe that different matching-based methods roughly correspond to specific difficulty tendencies. We then extend the neural scaling laws of data pruning to DD to theoretically explain these matching-based methods. Our findings suggest that prioritizing the synthesis of easier samples from the original dataset can enhance the quality of distilled datasets, especially in low IPC (image-per-class) settings. Based on our empirical observations and theoretical analysis, we introduce the Sample Difficulty Correction (SDC) approach, designed to predominantly generate easier samples to achieve higher dataset quality. Our SDC can be seamlessly integrated into existing methods as a plugin with minimal code adjustments. Experimental results demonstrate that adding SDC generates higher-quality distilled datasets across 7 distillation methods and 6 datasets. | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# Scribbles for All: データセット全体にわたるScribble Supervised Segmentationのベンチマーク
Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets ( http://arxiv.org/abs/2408.12489v1 ) ライセンス: Link先を確認 | Wolfgang Boettcher, Lukas Hoyer, Ozan Unal, Jan Eric Lenssen, Bernt Schiele, | (参考訳) 本稿では,Scribbles for Allについて紹介する。Scribbles for Allは,スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルとトレーニングデータ生成アルゴリズムである。
教師の弱い訓練や微調整のセマンティックセグメンテーションモデルは近年重要なトピックとなり、モデルの品質が大幅に向上した。
この設定では、スクリブルは高品質なセグメンテーション結果を達成するための有望なラベルタイプであり、通常のピクセルワイドなセグメンテーションアノテーションよりもはるかに低いアノテーション処理を必要とする。
弱い監督源としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットがないことである。
この制限を克服するために、Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供し、弱教師付きセグメンテーションの分野における新たな洞察とモデル進歩の道を開く。
データセットとアルゴリズムの提供に加えて、データセット上で最先端のセグメンテーションモデルを評価し、人工ラベルでトレーニングされたモデルが手動ラベルでトレーニングされたモデルに対して競争力を発揮することを示す。
このように、我々のデータセットは、スクリブルラベル付きセマンティックセマンティックセグメンテーションの手法の最先端の研究を可能にする。
データセット、スクリブル生成アルゴリズム、ベースラインはhttps://github.com/wbkit/Scribbles4Allで公開されている。
In this work, we introduce Scribbles for All, a label and training data generation algorithm for semantic segmentation trained on scribble labels. Training or fine-tuning semantic segmentation models with weak supervision has become an important topic recently and was subject to significant advances in model quality. In this setting, scribbles are a promising label type to achieve high quality segmentation results while requiring a much lower annotation effort than usual pixel-wise dense semantic segmentation annotations. The main limitation of scribbles as source for weak supervision is the lack of challenging datasets for scribble segmentation, which hinders the development of novel methods and conclusive evaluations. To overcome this limitation, Scribbles for All provides scribble labels for several popular segmentation datasets and provides an algorithm to automatically generate scribble labels for any dataset with dense annotations, paving the way for new insights and model advancements in the field of weakly supervised segmentation. In addition to providing datasets and algorithm, we evaluate state-of-the-art segmentation models on our datasets and show that models trained with our synthetic labels perform competitively with respect to models trained on manual labels. Thus, our datasets enable state-of-the-art research into methods for scribble-labeled semantic segmentation. The datasets, scribble generation algorithm, and baselines are publicly available at https://github.com/wbkit/Scribbles4All | 翻訳日:2024-08-23 13:22:23 公開日:2024-08-22 |
# 軟部腫瘍・骨腫瘍の放射線画像診断におけるAI : CLAIMおよびFuture-AIガイドラインに対する体系的評価
AI in radiological imaging of soft-tissue and bone tumours: a systematic review evaluating against CLAIM and FUTURE-AI guidelines ( http://arxiv.org/abs/2408.12491v1 ) ライセンス: Link先を確認 | Douwe J. Spaanderman, Matthew Marzetti, Xinyi Wan, Andrew F. Scarsbrook, Philip Robinson, Edwin H. G. Oei, Jacob J. Visser, Robert Hemke, Kirsten van Langevelde, David F. Hanff, Geert J. L. H. van Leenders, Cornelis Verhoef, Dirk J. Gruühagen, Wiro J. Niessen, Stefan Klein, Martijn P. A. Starmans, | (参考訳) 軟部腫瘍と骨腫瘍 (STBT) は稀で, 診断に難渋する病変であり, 様々な臨床症状と治療のアプローチがある。
組織的なレビューでは、これらの腫瘍の診断と予後のための放射線画像を用いた人工知能(AI)手法の概要、臨床翻訳における課題の強調、臨床画像におけるAIのチェックリスト(CLAIM)と、信頼性とデプロイ可能なAIのためのFuture-AI国際コンセンサスガイドラインとのアライメントの評価について紹介する。
このレビューは17/07/2024以前に出版された論文を含む、いくつかの文献データベースからの文献をカバーしている。
放射線学に基づく一次STBTの診断・診断のためのAIに焦点を当てた査読論文の原点研究を含む。
除外基準は、動物、カダベリック、または実験室、および非英語論文である。
抽象化は3人の独立したレビュアーのうち2人によって検査された。
適格な論文は、3人の独立したレビュアーの1人がガイドラインに対して評価した。
調査では15,015項目を抽出し,そのうち325項目を評価対象とした。
ほとんどの研究はCLAIMでは、53点中28.9$\pm$7.5点、30点中5.1$\pm$2.1点、FUTURE-AIでは劣っている。
STBTのイメージングAIツールは概念実証段階に留まっており、改善の余地があることが示唆されている。
AI開発者による今後の取り組みは、設計(例えば、アンメットな臨床ニーズ、意図された臨床設定、AIが臨床ワークフローにどのように統合されるかを定義する)、開発(例えば、以前の作業のビルド、説明可能性)、評価(例えば、バイアスの評価と対処、ベストプラクティスに対するAIの評価)、データ再現性と可用性(ドキュメント化されたコードとデータを公開する)に焦点を当てるべきである。
これらの勧告に従うことで、AIメソッドの臨床的翻訳を改善することができる。
Soft-tissue and bone tumours (STBT) are rare, diagnostically challenging lesions with variable clinical behaviours and treatment approaches. This systematic review provides an overview of Artificial Intelligence (AI) methods using radiological imaging for diagnosis and prognosis of these tumours, highlighting challenges in clinical translation, and evaluating study alignment with the Checklist for AI in Medical Imaging (CLAIM) and the FUTURE-AI international consensus guidelines for trustworthy and deployable AI to promote the clinical translation of AI methods. The review covered literature from several bibliographic databases, including papers published before 17/07/2024. Original research in peer-reviewed journals focused on radiology-based AI for diagnosing or prognosing primary STBT was included. Exclusion criteria were animal, cadaveric, or laboratory studies, and non-English papers. Abstracts were screened by two of three independent reviewers for eligibility. Eligible papers were assessed against guidelines by one of three independent reviewers. The search identified 15,015 abstracts, from which 325 articles were included for evaluation. Most studies performed moderately on CLAIM, averaging a score of 28.9$\pm$7.5 out of 53, but poorly on FUTURE-AI, averaging 5.1$\pm$2.1 out of 30. Imaging-AI tools for STBT remain at the proof-of-concept stage, indicating significant room for improvement. Future efforts by AI developers should focus on design (e.g. define unmet clinical need, intended clinical setting and how AI would be integrated in clinical workflow), development (e.g. build on previous work, explainability), evaluation (e.g. evaluating and addressing biases, evaluating AI against best practices), and data reproducibility and availability (making documented code and data publicly available). Following these recommendations could improve clinical translation of AI methods. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# GenderCARE: 大規模言語モデルにおけるジェンダーバイアスの評価と削減のための総合的なフレームワーク
GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models ( http://arxiv.org/abs/2408.12494v1 ) ライセンス: Link先を確認 | Kunsheng Tang, Wenbo Zhou, Jie Zhang, Aishan Liu, Gelei Deng, Shuai Li, Peigui Qi, Weiming Zhang, Tianwei Zhang, Nenghai Yu, | (参考訳) 大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示したが、社会的バイアス、特に性別に関するバイアスを増大させることも観察されている。
この問題に対して、LSMの性別バイアスを評価するために、いくつかのベンチマークが提案されている。
しかし、これらのベンチマークは実践的な柔軟性を欠いている場合や、必然的にバイアスを導入していない場合が多い。
これらの欠点に対処するために, 革新的基準, バイアス評価, 削減手法, 性別バイアスの定量化と緩和のための評価指標を含む包括的枠組みであるGenderCAREを紹介する。
まず,ジェンダー平等ベンチマークの先駆的基準を確立し,インクリシティ,多様性,説明可能性,客観性,頑健性,現実性などの領域にまたがる。
これらの基準で導かれたGenderPairは、LLMの性別バイアスを包括的に評価する新しいペアベースのベンチマークである。
我々のベンチマークは、トランスジェンダーや非バイナリ個人など、これまで見過ごされていた性別グループを含む、標準化された、現実的な評価を提供する。
さらに,その性能を損なうことなく,LDMにおけるジェンダーバイアスを低減するために,反ファクト的データ拡張と特別な微調整戦略を取り入れた効果的なデバイアス手法を開発した。
大規模な実験では、さまざまな性別バイアスのベンチマークが大幅に減少し、90%以上がピークに達し、17種類のLDMで平均35%以上が平均化されている。
重要なのは、これらの削減はメインストリームの言語タスクにおいて最小限のばらつきを持ち、2%以下であることだ。
ジェンダーケアは、現実的な評価とジェンダーバイアスの削減を提供することで、LLMにおける公正性とエクイティを達成するための重要なステップとなることを願っています。
詳細はhttps://github.com/kstanghere/GenderCARE-ccs24で確認できる。
Large language models (LLMs) have exhibited remarkable capabilities in natural language generation, but they have also been observed to magnify societal biases, particularly those related to gender. In response to this issue, several benchmarks have been proposed to assess gender bias in LLMs. However, these benchmarks often lack practical flexibility or inadvertently introduce biases. To address these shortcomings, we introduce GenderCARE, a comprehensive framework that encompasses innovative Criteria, bias Assessment, Reduction techniques, and Evaluation metrics for quantifying and mitigating gender bias in LLMs. To begin, we establish pioneering criteria for gender equality benchmarks, spanning dimensions such as inclusivity, diversity, explainability, objectivity, robustness, and realisticity. Guided by these criteria, we construct GenderPair, a novel pair-based benchmark designed to assess gender bias in LLMs comprehensively. Our benchmark provides standardized and realistic evaluations, including previously overlooked gender groups such as transgender and non-binary individuals. Furthermore, we develop effective debiasing techniques that incorporate counterfactual data augmentation and specialized fine-tuning strategies to reduce gender bias in LLMs without compromising their overall performance. Extensive experiments demonstrate a significant reduction in various gender bias benchmarks, with reductions peaking at over 90% and averaging above 35% across 17 different LLMs. Importantly, these reductions come with minimal variability in mainstream language tasks, remaining below 2%. By offering a realistic assessment and tailored reduction of gender biases, we hope that our GenderCARE can represent a significant step towards achieving fairness and equity in LLMs. More details are available at https://github.com/kstanghere/GenderCARE-ccs24. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# MEDCO:マルチエージェントフレームワークに基づく医療教育パイロット
MEDCO: Medical Education Copilots Based on A Multi-Agent Framework ( http://arxiv.org/abs/2408.12496v1 ) ライセンス: Link先を確認 | Hao Wei, Jianing Qiu, Haibao Yu, Wu Yuan, | (参考訳) 大規模言語モデル(LLM)は医学や医療など様々な研究領域に大きな影響を与えている。
しかし、医学教育における副操縦士としてのLLMの可能性はいまだ解明されていない。
現在のAI支援教育ツールは、その独学的な学習アプローチと、実際の医療訓練の複数の学際的でインタラクティブな性質をシミュレートできないことで制限されている。
これらの制約に対処するため,MEDCO(Medical EDucation Copilots)を提案する。
MEDCOには、エージェント患者、専門医、放射線技師の3つの主要なエージェントが組み込まれており、マルチモーダルでインタラクティブな学習環境を促進する。
本フレームワークでは,熟練した質問応答スキルの習得,複数学際的コラボレーション,学生間のピアディスカッションが重視されている。
実験の結果,MEDCOの訓練を受けた仮想学生は,高度なモデルに匹敵する性能向上を達成できただけでなく,学習サンプルの増加とともに,人間的な学習行動や改善を実証した。
この研究は、対話的で協調的な学習アプローチを実装するコピロットを導入することで、医学教育に寄与する。
また、AI統合トレーニングパラダイムの有効性に関する貴重な洞察を提供する。
Large language models (LLMs) have had a significant impact on diverse research domains, including medicine and healthcare. However, the potential of LLMs as copilots in medical education remains underexplored. Current AI-assisted educational tools are limited by their solitary learning approach and inability to simulate the multi-disciplinary and interactive nature of actual medical training. To address these limitations, we propose MEDCO (Medical EDucation COpilots), a novel multi-agent-based copilot system specially developed to emulate real-world medical training environments. MEDCO incorporates three primary agents: an agentic patient, an expert doctor, and a radiologist, facilitating a multi-modal and interactive learning environment. Our framework emphasizes the learning of proficient question-asking skills, multi-disciplinary collaboration, and peer discussions between students. Our experiments show that simulated virtual students who underwent training with MEDCO not only achieved substantial performance enhancements comparable to those of advanced models, but also demonstrated human-like learning behaviors and improvements, coupled with an increase in the number of learning samples. This work contributes to medical education by introducing a copilot that implements an interactive and collaborative learning approach. It also provides valuable insights into the effectiveness of AI-integrated training paradigms. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# ロシアに焦点を当てた埋め込み機探査:ruMTEBベンチマークとロシア埋め込みモデル設計
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design ( http://arxiv.org/abs/2408.12503v1 ) ライセンス: Link先を確認 | Artem Snegirev, Maria Tikhonova, Anna Maksimova, Alena Fenogenova, Alexander Abramov, | (参考訳) 埋め込みモデルは、情報検索や意味的テキスト類似性の評価といった様々なタスクで使用されるテキスト埋め込みを作成することで、自然言語処理(NLP)において重要な役割を果たす。
本稿では,ロシア語の埋め込みモデルに関する研究に焦点をあてる。
ru-en-RoSBERTaと呼ばれる新しいロシアの埋め込みモデルとruMTEBベンチマーク、Massive Text Embedding Benchmark (MTEB)を拡張したロシアのバージョンが導入されている。
我々のベンチマークには、意味的テキスト類似性、テキスト分類、再ランク付け、検索の7つのカテゴリが含まれている。
この研究は、提案されたベンチマークに基づいて、ロシアおよび多言語モデルの代表的なセットを評価する。
その結果,ロシア語の最先端モデルに匹敵する結果が得られた。
ru-en-RoSBERTaというモデルをリリースし、ruMTEBフレームワークにはオープンソースコード、オリジナルのフレームワークへの統合、公開リーダボードが付属しています。
Embedding models play a crucial role in Natural Language Processing (NLP) by creating text embeddings used in various tasks such as information retrieval and assessing semantic text similarity. This paper focuses on research related to embedding models in the Russian language. It introduces a new Russian-focused embedding model called ru-en-RoSBERTa and the ruMTEB benchmark, the Russian version extending the Massive Text Embedding Benchmark (MTEB). Our benchmark includes seven categories of tasks, such as semantic textual similarity, text classification, reranking, and retrieval. The research also assesses a representative set of Russian and multilingual models on the proposed benchmark. The findings indicate that the new model achieves results that are on par with state-of-the-art models in Russian. We release the model ru-en-RoSBERTa, and the ruMTEB framework comes with open-source code, integration into the original framework and a public leaderboard. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# 確率収束保証を用いた確率的構成最小値最適化
Stochastic Compositional Minimax Optimization with Provable Convergence Guarantees ( http://arxiv.org/abs/2408.12505v1 ) ライセンス: Link先を確認 | Yuyang Deng, Fuli Qiao, Mehrdad Mahdavi, | (参考訳) 確率的合成ミニマックス問題は機械学習で広く用いられているが、この種の問題の収束に関してのみ確立されている。
本稿では,主成分,双対変数,あるいは主成分,双対変数のいずれにおいても,構成構造を用いて最小値の損失を最適化する確率的構成最小値問題の形式的定義を提案する。
構成補正ステップを持つ降下昇降型アルゴリズムである、確率論的に補正された stOchastic gradient Descent Ascent (CODA) という単純なアルゴリズムを導入し、上記の3つの設定で収束率を確立する。
主成分の組成構造の存在下では、目的関数は典型的には機能組成によって主成分の非凸となる。
したがって、非凸凸・非凸凹の設定を考慮し、CODAが定常点に効率的に収束できることを示す。
双対上の合成の場合、目的関数は双対変数において非凸となり、強凸非凸および凸非凹の設定における収束を示す。
両方の変数の合成の場合、原始変数と双対変数はそれぞれ凸度と凹度を失う。
したがって、弱凸弱凸凸凸集合における収束を解析する。
また,非凸凸と非凸凸凹の合成ミニマックス問題において,最もよく知られた値が得られる分散低減バージョンCODA+を提案する。
この研究は、様々な設定における確率的合成ミニマックス問題の理論的研究を開始し、ドメイン適応や頑健なモデルに依存しないメタラーニングのような現代の機械学習シナリオを知らせる可能性がある。
Stochastic compositional minimax problems are prevalent in machine learning, yet there are only limited established on the convergence of this class of problems. In this paper, we propose a formal definition of the stochastic compositional minimax problem, which involves optimizing a minimax loss with a compositional structure either in primal , dual, or both primal and dual variables. We introduce a simple yet effective algorithm, stochastically Corrected stOchastic gradient Descent Ascent (CODA), which is a descent ascent type algorithm with compositional correction steps, and establish its convergence rate in aforementioned three settings. In the presence of the compositional structure in primal, the objective function typically becomes nonconvex in primal due to function composition. Thus, we consider the nonconvex-strongly-concave and nonconvex-concave settings and show that CODA can efficiently converge to a stationary point. In the case of composition on the dual, the objective function becomes nonconcave in the dual variable, and we demonstrate convergence in the strongly-convex-nonconcave and convex-nonconcave setting. In the case of composition on both variables, the primal and dual variables may lose convexity and concavity, respectively. Therefore, we anaylze the convergence in weakly-convex-weakly-concave setting. We also give a variance reduction version algorithm, CODA+, which achieves the best known rate on nonconvex-strongly-concave and nonconvex-concave compositional minimax problem. This work initiates the theoretical study of the stochastic compositional minimax problem on various settings and may inform modern machine learning scenarios such as domain adaptation or robust model-agnostic meta-learning. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# 量子マスター方程式に対する確率的に束縛された散逸器
Stochastically bundled dissipators for the quantum master equation ( http://arxiv.org/abs/2408.12507v1 ) ライセンス: Link先を確認 | Sayak Adhikari, Roi Baer, | (参考訳) オープン量子システムの進化は、様々な科学分野における基本的なトピックである。
時間伝播中、環境は時々測定を行い、システムの波動関数をランダムに崩壊させる。
フォン・ノイマン密度行列はこれらのランダム過程に関わる統計を取り入れ、その時間発展は散逸子を含むマルコフ量子マスター方程式によってしばしば記述される。
大規模システムでは、散逸器の複雑さは測定可能な数の増加とともに増大し、概念的かつ厳しい計算課題が生じる。
本稿では,この複雑性に対処するためにバンドル計測演算子を用いた散逸器の確率的表現を紹介する。
モース発振器を例として、束んだ演算子の小さなサンプルがシステムのダイナミクスを捉えていることを示す。
この確率的バンドルは、確率的解法とジャンプ作用素の定式化とは異なるものであり、量子散逸とデコヒーレンスを理解する新しい方法を提供する。
The evolution of open quantum systems is a fundamental topic in various scientific fields. During time propagation, the environment occasionally makes measurements, forcing the system's wave function to collapse randomly. The von Neumann density matrix incorporates the statistics involved in these random processes, and its time development is often described by Markovian quantum master equations that incorporate a dissipator. For large systems, the complexity of the dissipator grows with the increasing number of possible measurements, posing conceptual and severe computational challenges. This article introduces a stochastic representation of the dissipator, using bundled measurement operators to address this complexity. Taking the Morse oscillator as an example, we demonstrate that small samples of bundled operators capture the system's dynamics. This stochastic bundling is different from the stochastic unraveling and the jump operator formalism and offers a new way of understanding quantum dissipation and decoherence. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# グラフニューラルネットワークを用いたタンパク質の柔軟性予測のための高度な原子レベル表現
Advanced atom-level representations for protein flexibility prediction utilizing graph neural networks ( http://arxiv.org/abs/2408.12519v1 ) ライセンス: Link先を確認 | Sina Sarparast, Aldo Zaimi, Maximilian Ebert, Michael-Rock Goldsmith, | (参考訳) タンパク質の動態は多くの生物学的プロセスや薬物相互作用において重要な役割を担っている。
しかし、タンパク質の動態を計測し、シミュレーションすることは困難であり、時間がかかる。
機械学習は構造情報からタンパク質力学の決定因子を解読する際、既存のタンパク質表現学習法は残基レベルで動作し、原子間相互作用の詳細な詳細を無視する。
本研究では,初めてグラフニューラルネットワークを用いてタンパク質の原子レベルでの表現を学習し,タンパク質3D構造からB因子を予測することを提案する。
B因子はタンパク質中の原子の原子変位を反映し、タンパク質の柔軟性の代理として機能する。
我々は、異なるGNNアーキテクチャを比較して、その性能を評価した。
メタ-GNNモデルでは、タンパク質データバンク(PDB)から4k以上のタンパク質(17M原子)の大規模かつ多種多様なテストセット上で、0.71の相関係数を達成し、従来の手法よりも大きなマージンで優れている。
本研究は,タンパク質の柔軟性予測などのタスクにおいて,GNNが学習した表現の可能性を示すものである。
Protein dynamics play a crucial role in many biological processes and drug interactions. However, measuring, and simulating protein dynamics is challenging and time-consuming. While machine learning holds promise in deciphering the determinants of protein dynamics from structural information, most existing methods for protein representation learning operate at the residue level, ignoring the finer details of atomic interactions. In this work, we propose for the first time to use graph neural networks (GNNs) to learn protein representations at the atomic level and predict B-factors from protein 3D structures. The B-factor reflects the atomic displacement of atoms in proteins, and can serve as a surrogate for protein flexibility. We compared different GNN architectures to assess their performance. The Meta-GNN model achieves a correlation coefficient of 0.71 on a large and diverse test set of over 4k proteins (17M atoms) from the Protein Data Bank (PDB), outperforming previous methods by a large margin. Our work demonstrates the potential of representations learned by GNNs for protein flexibility prediction and other related tasks. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# 自由空間光リンク上の離散変調による連続可変量子鍵分布の速度適応化
Rate-adaptive Reconciliation for Experimental Continuous-variable Quantum Key Distribution with Discrete Modulation over a Free-space Optical Link ( http://arxiv.org/abs/2408.12522v1 ) ライセンス: Link先を確認 | Kadir Gümüş, João dos Reis Frazão, Vincent van Vliet, Sjoerd van der Heide, Menno van den Hout, Gabriele Liga, Yunus Can Gültekin, Aaron Albores-Mejia, Thomas Bradley, Alex Alvarado, Chigo Okonkwo, | (参考訳) 連続可変量子鍵分布(CV-QKD)は、量子コンピューティングの潜在的な進歩によるセキュリティ上の懸念からキーを安全に交換する方法として提案されている。
光ファイバー伝送に加えて、自由空間光(FSO)チャネルはCV-QKDにとって興味深いチャネルであり、無線で鍵を共有できる。
しかし、乱流によって引き起こされるフェースチャネルの不安定さは、システムの性能を低下させる可能性がある。
CV-QKDの最も重要な側面の1つは和解段階であり、CV-QKDシステムの性能に大きな影響を及ぼす。
したがって、CV-QKD がチャネル内の変動に対処し、秘密鍵レート(SKR)を改善するためには、FSO 上でのレート適応調整が必要である。
そこで本研究では,離散変調が和解効率に与える影響をシミュレートし,$d > 8$による$d$次元和解を考慮し,この影響を緩和し,和解効率を最大3.4%向上させる。
乱流FSOリンク上でCV-QKDを実験的に実証し,SKRが最大165%向上することを示した。
さらに、FSOリンクの調整効率を最適化し、最大7.6%のSKRゲインを達成する。
Continuous-variable quantum key distribution (CV-QKD) has been proposed as a method for securely exchanging keys to protect against the security concerns caused by potential advancements in quantum computing. In addition to optical fiber transmission, free-space optical (FSO) channel is an interesting channel for CV-QKD, as it is possible to share keys over this channel wirelessly. The instability of the FSO channel caused by turbulence-induced fading, however, can cause a degradation in the system's performance. One of the most important aspects of CV-QKD is the reconciliation step, which significantly impacts the performance of the CV-QKD system. Hence, rate-adaptive reconciliation is necessary for CV-QKD over FSO to combat the fluctuations in the channel and improve secret key rates (SKRs). Therefore, in this paper, we simulate the impact of discrete modulation on the reconciliation efficiency and consider the use of $d$-dimensional reconciliation with $d > 8$ to mitigate this impact, improving reconciliation efficiencies by up to 3.4%. We validate our results by experimentally demonstrating CV-QKD over a turbulent FSO link and demonstrate SKR gains by up to 165%. Furthermore, we optimise the reconciliation efficiency for FSO links, achieving additional SKR gains of up to 7.6%. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# PCGRL+:強化学習レベルジェネレータのスケーリング・制御・一般化
PCGRL+: Scaling, Control and Generalization in Reinforcement Learning Level Generators ( http://arxiv.org/abs/2408.12525v1 ) ライセンス: Link先を確認 | Sam Earle, Zehua Jiang, Julian Togelius, | (参考訳) レベルの品質とキー特性のプロキシとして機能する計算可能なメトリクスのセットのみに基づいて、制御可能なデザイナエージェントをトレーニングする手段として、PCGRL(Procedural Content Generation)が導入されている。
PCGRLはゲームデザイナにユニークな価格のセットを提供するが、RLエージェントを訓練する計算集約的なプロセスに制約されており、これまでは比較的小さなレベルの生成に限られてきた。
このスケールの問題に対処するため、我々はJaxで複数のPCGRL環境を実装し、GPU上で学習とシミュレーションのすべての側面が並列に行われるようにし、環境シミュレーションを高速化し、RLトレーニング中に情報ボトルネックのCPU-GPU転送を除去し、最終的にトレーニング速度を大幅に改善する。
この新しいフレームワークの以前の作業から得られたいくつかの重要な結果を再現し、モデルが以前研究したよりもずっと長くトレーニングし、その振る舞いを10億のタイムステップ後に評価します。
人間設計者に対するさらなるコントロールを目指して,我々は,過度な適合に対応するために,ランダム化レベルサイズと中心的なゲームタイルの「ピンポイント」を導入している。
学習したジェネレータの一般化能力をテストするため,大規模な分布外マップサイズモデルの評価を行い,部分的な観測サイズがより堅牢な設計戦略を学習することを確認した。
Procedural Content Generation via Reinforcement Learning (PCGRL) has been introduced as a means by which controllable designer agents can be trained based only on a set of computable metrics acting as a proxy for the level's quality and key characteristics. While PCGRL offers a unique set of affordances for game designers, it is constrained by the compute-intensive process of training RL agents, and has so far been limited to generating relatively small levels. To address this issue of scale, we implement several PCGRL environments in Jax so that all aspects of learning and simulation happen in parallel on the GPU, resulting in faster environment simulation; removing the CPU-GPU transfer of information bottleneck during RL training; and ultimately resulting in significantly improved training speed. We replicate several key results from prior works in this new framework, letting models train for much longer than previously studied, and evaluating their behavior after 1 billion timesteps. Aiming for greater control for human designers, we introduce randomized level sizes and frozen "pinpoints" of pivotal game tiles as further ways of countering overfitting. To test the generalization ability of learned generators, we evaluate models on large, out-of-distribution map sizes, and find that partial observation sizes learn more robust design strategies. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# オンラインサービスにおけるBERT様モデルの低遅延GPU推定のための学生並列処理
Exploiting Student Parallelism for Low-latency GPU Inference of BERT-like Models in Online Services ( http://arxiv.org/abs/2408.12526v1 ) ライセンス: Link先を確認 | Weiyan Wang, Yilun Jin, Yiming Zhang, Victor Junqiu Wei, Han Tian, Li Chen, Kai Chen, | (参考訳) 高い精度のため、BERTのようなモデルは差別的なテキストマイニングとWeb検索によって広く採用されている。
しかし、大きなBERTのようなモデルは、GPUの次の2つの問題に直面しているため、非効率なオンライン推論に苦しむ。
まず、大きなモデル深度に依存して高い精度を実現し、GPU上の逐次計算を線形的に増加させる。
第二に、確率的かつダイナミックなオンラインワークロードは、余分なコストを引き起こす。
本稿では,BERT型モデルの低レイテンシオンライン推論のためのAcademusを提案する。
アカデマスの中心部には新しい学生パラレル主義(英語版)があり、これはアンサンブルの強化と蒸留の積み重ねを採用して、オリジナルの深層モデルを同等のパラレルモデルと浅い学生モデルのグループに蒸留するものである。
これにより、Academusはベースラインよりも低いモデル深度(例えば2層)を達成でき、その結果、精度に影響を与えずに最小の推論遅延を達成できる。
さらに、生徒の並列処理に特殊なシステム設計を採用して、確率的なオンラインワークロードの処理を改善している。
有効性を検証するための総合的な実験を行う。
その結果、Academusは精度を損なうことなく4.1X~1.6Xのレイテンシでベースラインを上回り、ワークロードバーストのスループットは最大22.27倍に向上した。
Due to high accuracy, BERT-like models have been widely adopted by discriminative text mining and web searching. However, large BERT-like models suffer from inefficient online inference, as they face the following two problems on GPUs. First, they rely on the large model depth to achieve high accuracy, which linearly increases the sequential computation on GPUs. Second, stochastic and dynamic online workloads cause extra costs. In this paper, we present Academus for low-latency online inference of BERT-like models. At the core of Academus is the novel student parallelism, which adopts boosting ensemble and stacking distillation to distill the original deep model into an equivalent group of parallel and shallow student models. This enables Academus to achieve the lower model depth (e.g., two layers) than baselines and consequently the lowest inference latency without affecting the accuracy.For occasional workload bursts, it can temporarily decrease the number of students with minimal accuracy loss to improve throughput. Additionally, it employs specialized system designs for student parallelism to better handle stochastic online workloads. We conduct comprehensive experiments to verify the effectiveness. The results show that Academus outperforms the baselines by 4.1X~1.6X in latency without compromising accuracy, and achieves up to 22.27X higher throughput for workload bursts. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# UMAD: マカオ大学異常検出ベンチマークデータセット
UMAD: University of Macau Anomaly Detection Benchmark Dataset ( http://arxiv.org/abs/2408.12527v1 ) ライセンス: Link先を確認 | Dong Li, Lineng Chen, Cheng-Zhong Xu, Hui Kong, | (参考訳) 異常検出は、早期警戒のために画像中の異常領域を特定することにより、監視システムやパトロールロボットにおいて重要である。
参照データを利用するかどうかに応じて、異常検出を基準付き異常検出と基準なし異常検出に分類することができる。
現在、参照のない異常検出は、オフ・オブ・ディストリビューション(OoD)オブジェクト検出と密接に関連しており、異常の固有な希少性と新規性を備えた十分に大きく多様な異常データセットの収集が困難であるため、異常パターンの学習に苦慮している。
あるいは、参照による異常検出は、参照画像とクエリ画像とのセマンティックな変化を比較して、異常を識別する変更検出のスキームを用いる。
しかし、このドメインでパブリックデータセットが不足しているため、ADrの作業はほとんどない。
本稿では,UMADベンチマークデータセットを導入することで,このギャップに対処することを目的とする。
我々の知る限り、これはロボットパトロールシナリオにおける参照による異常検出のために特別に設計された最初のベンチマークデータセットである。
参照シーケンスは、シーンに異常なオブジェクトが存在しない場合に、指定された経路に沿ってロボットによって撮影することができる。
クエリシーケンスは、同じ経路に沿って同じシーンでパトロールしているときに、ロボットによってオンラインでキャプチャされる。
提案するベンチマークデータセットは,各クエリ画像が,事前構築された3Dマップの同じ経路に沿った正確なロボット位置推定に基づいて対応する参照を見つけることができるよう精査されている。
提案するベンチマークデータセットに加えて,このデータセットに基づいてADrのベースラインモデルを評価する。
Anomaly detection is critical in surveillance systems and patrol robots by identifying anomalous regions in images for early warning. Depending on whether reference data are utilized, anomaly detection can be categorized into anomaly detection with reference and anomaly detection without reference. Currently, anomaly detection without reference, which is closely related to out-of-distribution (OoD) object detection, struggles with learning anomalous patterns due to the difficulty of collecting sufficiently large and diverse anomaly datasets with the inherent rarity and novelty of anomalies. Alternatively, anomaly detection with reference employs the scheme of change detection to identify anomalies by comparing semantic changes between a reference image and a query one. However, there are very few ADr works due to the scarcity of public datasets in this domain. In this paper, we aim to address this gap by introducing the UMAD Benchmark Dataset. To our best knowledge, this is the first benchmark dataset designed specifically for anomaly detection with reference in robotic patrolling scenarios, e.g., where an autonomous robot is employed to detect anomalous objects by comparing a reference and a query video sequences. The reference sequences can be taken by the robot along a specified route when there are no anomalous objects in the scene. The query sequences are captured online by the robot when it is patrolling in the same scene following the same route. Our benchmark dataset is elaborated such that each query image can find a corresponding reference based on accurate robot localization along the same route in the prebuilt 3D map, with which the reference and query images can be geometrically aligned using adaptive warping. Besides the proposed benchmark dataset, we evaluate the baseline models of ADr on this dataset. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# Show-o:マルチモーダル理解と生成を統一するシングルトランス
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation ( http://arxiv.org/abs/2408.12528v1 ) ライセンス: Link先を確認 | Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou, | (参考訳) マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。
完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
統一されたモデルは、視覚的質問応答、テキスト・ツー・イメージ生成、テキスト誘導インペイント/抽出、混合モダリティ生成など、幅広い視覚言語タスクを柔軟にサポートする。
様々なベンチマークで、既存の個々のモデルに匹敵する、あるいは優れたパフォーマンスを示しており、同じまたは多くのパラメータが理解や生成用に調整されている。
これは次世代のファウンデーションモデルとしての可能性を著しく強調している。
コードとモデルはhttps://github.com/showlab/Show-o.comで公開されている。
We present a unified transformer, i.e., Show-o, that unifies multimodal understanding and generation. Unlike fully autoregressive models, Show-o unifies autoregressive and (discrete) diffusion modeling to adaptively handle inputs and outputs of various and mixed modalities. The unified model flexibly supports a wide range of vision-language tasks including visual question-answering, text-to-image generation, text-guided inpainting/extrapolation, and mixed-modality generation. Across various benchmarks, it demonstrates comparable or superior performance to existing individual models with an equivalent or larger number of parameters tailored for understanding or generation. This significantly highlights its potential as a next-generation foundation model. Code and models are released at https://github.com/showlab/Show-o. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# 空間空間再構成のための深層学習の改良
Deep Learning Improvements for Sparse Spatial Field Reconstruction ( http://arxiv.org/abs/2408.12531v1 ) ライセンス: Link先を確認 | Robert Sunderhaft, Logan Frank, Jim Davis, | (参考訳) 地球科学や流体力学といったいくつかの領域では、スパースデータから地球空間領域を正確に再構築することが長年の問題となっている。
歴史的に、科学者は複雑な物理モデルを用いて空間場を再構築することでこの問題にアプローチしてきた。
しかし、これらの手法はしばしば計算集約的である。
機械学習(ML)の普及に伴い、いくつかの研究者が空間場再構成タスクにMLを適用し、計算効率の向上を観察している。
arXiv:2101.00554におけるそのような方法の1つは、センサ位置のスパースマスクと、センサ測定によるボロノイテッセルレーションを、大域空間空間を再構築するための畳み込みニューラルネットワークへの入力として利用する。
本研究では,上記のアプローチに対する複数の調整を提案し,地球科学および流体力学シミュレーションデータセットの改善を示す。
本稿では,MLに基づく空間空間再構成手法を用いて,最も有用なシナリオを特定し,議論する。
Accurately reconstructing a global spatial field from sparse data has been a longstanding problem in several domains, such as Earth Sciences and Fluid Dynamics. Historically, scientists have approached this problem by employing complex physics models to reconstruct the spatial fields. However, these methods are often computationally intensive. With the increase in popularity of machine learning (ML), several researchers have applied ML to the spatial field reconstruction task and observed improvements in computational efficiency. One such method in arXiv:2101.00554 utilizes a sparse mask of sensor locations and a Voronoi tessellation with sensor measurements as inputs to a convolutional neural network for reconstructing the global spatial field. In this work, we propose multiple adjustments to the aforementioned approach and show improvements on geoscience and fluid dynamics simulation datasets. We identify and discuss scenarios that benefit the most using the proposed ML-based spatial field reconstruction approach. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# 量子クエンチによる三部構造エンタングルメントダイナミクス
Tripartite entanglement dynamics following a quantum quench ( http://arxiv.org/abs/2408.12533v1 ) ライセンス: Link先を確認 | Clément Berthiere, | (参考訳) 準粒子励起の多重項を生成する初期状態からのクエンチ後の多粒子の絡み合いのダイナミクスを, 通常の対構造を超えて検討する。
我々はマルコフギャップのレンズを通した三部体の絡み合いのダイナミクスに焦点を合わせ、正のときに既約三部体の絡み合いを信号する計算可能な量に焦点をあてる。
XXスピンチェインでは、マルコフギャップが中間時間で正であることを示し、三部体の絡み合いの存在を示唆する。
時間の遅れの後、マルコフギャップが増加し、長い時間で崩壊し、絡み合う障壁が現れる。
これらの定性的特徴は、三部体の絡み合った準粒子の三重項による三部体の絡み合いの拡散の解釈と一致していると論じる。
We investigate the dynamics of multipartite entanglement after quenches from initial states which generate multiplets of quasiparticle excitations beyond the usual pair structure. We focus on the dynamics of tripartite entanglement through the lens of the Markov gap -- a computable quantity that signals irreducible tripartite entanglement when positive. In the XX spin chain, we show that the Markov gap is positive at intermediate times, implying the presence of tripartite entanglement. After a time delay, the Markov gap increases and then decays at longer times, thus exhibiting an entanglement barrier. We argue that those qualitative features are consistent with an interpretation of the spreading of tripartite entanglement by triplets of tripartite-entangled quasiparticles. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# FLARE 2023 チャレンジによる腹部CTにおける臓器と膵の分離
Automatic Organ and Pan-cancer Segmentation in Abdomen CT: the FLARE 2023 Challenge ( http://arxiv.org/abs/2408.12534v1 ) ライセンス: Link先を確認 | Jun Ma, Yao Zhang, Song Gu, Cheng Ge, Ershuai Wang, Qin Zhou, Ziyan Huang, Pengju Lyu, Jian He, Bo Wang, | (参考訳) 腹部CT検査における臓器・癌の分節化は,正確な癌診断と治療の必要条件である。
既存のベンチマークやアルゴリズムは、特定のがんタイプに合わせて調整されており、包括的ながん分析を提供する能力を制限する。
本研究は,40以上の医療センターから,4650個のCTスキャンを含む大規模かつ多様なデータセットを提供することにより,腹部臓器と膵臓の分画に関する国際コンペティションを初めて実施した。
優勝チームは、ディープラーニングベースのカスケードフレームワークを備えた新しい最先端技術を確立し、臓器の平均的なDice similarity Coefficientスコアは92.3%、隠された多国籍テストセットの病変は64.9%に達した。
トップチームのデータセットとコードは公開されており、さらなるイノベーションを推進するためのベンチマークプラットフォームを提供している。
Organ and cancer segmentation in abdomen Computed Tomography (CT) scans is the prerequisite for precise cancer diagnosis and treatment. Most existing benchmarks and algorithms are tailored to specific cancer types, limiting their ability to provide comprehensive cancer analysis. This work presents the first international competition on abdominal organ and pan-cancer segmentation by providing a large-scale and diverse dataset, including 4650 CT scans with various cancer types from over 40 medical centers. The winning team established a new state-of-the-art with a deep learning-based cascaded framework, achieving average Dice Similarity Coefficient scores of 92.3% for organs and 64.9% for lesions on the hidden multi-national testing set. The dataset and code of top teams are publicly available, offering a benchmark platform to drive further innovations https://codalab.lisn.upsaclay.fr/competitions/12239. | 翻訳日:2024-08-23 13:12:21 公開日:2024-08-22 |
# 要求分析が省エネ効果に及ぼす影響:実証研究の一家系
Effect of Requirements Analyst Experience on Elicitation Effectiveness: A Family of Empirical Studies ( http://arxiv.org/abs/2408.12538v1 ) ライセンス: Link先を確認 | Alejandrina M. Aranda, Oscar Dieste, Jose I. Panach, Natalia Juristo, | (参考訳) コンテキスト。
今日では、要件工学(RE)に対する経験の影響を取り巻く不確実性が非常に大きい。
経験によってアナリストのパフォーマンスが向上するという考えが広まっています。
しかし、正反対の実証的な研究もある。
エイム。
エクスペリエンスが要求アナリストのパフォーマンスに影響を及ぼすかどうかを決定する。
方法。
準実験は学生や専門家と共に行われる。
実験課題は,公開面接手法を用いて要求事項を抽出し,その後,アナリストがよく知らない領域における求人情報の統合を行うことであった。
結果。
不慣れな領域では、インタビュー、要求、開発、専門的な経験はアナリストの有効性に影響を与えない。
慣れ親しんだドメインでは、有効性は経験の種類によって異なる。
面接経験は肯定的な効果が強いのに対し、プロの体験は中程度の否定的な効果がある。
要求経験は適度に肯定的な効果があるように見えるが、解析の統計的パワーは、この点を確認するには不十分である。
開発経験はいずれの方法も影響しない。
結論。
経験効果分析は、問題領域のタイプ(慣れ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しみ親しむ。
一般的に、経験は観察されるすべての変数を考慮しない。
Context. Nowadays there is a great deal of uncertainty surrounding the effects of experience on Requirements Engineering (RE). There is a widespread idea that experience improves analyst performance. However, there are empirical studies that demonstrate the exact opposite. Aim. Determine whether experience influences requirements analyst performance. Method. Quasi-experiments run with students and professionals. The experimental task was to elicit requirements using the open interview technique immediately followed by the consolidation of the elicited information in domains with which the analysts were and were not familiar. Results. In unfamiliar domains, interview, requirements, development, and professional experience does not influence analyst effectiveness. In familiar domains, effectiveness varies depending on the type of experience. Interview experience has a strong positive effect, whereas professional experience has a moderate negative effect. Requirements experience appears to have a moderately positive effect; however, the statistical power of the analysis is insufficient to be able to confirm this point. Development experience has no effect either way. Conclusion. Experience effects analyst effectiveness differently depending on the problem domain type (familiar, unfamiliar). Generally, experience does not account for all the observed variability, which means there are other influential factors. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# 教師-学生シナリオにおけるメタラーニング表現のダイナミクス
Dynamics of Meta-learning Representation in the Teacher-student Scenario ( http://arxiv.org/abs/2408.12545v1 ) ライセンス: Link先を確認 | Hui Wang, Cho Tung Yip, Bo Li, | (参考訳) グラディエントベースのメタ学習アルゴリズムは、限られたデータを使って新しいタスクでモデルをトレーニングできることで人気を集めている。
経験的観察は、そのようなアルゴリズムがタスク間の共有表現を学習できることを示している。
しかし、学習力学の深い理論的理解と共有表現の起源はまだ未発達である。
本研究では,教師/学生シナリオにおけるストリーミングタスクを訓練した非線形2層ニューラルネットワークのメタラーニングダイナミクスについて検討する。
統計物理学解析のレンズを通して,メタトレーニングプロセスのマクロな挙動,共有表現の形成,新しいタスクにおけるモデルの一般化能力を特徴付ける。
この分析はまた、学習アルゴリズムのある種のハイパーパラメータの選択の重要性も指摘している。
Gradient-based meta-learning algorithms have gained popularity for their ability to train models on new tasks using limited data. Empirical observations indicate that such algorithms are able to learn a shared representation across tasks, which is regarded as a key factor in their success. However, the in-depth theoretical understanding of the learning dynamics and the origin of the shared representation remains underdeveloped. In this work, we investigate the meta-learning dynamics of the non-linear two-layer neural networks trained on streaming tasks in the teach-student scenario. Through the lens of statistical physics analysis, we characterize the macroscopic behavior of the meta-training processes, the formation of the shared representation, and the generalization ability of the model on new tasks. The analysis also points to the importance of the choice of certain hyper-parameters of the learning algorithms. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# 医療用多言語モデルの評価と構築に向けて
Towards Evaluating and Building Versatile Large Language Models for Medicine ( http://arxiv.org/abs/2408.12547v1 ) ライセンス: Link先を確認 | Chaoyi Wu, Pengcheng Qiu, Jinxin Liu, Hongfei Gu, Na Li, Ya Zhang, Yanfeng Wang, Weidi Xie, | (参考訳) 本研究では,臨床現場における大規模言語モデル(LLM)の性能を評価するための総合的なベンチマークであるMedS-Benchを提案する。
MedS-Benchは、複数の質問に対する回答に焦点を当てた既存のベンチマークとは異なり、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念の説明などを含む、11のハイレベルな臨床タスクにまたがっている。
我々は,数発のプロンプトを用いて,LLM,MEDITRON,Mistral,InternLM,Llama,GPT-4,Claude-3.5の6つの主要なLLMを評価し,最も洗練されたモデルでもこれらの複雑なタスクに苦労することを示した。
これらの制約に対処するため,医療用大規模指導調律データセットであるMedS-Insを開発した。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
このデータセットの有用性を実証するために,我々は,軽量なオープンソース医療用言語モデルで指導訓練を行うことにより概念実証実験を行った。
その結果得られたMMedIns-Llama 3は、ほぼ全ての臨床的タスクで既存のモデルよりも大幅に優れていた。
LLMの臨床的課題への応用をさらに進めるため、MedS-Insデータセットを完全アクセス可能にし、研究コミュニティにその拡張に貢献させるとともに、MedS-Benchのダイナミックリーダーボードを立ち上げました。
リーダー: https://henrychur.github.io/MedS-Bench/。
Github:https://github.com/MAGIC-AI4Med/MedS-Ins.com
In this study, we present MedS-Bench, a comprehensive benchmark designed to evaluate the performance of large language models (LLMs) in clinical contexts. Unlike existing benchmarks that focus on multiple-choice question answering, MedS-Bench spans 11 high-level clinical tasks, including clinical report summarization, treatment recommendations, diagnosis, named entity recognition, and medical concept explanation, among others. We evaluated six leading LLMs, e.g., MEDITRON, Mistral, InternLM 2, Llama 3, GPT-4, and Claude-3.5 using few-shot prompting, and found that even the most sophisticated models struggle with these complex tasks. To address these limitations, we developed MedS-Ins, a large-scale instruction tuning dataset for medicine. MedS-Ins comprises 58 medically oriented language corpora, totaling 13.5 million samples across 122 tasks. To demonstrate the dataset's utility, we conducted a proof-of-concept experiment by performing instruction tuning on a lightweight, open-source medical language model. The resulting model, MMedIns-Llama 3, significantly outperformed existing models across nearly all clinical tasks. To promote further advancements in the application of LLMs to clinical challenges, we have made the MedS-Ins dataset fully accessible and invite the research community to contribute to its expansion.Additionally, we have launched a dynamic leaderboard for MedS-Bench, which we plan to regularly update the test set to track progress and enhance the adaptation of general LLMs to the medical domain. Leaderboard: https://henrychur.github.io/MedS-Bench/. Github: https://github.com/MAGIC-AI4Med/MedS-Ins. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# 安全で倫理的な自動運転車のための人間によるロボット学習--原則、課題、機会
Human-In-The-Loop Machine Learning for Safe and Ethical Autonomous Vehicles: Principles, Challenges, and Opportunities ( http://arxiv.org/abs/2408.12548v1 ) ライセンス: Link先を確認 | Yousef Emami, Kai Li, Luis Almeida, Wei Ni, Zhu Han, | (参考訳) 機械学習(ML)の急速な進歩は、自律走行車(AV)の新たなトレンドを引き起こしている。
MLアルゴリズムは、センサデータの解釈、潜在的なハザードの予測、ナビゲーション戦略の最適化において重要な役割を果たす。
しかし、複雑な交差点、多様な景色、様々な軌道、複雑なミッションなど、散らばった複雑な状況において完全な自律性を達成することは依然として困難であり、データラベルのコストは依然として大きなボトルネックとなっている。
複雑なシナリオにおける人間の適応性と堅牢性は、人間のMLプロセスへの参加を動機付け、その創造性、倫理的能力、感情的知性を活用してMLの有効性を向上させる。
科学的コミュニティは、このアプローチをHuman-In-The-Loop Machine Learning (HITL-ML)として知っている。
安全・倫理的な自律性に向けて,我々はカリキュラム学習(CL),ヒューマン・イン・ザ・ループ強化学習(HITL-RL),アクティブ・ラーニング(AL),倫理的原則を中心に,AVのためのHITL-MLのレビューを行う。
CLでは、人間の専門家が単純なタスクから始めて、より難しいタスクへと徐々に進むことで、MLモデルを体系的に訓練する。
HITL-RLは報酬形成、アクションインジェクション、対話型学習といった技術を通じて人間の入力を組み込むことで、RLプロセスを大幅に強化する。
ALは、人間の監視でラベル付けする必要がある特定のインスタンスをターゲットにすることで、アノテーションプロセスの合理化を図り、トレーニングに関連する全体的な時間とコストを削減します。
倫理原則は、彼らの行動と社会的価値と規範を一致させるために、AVに埋め込まれなければならない。
さらに、洞察を提供し、今後の研究の方向性を特定する。
Rapid advances in Machine Learning (ML) have triggered new trends in Autonomous Vehicles (AVs). ML algorithms play a crucial role in interpreting sensor data, predicting potential hazards, and optimizing navigation strategies. However, achieving full autonomy in cluttered and complex situations, such as intricate intersections, diverse sceneries, varied trajectories, and complex missions, is still challenging, and the cost of data labeling remains a significant bottleneck. The adaptability and robustness of humans in complex scenarios motivate the inclusion of humans in ML process, leveraging their creativity, ethical power, and emotional intelligence to improve ML effectiveness. The scientific community knows this approach as Human-In-The-Loop Machine Learning (HITL-ML). Towards safe and ethical autonomy, we present a review of HITL-ML for AVs, focusing on Curriculum Learning (CL), Human-In-The-Loop Reinforcement Learning (HITL-RL), Active Learning (AL), and ethical principles. In CL, human experts systematically train ML models by starting with simple tasks and gradually progressing to more difficult ones. HITL-RL significantly enhances the RL process by incorporating human input through techniques like reward shaping, action injection, and interactive learning. AL streamlines the annotation process by targeting specific instances that need to be labeled with human oversight, reducing the overall time and cost associated with training. Ethical principles must be embedded in AVs to align their behavior with societal values and norms. In addition, we provide insights and specify future research directions. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# 選択状態空間モデルを用いた光圧縮機の時間変動応答のモデル化
Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models ( http://arxiv.org/abs/2408.12549v1 ) ライセンス: Link先を確認 | Riccardo Simionato, | (参考訳) 本稿では,Selective State Spaceモデルを用いたディープニューラルネットワークを用いた光学ダイナミックレンジ圧縮機のモデル化手法を提案する。
提案手法は、Selective State Spaceブロックを用いて入力音声を符号化することにより、繰り返し層に基づく従来の手法を超越する。
機能ワイドリニア変調とゲート付きリニアユニットを統合して動的にネットワークを調整し、外部パラメータに応じて圧縮のアタックとリリースフェーズを条件付ける。
提案アーキテクチャは、ライブオーディオ処理において重要な低レイテンシおよびリアルタイムアプリケーションに適している。
この方法は、異なる特性を持つアナログ光学圧縮機TubeTech CL 1BとTeletronix LA-2Aで検証されている。
定量的な測定値と主観的聴力テストを用いて評価を行い,提案手法を他の最先端モデルと比較した。
その結果,ブラックボックスのモデリング手法は他の手法よりも優れており,トレーニング中は目視と目視の両方の圧縮過程の正確なエミュレーションを実現していることがわかった。
さらに、この精度とデータセット内の制御パラメータのサンプリング密度の相関性を示し、高速攻撃と遅いリリースによる設定をエミュレートするのが最も困難であることを示す。
This paper presents a method for modeling optical dynamic range compressors using deep neural networks with Selective State Space models. The proposed approach surpasses previous methods based on recurrent layers by employing a Selective State Space block to encode the input audio. It features a refined technique integrating Feature-wise Linear Modulation and Gated Linear Units to adjust the network dynamically, conditioning the compression's attack and release phases according to external parameters. The proposed architecture is well-suited for low-latency and real-time applications, crucial in live audio processing. The method has been validated on the analog optical compressors TubeTech CL 1B and Teletronix LA-2A, which possess distinct characteristics. Evaluation is performed using quantitative metrics and subjective listening tests, comparing the proposed method with other state-of-the-art models. Results show that our black-box modeling methods outperform all others, achieving accurate emulation of the compression process for both seen and unseen settings during training. We further show a correlation between this accuracy and the sampling density of the control parameters in the dataset and identify settings with fast attack and slow release as the most challenging to emulate. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# 車両検出用YOLOv5変数の比較:性能解析
Comparing YOLOv5 Variants for Vehicle Detection: A Performance Analysis ( http://arxiv.org/abs/2408.12550v1 ) ライセンス: Link先を確認 | Athulya Sundaresan Geetha, | (参考訳) 車両検出は交通や自動車両の管理において重要な課題である。
本研究は, YOLOv5n6s, YOLOv5s6s, YOLOv5m6s, YOLOv5l6s, YOLOv5x6s, YOLOv5x6sの5変種の比較分析を行った。
本研究は, 自動車, バス, トラック, 自転車, オートバイなどの様々な種類の車両を, 照明, 閉塞, 天候など様々な条件下で検出する上で, それらのモデルの有効性を評価することに焦点を当てた。
各モデルの精度と信頼性を評価するために、精度、リコール、F1スコア、平均平均精度などのパフォーマンス指標を用いる。
YOLOv5n6は精度とリコールのバランスが強いことを示した。
YOLOv5s6sとYOLOv5m6sはリコールの改善を示し、関連するすべてのオブジェクトを検出する能力を高めた。
YOLOv5l6はキャパシティが大きく、特に自動車の検知では頑丈な性能を示したが、オートバイや自転車の識別には不適であった。
YOLOv5x6sはバスや自動車の認識に有効であったが、オートバイのクラスでは問題に直面した。
Vehicle detection is an important task in the management of traffic and automatic vehicles. This study provides a comparative analysis of five YOLOv5 variants, YOLOv5n6s, YOLOv5s6s, YOLOv5m6s, YOLOv5l6s, and YOLOv5x6s, for vehicle detection in various environments. The research focuses on evaluating the effectiveness of these models in detecting different types of vehicles, such as Car, Bus, Truck, Bicycle, and Motorcycle, under varying conditions including lighting, occlusion, and weather. Performance metrics such as precision, recall, F1-score, and mean Average Precision are utilized to assess the accuracy and reliability of each model. YOLOv5n6s demonstrated a strong balance between precision and recall, particularly in detecting Cars. YOLOv5s6s and YOLOv5m6s showed improvements in recall, enhancing their ability to detect all relevant objects. YOLOv5l6s, with its larger capacity, provided robust performance, especially in detecting Cars, but not good with identifying Motorcycles and Bicycles. YOLOv5x6s was effective in recognizing Buses and Cars but faced challenges with Motorcycle class. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# マルチパーティイト非ガウスエンタングルメント構造のキャラクタリゼーション
Characterization of Multipartite non-Gaussian Entanglement Structure ( http://arxiv.org/abs/2408.12554v1 ) ライセンス: Link先を確認 | Mingsheng Tian, Xiaoting Gao, Boxuan Jing, Feng-Xiao Sun, Matteo Fadel, Qiongyi He, | (参考訳) マルチパーティ・エンタングルメントは量子情報処理に不可欠な資源であるが、連続変数系におけるエンタングルメント構造の特徴付けは、特にマルチモード非ガウス的シナリオにおいて難しいままである。
本研究では,任意の連続変数状態における多部交絡構造を検出する手法を提案する。
量子フィッシャー情報を利用して絡み合いを特徴づける基準を提案し,多モード非ガウス状態の量子相関を捉えることが可能な演算子を同定する体系的アプローチを提案する。
本研究では, ランダムに生成した10000以上の多モード量子状態に対する本手法の有効性を実証し, 絡み検出において高い成功率を実現する。
さらに,本手法は,アクセス可能な演算子の集合を拡張することで,損失に対する堅牢性を向上する。
この研究は、様々な連続変数系における絡み合い構造を特徴づけるための一般的なフレームワークを提供し、多くの実験的な応用を可能にする。
Multipartite entanglement is an essential resource for quantum information tasks, but characterizing entanglement structures in continuous variable systems remains challenging, especially in multimode non-Gaussian scenarios. In this work, we introduce a method for detecting multipartite entanglement structures in arbitrary continuous variable states, which also reveals genuine multipartite entanglement. By leveraging the quantum Fisher information, we propose a criterion for characterizing entanglement and offer a systematic approach to identify feasible operators that capture quantum correlations in multimode non-Gaussian states. We demonstrate the effectiveness of our method on over 10000 randomly generated multimode-entangled quantum states, achieving a high success rate in entanglement detection. Additionally, our method exhibits enhanced robustness against losses by expanding the set of accessible operators. This work provides a general framework for characterizing entanglement structures in diverse continuous variable systems, enabling a number of experimentally relevant applications. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# ソフトウェア分析のためのデータ品質のアンチパターン
Data Quality Antipatterns for Software Analytics ( http://arxiv.org/abs/2408.12560v1 ) ライセンス: Link先を確認 | Aaditya Bhatia, Dayi Lin, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan, | (参考訳) 背景: ソフトウェア分析、特にソフトウェア欠陥予測(SDP)のような機械学習(ML)アプリケーションには、データ品質が不可欠です。
ソフトウェア工学においてMLが広く使われているにもかかわらず、これらのモデルに対するデータ品質のアンチパターンの影響は未解明のままである。
目的:本研究では,ML固有のデータ品質アンチパターンの分類を開発し,ソフトウェア分析モデルの性能と解釈に与える影響を評価する。
方法:文献レビューにより,ML固有のデータ品質アンチパターンの8つのタイプと14のサブタイプを同定した。
本研究では,SDPデータ(RQ1)におけるこれらのアンチパターンの出現率,クリーニング順序がモデル性能に与える影響(RQ2),反パターン除去の効果(RQ3),異なるアンチパターンで構築したモデルからの解釈の一貫性(RQ4)について検討した。
結果: SDP症例では9つのアンチパターンが同定された。
90%以上が行と列のレベルで重複しており、クリーニングの優先順位付けが複雑で、過剰なデータ削除のリスクがあります。
クリーニングの順序はMLモデルのパフォーマンスに大きな影響を与え、ニューラルネットワークはロジスティック回帰のような単純なモデルよりもクリーニングの順序変更に耐性がある。
Tailed DistributionsやClass Overlapといったアンチパターンは、他のアンチパターンのクリーン化時にパフォーマンス指標と統計的に有意な相関を示す。
異なるアンチパターンで構築されたモデルは解釈結果に適度な一貫性を示した。
結論: 異なるアンチパターンのクリーニング順序は、MLモデルのパフォーマンスに影響を与えます。
5つのアンチパターンは、他のパターンがクリーニングされたときのモデル性能と統計的に有意な相関を持つ。
さらに、モデル解釈は異なるデータ品質のアンチパターンの影響を受けやすい。
Background: Data quality is vital in software analytics, particularly for machine learning (ML) applications like software defect prediction (SDP). Despite the widespread use of ML in software engineering, the effect of data quality antipatterns on these models remains underexplored. Objective: This study develops a taxonomy of ML-specific data quality antipatterns and assesses their impact on software analytics models' performance and interpretation. Methods: We identified eight types and 14 sub-types of ML-specific data quality antipatterns through a literature review. We conducted experiments to determine the prevalence of these antipatterns in SDP data (RQ1), assess how cleaning order affects model performance (RQ2), evaluate the impact of antipattern removal on performance (RQ3), and examine the consistency of interpretation from models built with different antipatterns (RQ4). Results: In our SDP case study, we identified nine antipatterns. Over 90% of these overlapped at both row and column levels, complicating cleaning prioritization and risking excessive data removal. The order of cleaning significantly impacts ML model performance, with neural networks being more resilient to cleaning order changes than simpler models like logistic regression. Antipatterns such as Tailed Distributions and Class Overlap show a statistically significant correlation with performance metrics when other antipatterns are cleaned. Models built with different antipatterns showed moderate consistency in interpretation results. Conclusion: The cleaning order of different antipatterns impacts ML model performance. Five antipatterns have a statistically significant correlation with model performance when others are cleaned. Additionally, model interpretation is moderately affected by different data quality antipatterns. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# ssProp: スケジューリングされたスパースバック伝搬を用いた畳み込みニューラルネットワークのエネルギー効率向上トレーニング
ssProp: Energy-Efficient Training for Convolutional Neural Networks with Scheduled Sparse Back Propagation ( http://arxiv.org/abs/2408.12561v1 ) ライセンス: Link先を確認 | Lujia Zhong, Shuo Huang, Yonggang Shi, | (参考訳) 近年,大規模言語モデルや確率的拡散モデルなどの生成モデルにおいて,ディープラーニングは顕著な進歩を遂げている。
しかしながら、これらのモデルのトレーニングは、数十億ペタFLOPを必要とする、重要な計算資源を必要とすることが多い。
この高い資源消費は、かなりのエネルギー消費と大きな炭素フットプリントをもたらし、重要な環境問題を引き起こす。
バックプロパゲーション(BP)は、ディープラーニングモデルをトレーニングする際の計算コストの主要な源泉である。
エネルギー効率のトレーニングを推進し,任意のマシンやデバイス上でスパース学習を可能にするために,ディープラーニングアーキテクチャにシームレスに統合可能な,汎用的でエネルギー効率のよい畳み込みモジュールを提案する。
具体的には、BPがしばしば密度が高く非効率であり、過度な適合と高い計算消費につながるという仮定に基づいて、後方方向の勾配選択スケジューラを付加したチャネルワイドスケジューラを導入する。
実験の結果,提案手法は40倍の計算量を削減するとともに,画像分類と生成タスクの検証によりモデル性能を向上する可能性が示唆された。
この削減は、大規模なAIシステムの研究開発フェーズにおいて、大幅な省エネと炭素フットプリントの低下につながる可能性がある。
さらに,本手法はDropoutとは別の方法で過剰適合を緩和し,Dropoutと組み合わせることでモデル性能をさらに向上し,計算資源の使用量を削減する。
大規模な実験により,本手法が様々なデータセットやタスクに一般化され,幅広いディープラーニングアーキテクチャやモジュールと互換性があることが確認された。
コードはhttps://github.com/lujiazho/ssProp.comで公開されている。
Recently, deep learning has made remarkable strides, especially with generative modeling, such as large language models and probabilistic diffusion models. However, training these models often involves significant computational resources, requiring billions of petaFLOPs. This high resource consumption results in substantial energy usage and a large carbon footprint, raising critical environmental concerns. Back-propagation (BP) is a major source of computational expense during training deep learning models. To advance research on energy-efficient training and allow for sparse learning on any machine and device, we propose a general, energy-efficient convolution module that can be seamlessly integrated into any deep learning architecture. Specifically, we introduce channel-wise sparsity with additional gradient selection schedulers during backward based on the assumption that BP is often dense and inefficient, which can lead to over-fitting and high computational consumption. Our experiments demonstrate that our approach reduces 40\% computations while potentially improving model performance, validated on image classification and generation tasks. This reduction can lead to significant energy savings and a lower carbon footprint during the research and development phases of large-scale AI systems. Additionally, our method mitigates over-fitting in a manner distinct from Dropout, allowing it to be combined with Dropout to further enhance model performance and reduce computational resource usage. Extensive experiments validate that our method generalizes to a variety of datasets and tasks and is compatible with a wide range of deep learning architectures and modules. Code is publicly available at https://github.com/lujiazho/ssProp. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# 混合モデルに対する因子調整スペクトルクラスタリング
Factor Adjusted Spectral Clustering for Mixture Models ( http://arxiv.org/abs/2408.12564v1 ) ライセンス: Link先を確認 | Shange Tang, Soham Jana, Jianqing Fan, | (参考訳) 本稿では,強い相関変数の混合から生成された高次元データをクラスタリングするための因子モデルに基づくアプローチについて検討する。
相関構造を用いた統計的モデリングは、経済学、金融学、ゲノム学、無線センシングなどにおける近代的な応用に及んでいる。
スペクトルクラスタリングのような高次元データをクラスタリングする標準的な手法は、その性能が弱い相関構造を持つ混合成分に大きく依存するため、洞察力のある結果を得ることができないことが多い。
潜在因子モデルの存在下でのクラスタリング問題に対処するため,データ依存に対処する因子成分を排除して付加的なデータデノナイズステップを使用するFASCアルゴリズムを提案する。
本手法は,一般的な仮定の下での信号と雑音の比に関して,指数的に低い誤ラベル率を達成することを実証する。
我々の仮定は、広範因子モデル、弱因子モデル、スパース因子モデルなど、文献における古典的因子モデルの多くを橋渡しする。
FASCアルゴリズムは計算効率も良く、データ次元に関してほぼ線形のサンプルの複雑さしか必要としない。
また、実データ実験や数値実験によるFASCアルゴリズムの適用性を示し、従来のスペクトルクラスタリングが失敗するケースの多くにおいてFASCが有意な結果をもたらすことを証明した。
This paper studies a factor modeling-based approach for clustering high-dimensional data generated from a mixture of strongly correlated variables. Statistical modeling with correlated structures pervades modern applications in economics, finance, genomics, wireless sensing, etc., with factor modeling being one of the popular techniques for explaining the common dependence. Standard techniques for clustering high-dimensional data, e.g., naive spectral clustering, often fail to yield insightful results as their performances heavily depend on the mixture components having a weakly correlated structure. To address the clustering problem in the presence of a latent factor model, we propose the Factor Adjusted Spectral Clustering (FASC) algorithm, which uses an additional data denoising step via eliminating the factor component to cope with the data dependency. We prove this method achieves an exponentially low mislabeling rate, with respect to the signal to noise ratio under a general set of assumptions. Our assumption bridges many classical factor models in the literature, such as the pervasive factor model, the weak factor model, and the sparse factor model. The FASC algorithm is also computationally efficient, requiring only near-linear sample complexity with respect to the data dimension. We also show the applicability of the FASC algorithm with real data experiments and numerical studies, and establish that FASC provides significant results in many cases where traditional spectral clustering fails. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# 再検討によるプルーニング:CNNとトランスフォーマーの属性最適化
Pruning By Explaining Revisited: Optimizing Attribution Methods to Prune CNNs and Transformers ( http://arxiv.org/abs/2408.12568v1 ) ライセンス: Link先を確認 | Sayed Mohammad Vakilzadeh Hatefi, Maximilian Dreyer, Reduan Achtibat, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin, | (参考訳) より複雑な問題を解決するために、Deep Neural Networksは数十億のパラメータにスケールされ、膨大な計算コストがかかる。
計算要求の削減と効率の向上のための効果的なアプローチは、しばしば過パラメータ化されたネットワークの不要なコンポーネントを創り出すことである。
これまでの研究では、eXplainable AIの分野からの帰属法が、最も関係の低いネットワークコンポーネントを数ショットで抽出し、プルークする効果的な手段であることが示された。
我々は、刈り取り作業における属性法のハイパーパラメーターを明示的に最適化し、解析にトランスフォーマーベースのネットワークを含めることにより、現在の状態を拡張した。
提案手法は,ImageNet分類タスクにおいて高い性能を保ちながら,大規模トランスフォーマーおよび畳み込み型アーキテクチャ(VGG, ResNet, ViT)のモデル圧縮率を向上させる。
ここでは, 畳み込みニューラルネットワークと比較して, トランスフォーマーの過度パラメータ化の度合いが高いことを示す。
コードは$\href{https://github.com/erfanhatefi/Pruning-by-eXplaining-in-PyTorch}{\text{this https link}}$.comから入手できる。
To solve ever more complex problems, Deep Neural Networks are scaled to billions of parameters, leading to huge computational costs. An effective approach to reduce computational requirements and increase efficiency is to prune unnecessary components of these often over-parameterized networks. Previous work has shown that attribution methods from the field of eXplainable AI serve as effective means to extract and prune the least relevant network components in a few-shot fashion. We extend the current state by proposing to explicitly optimize hyperparameters of attribution methods for the task of pruning, and further include transformer-based networks in our analysis. Our approach yields higher model compression rates of large transformer- and convolutional architectures (VGG, ResNet, ViT) compared to previous works, while still attaining high performance on ImageNet classification tasks. Here, our experiments indicate that transformers have a higher degree of over-parameterization compared to convolutional neural networks. Code is available at $\href{https://github.com/erfanhatefi/Pruning-by-eXplaining-in-PyTorch}{\text{this https link}}$. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# Sapiens: 人間の視覚モデルの基礎
Sapiens: Foundation for Human Vision Models ( http://arxiv.org/abs/2408.12569v1 ) ライセンス: Link先を確認 | Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito, | (参考訳) 2次元ポーズ推定、身体部分分割、深度推定、表面正規予測の4つの基本的人間中心視覚タスクのモデルであるサピエンスを提示する。
われわれのモデルは1Kの高解像度推論をネイティブにサポートしており、3億枚以上の人体画像で事前訓練された微調整モデルにより、個々のタスクに非常に容易に適応できる。
計算予算が同じであるので、人間の画像のキュレートされたデータセットでの自己教師付き事前トレーニングは、多種多様な人間中心のタスクのパフォーマンスを著しく向上させる。
得られたモデルは、ラベル付きデータが不足している場合や完全に合成されている場合であっても、Wild内のデータに対する顕著な一般化を示す。
私たちのシンプルなモデル設計はスケーラビリティももたらします - 0.3から20億までのパラメータ数をスケールすることで、タスク間のモデルパフォーマンスが向上します。
Sapiensは、さまざまな人間中心のベンチマークで、既存のベースラインを一貫して上回っている。
我々は,Humans-5K (pose) が7.6mAP,Humans-2K (part-seg) が17.1mIoU,Hi4D (deepth) が22.4%,Human2 (normal) が53.5%,Human2 (state-of-the-art) が53.5%,Human2 (state-of-the-art) が7.6mAP,Humans-2K (part-seg) よりも大幅に改善された。
We present Sapiens, a family of models for four fundamental human-centric vision tasks - 2D pose estimation, body-part segmentation, depth estimation, and surface normal prediction. Our models natively support 1K high-resolution inference and are extremely easy to adapt for individual tasks by simply fine-tuning models pretrained on over 300 million in-the-wild human images. We observe that, given the same computational budget, self-supervised pretraining on a curated dataset of human images significantly boosts the performance for a diverse set of human-centric tasks. The resulting models exhibit remarkable generalization to in-the-wild data, even when labeled data is scarce or entirely synthetic. Our simple model design also brings scalability - model performance across tasks improves as we scale the number of parameters from 0.3 to 2 billion. Sapiens consistently surpasses existing baselines across various human-centric benchmarks. We achieve significant improvements over the prior state-of-the-art on Humans-5K (pose) by 7.6 mAP, Humans-2K (part-seg) by 17.1 mIoU, Hi4D (depth) by 22.4% relative RMSE, and THuman2 (normal) by 53.5% relative angular error. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# Jamba-1.5: スケールでのハイブリッドトランス-マンバモデル
Jamba-1.5: Hybrid Transformer-Mamba Models at Scale ( http://arxiv.org/abs/2408.12570v1 ) ライセンス: Link先を確認 | Jamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham, | (参考訳) 提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。
Jambaは、専門家アーキテクチャのハイブリッドなTransformer-Mambaミックスであり、高いスループットとコンテキスト長でのメモリ使用量を提供し、Transformerモデルと同じまたはより良い品質を維持している。
94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。
どちらのモデルも様々な対話型および命令追従型能力のために微調整されており、オープンウェイトモデルの中で最大の256Kトークンの有効コンテキスト長を持つ。
コスト効率のよい推論を支援するために、我々は、256Kのコンテキストを品質を損なわずに処理する際に、880GBのGPUを持つマシンにJamba-1.5-Largeを装着できる新しい量子化技術であるExpertsInt8を紹介した。
学術ベンチマークとチャットボットベンチマークのバッテリで評価すると、Jamba-1.5モデルは高いスループットを提供し、ロングコンテキストベンチマークで他のオープンウェイトモデルよりも優れた結果が得られる。
両方のサイズのモデルウェイトは、Jamba Open Model Licenseの下で公開されており、ExpertsInt8をオープンソースとしてリリースしています。
We present Jamba-1.5, new instruction-tuned large language models based on our Jamba architecture. Jamba is a hybrid Transformer-Mamba mixture of experts architecture, providing high throughput and low memory usage across context lengths, while retaining the same or better quality as Transformer models. We release two model sizes: Jamba-1.5-Large, with 94B active parameters, and Jamba-1.5-Mini, with 12B active parameters. Both models are fine-tuned for a variety of conversational and instruction-following capabilties, and have an effective context length of 256K tokens, the largest amongst open-weight models. To support cost-effective inference, we introduce ExpertsInt8, a novel quantization technique that allows fitting Jamba-1.5-Large on a machine with 8 80GB GPUs when processing 256K-token contexts without loss of quality. When evaluated on a battery of academic and chatbot benchmarks, Jamba-1.5 models achieve excellent results while providing high throughput and outperforming other open-weight models on long-context benchmarks. The model weights for both sizes are publicly available under the Jamba Open Model License and we release ExpertsInt8 as open source. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# BB84プロトコルによる連続計測による攻撃
Attacks via continuous measurement on the BB84 protocol ( http://arxiv.org/abs/2408.12571v1 ) ライセンス: Link先を確認 | Théo Lejeune, François Damanet, | (参考訳) 量子鍵分配(QKD)プロトコルの最も重要な特徴は、サードパーティの攻撃に対するセキュリティと潜在的な対策である。
新たなタイプの攻撃は文献で定期的に開発されているが、弱い連続測定を使用することは滅多にない。
そこで,本研究では,連続計測と,この測定によって供給される深部再帰ニューラルネットワークのパターン認識能力を併用した新たな攻撃手法を設計する。
BB84プロトコルに適用した場合、スパイが量子通信チャネルに送信された量子ビットの状態に関する重要な情報を抽出しながらも、我々の攻撃に気づくことが困難であることを示す。
最後に、スパイが測定に基づいて量子フィードバックを利用してトラックをさらにカバーする方法について検討する。
我々の攻撃方法は、まだおもちゃモデルの初期段階にあるが、様々なQKDプロトコルにも適用でき、様々な方法で一般化できるため、調査に値する潜在的な脅威を構成する。
The most important characteristic of a Quantum Key Distribution (QKD) protocol is its security against third-party attacks, and the potential countermeasures available. While new types of attacks are regularly developed in the literature, they rarely involve the use of weak continuous measurement. Here, we design a new attack scheme that exploits continuous measurement together with the powerful pattern recognition capacities of deep recurrent neural networks fed by the measurement. We show that, when applied to the BB84 protocol, our attack can be difficult to notice while still allowing the spy to extract significant information about the states of the qubits sent in the quantum communication channel. Finally, we study how the spy can exploit quantum feedback based on the measurement to further cover their tracks. Our attack scheme, while still at the early stages of a toy model, constitutes a potential threat which is worthwhile to be investigated, as it could also be applied to different QKD protocols and generalized in many different ways. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# 学校分離政策作成のための文脈確率最適化
Contextual Stochastic Optimization for School Desegregation Policymaking ( http://arxiv.org/abs/2408.12572v1 ) ライセンス: Link先を確認 | Hongzhao Guan, Nabeel Gillani, Tyler Simko, Jasmine Mangat, Pascal Van Hentenryck, | (参考訳) アメリカ合衆国内のほとんどの教育学区は、学校内の人種・民族・社会経済的地位(SES)の分離を体系化する過程である、その住所に基づいて、子供たちを学校に割り当てるために地理的な「参加ゾーン」を描いている。
再描画境界は分離を減らすことができるが、家族が割り当てられた学校をオプトアウトできるため、再分割の影響を見積もることは困難である。
本稿では、この社会的問題に対処する試みとして、選択による再限定(RWC)と呼ばれる、共同再限定と選択モデリングの枠組みを開発する。
RWCフレームワークは、この地区の小学校境界の再描画が社会経済的分離のレベルにどのように影響するかを推定するために、米国の大きな公立教育学区に適用される。
RWCの主な方法論的貢献は、地域全体の相違を最小限に抑える文脈確率的最適化モデルであり、機械学習によって得られた学生の配置制約と学校選択モデルを統合する。
この研究の鍵となる発見は、RWCが分離を減らす可能性のある境界線の変化を相当量(23%)減少させるという観察であるが、それを行うには、選択パターンが悪化する可能性のある再分離を緩和する多くの学生の再割り当てが必要になる可能性がある。
結果は、学校の選択を予測することは、難しい機械学習の問題であることも明らかにした。
全体として、この研究は、学者と政策立案者の両方が、より多様で統合された学校を育むために使用できる、新しい実践的枠組みを提供する。
Most US school districts draw geographic "attendance zones" to assign children to schools based on their home address, a process that can codify existing neighborhood racial/ethnic and socioeconomic status (SES) segregation in schools. Redrawing boundaries can reduce segregation, but estimating the rezoning impact is challenging as families can opt-out of their assigned schools. This paper is an attempt to address this societal problem: it develops a joint redistricting and choice modeling framework, called redistricting with choices (RWC). The RWC framework is applied to a large US public school district for estimating how redrawing elementary school boundaries in the district might realistically impact levels of socioeconomic segregation. The main methodological contribution of the RWC is a contextual stochastic optimization model that minimizes district-wide dissimilarity, and integrates the rezoning constraints and a school choice model for the students obtained through machine learning. The key finding of the study is the observation that RWC yields boundary changes that might reduce segregation by a substantial amount (23%) -- but doing so might require the re-assignment of a large number of students, likely to mitigate re-segregation that choice patterns could exacerbate. The results also reveal that predicting school choice is a challenging machine learning problem. Overall, this study offers a novel practical framework that both academics and policymakers might use to foster more diverse and integrated schools. | 翻訳日:2024-08-23 13:02:30 公開日:2024-08-22 |
# MuMA-ToM:Multi-modal Multi-Agent Theory of Mind
MuMA-ToM: Multi-modal Multi-Agent Theory of Mind ( http://arxiv.org/abs/2408.12574v1 ) ライセンス: Link先を確認 | Haojun Shi, Suyu Ye, Xinyu Fang, Chuanyang Jin, Layla Isik, Yen-Ling Kuo, Tianmin Shu, | (参考訳) 複雑な現実世界のシナリオにおける人々の社会的相互作用を理解することは、しばしば複雑な精神的推論に依存する。
人々がどのように、なぜ互いに相互作用するのかを真に理解するためには、社会的な相互作用を引き起こす基礎となる精神状態、すなわちマルチエージェント相互作用における心の理論を推論する必要がある。
人々の行動を見たり、会話を聞いたり、過去の行動について読んだりできます。
AIシステムが現実世界の環境で人々とうまく安全に対話するためには、対話に関するマルチモーダル情報に基づいて、人々の精神状態だけでなく、互いの精神状態に関する推論も理解する必要がある。
そこで本研究では,マルチモーダルなマルチエージェント理論である MuMA-ToM について紹介する。
MuMA-ToMは、インボディード・マルチエージェント相互作用における精神的推論を評価する最初のマルチモーダル・オブ・マインドベンチマークである。
In MuMA-ToM, we provide video and text descriptions of people's multi-modal behavior in real household environment。
その文脈に基づいて、他人の目標、信念、信念について質問する。
人体実験で MuMA-ToM を検証し,人体ベースラインを提供した。
また,LIMP(Language model-based Inverse Multi-agent Planning)という新しいマルチモーダル・マルチエージェントToMモデルも提案した。
実験の結果,LIMPは大規模マルチモーダルモデル (GPT-4o, Gemini-1.5 Pro) や最近のマルチモーダルToMモデル (BIP-ALM) など,最先端の手法よりも優れていた。
Understanding people's social interactions in complex real-world scenarios often relies on intricate mental reasoning. To truly understand how and why people interact with one another, we must infer the underlying mental states that give rise to the social interactions, i.e., Theory of Mind reasoning in multi-agent interactions. Additionally, social interactions are often multi-modal -- we can watch people's actions, hear their conversations, and/or read about their past behaviors. For AI systems to successfully and safely interact with people in real-world environments, they also need to understand people's mental states as well as their inferences about each other's mental states based on multi-modal information about their interactions. For this, we introduce MuMA-ToM, a Multi-modal Multi-Agent Theory of Mind benchmark. MuMA-ToM is the first multi-modal Theory of Mind benchmark that evaluates mental reasoning in embodied multi-agent interactions. In MuMA-ToM, we provide video and text descriptions of people's multi-modal behavior in realistic household environments. Based on the context, we then ask questions about people's goals, beliefs, and beliefs about others' goals. We validated MuMA-ToM in a human experiment and provided a human baseline. We also proposed a novel multi-modal, multi-agent ToM model, LIMP (Language model-based Inverse Multi-agent Planning). Our experimental results show that LIMP significantly outperforms state-of-the-art methods, including large multi-modal models (e.g., GPT-4o, Gemini-1.5 Pro) and a recent multi-modal ToM model, BIP-ALM. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# マルチタスク魚眼クロスビュー変換器による駐車知覚の強化
Enhanced Parking Perception by Multi-Task Fisheye Cross-view Transformers ( http://arxiv.org/abs/2408.12575v1 ) ライセンス: Link先を確認 | Antonyo Musabini, Ivan Novikov, Sana Soula, Christel Leonet, Lihao Wang, Rachid Benmokhtar, Fabian Burger, Thomas Boulay, Xavier Perrotton, | (参考訳) 現在の駐車エリア認識アルゴリズムは、主に、ラベリングと推論の両方においてエラーを起こしやすいホモグラフ投影に依存する、限られた範囲内の空きスロットの検出に焦点を当てている。
しかし、最近のADAS(Advanced Driver Assistance System)の進歩は、包括的でインテリジェントなHuman-Machine Interfaces (HMI)を通してエンドユーザーとのインタラクションを必要とする。
これらのインターフェースは、空きスロットの入口線を他の駐車車両の向きに区別することから、駐車エリアの完全な認識を与えるべきである。
本稿では,4カメラの魚眼Surround-view Camera System(SVCS)の機能を活用し,BEVグリッド機能マップを作成するマルチタスク魚眼Cross View Transformers (MT F-CVT)を提案する。
特徴は、駐車場や車両用のセグメンテーションデコーダとポリゴン・ヨロをベースとしたオブジェクト検出デコーダによって処理される。
LiDARでラベル付けされたデータに基づいて、MT F-CVTはオブジェクトを25m×25mの実際のオープンロードシーン内に配置し、平均誤差は20cmである。
我々のより大きなモデルでは、F-1スコアは0.89である。
さらに、小さなモデルはNvidia Jetson Orinの組み込みボード上で16fpsで動作する。
MT F-CVTは、異なる車両とカメラリグ構成にまたがる堅牢な一般化能力を示す。
未確認の車両とカメラリグのデモビデオは、https://streamable.com/jjw54x.comで公開されている。
Current parking area perception algorithms primarily focus on detecting vacant slots within a limited range, relying on error-prone homographic projection for both labeling and inference. However, recent advancements in Advanced Driver Assistance System (ADAS) require interaction with end-users through comprehensive and intelligent Human-Machine Interfaces (HMIs). These interfaces should present a complete perception of the parking area going from distinguishing vacant slots' entry lines to the orientation of other parked vehicles. This paper introduces Multi-Task Fisheye Cross View Transformers (MT F-CVT), which leverages features from a four-camera fisheye Surround-view Camera System (SVCS) with multihead attentions to create a detailed Bird-Eye View (BEV) grid feature map. Features are processed by both a segmentation decoder and a Polygon-Yolo based object detection decoder for parking slots and vehicles. Trained on data labeled using LiDAR, MT F-CVT positions objects within a 25m x 25m real open-road scenes with an average error of only 20 cm. Our larger model achieves an F-1 score of 0.89. Moreover the smaller model operates at 16 fps on an Nvidia Jetson Orin embedded board, with similar detection results to the larger one. MT F-CVT demonstrates robust generalization capability across different vehicles and camera rig configurations. A demo video from an unseen vehicle and camera rig is available at: https://streamable.com/jjw54x. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# 創発のパーコレーションモデル:形式言語で訓練された変圧器の解析
A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language ( http://arxiv.org/abs/2408.12578v1 ) ライセンス: Link先を確認 | Ekdeep Singh Lubana, Kyogo Kawaguchi, Robert P. Dick, Hidenori Tanaka, | (参考訳) データ、サイズ、計算量の増加は、ニューラルネットワークによって特定の能力の急激な学習につながる可能性がある。
科学的理解の他に、このような創発的能力の根底にある因果的要因を確立することは、AIのリスク規制フレームワークを有効にするために重要である。
本研究では、他の分野における創発的特性の研究からインスピレーションを求め、ニューラルネットワークの文脈における概念の現象論的定義を提案する。
我々の定義は、データ生成プロセスの根底にある特定の構造を、特定の、より狭いタスクに対して突然のパフォーマンスが向上する原因として捉えている。
我々は、文脈に敏感な形式言語を基礎とした実験システムを提案し、この言語から文字列上でタスクを実行するように訓練されたトランスフォーマーが、実際に創発的な能力を示すことを発見した。
具体的には、言語の基本となる文法と文脈に敏感な構造がモデルによって学習されると、より狭いタスクのパフォーマンスが突然改善され始めることを示す。
次に、ネットワークの学習力学を二部グラフ上のパーコレーションの過程と類似させ、データ構造を変更する際に観測された出現点の変化を予測する形式的な位相遷移モデルを確立する。
全体として、我々の実験的および理論的フレームワークは、ニューラルネットワークの出現をよりよく定義し、特徴付けし、予測するための一歩となる。
Increase in data, size, or compute can lead to sudden learning of specific capabilities by a neural network -- a phenomenon often called "emergence". Beyond scientific understanding, establishing the causal factors underlying such emergent capabilities is crucial to enable risk regulation frameworks for AI. In this work, we seek inspiration from study of emergent properties in other fields and propose a phenomenological definition for the concept in the context of neural networks. Our definition implicates the acquisition of specific structures underlying the data-generating process as a cause of sudden performance growth for specific, narrower tasks. We empirically investigate this definition by proposing an experimental system grounded in a context-sensitive formal language and find that Transformers trained to perform tasks on top of strings from this language indeed exhibit emergent capabilities. Specifically, we show that once the language's underlying grammar and context-sensitivity inducing structures are learned by the model, performance on narrower tasks suddenly begins to improve. We then analogize our network's learning dynamics with the process of percolation on a bipartite graph, establishing a formal phase transition model that predicts the shift in the point of emergence observed in experiment when changing the data structure. Overall, our experimental and theoretical frameworks yield a step towards better defining, characterizing, and predicting emergence in neural networks. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# RuleAlign: 診断ルールアライメントによる大規模言語モデルの改善
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment ( http://arxiv.org/abs/2408.12579v1 ) ライセンス: Link先を確認 | Xiaohan Wang, Xiaoyan Yang, Yuqi Zhu, Yue Shen, Jian Wang, Peng Wei, Lei Liang, Jinjie Gu, Huajun Chen, Ningyu Zhang, | (参考訳) GPT-4、MedPaLM-2、Med-Geminiのような大規模言語モデル(LLM)は、様々な医学ベンチマークで人間の専門家と競争的にパフォーマンスを達成している。
しかし、専門的な診断を医師に似せて、特に患者情報を効率的に収集し、最終的な診断を推論する上で、依然として課題に直面している。
この目的のために, LLM と特定の診断規則の整合性を考慮した RuleAlign フレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発し、嗜好学習によるアライメント学習アプローチを設計する。
実験の結果,提案手法の有効性が示された。
私たちは、私たちの研究が、AI医師としてのLLMの可能性を探究するためのインスピレーションとなり得ることを願っています。
Large Language Models (LLMs) like GPT-4, MedPaLM-2, and Med-Gemini achieve performance competitively with human experts across various medical benchmarks. However, they still face challenges in making professional diagnoses akin to physicians, particularly in efficiently gathering patient information and reasoning the final diagnosis. To this end, we introduce the RuleAlign framework, designed to align LLMs with specific diagnostic rules. We develop a medical dialogue dataset comprising rule-based communications between patients and physicians and design an alignment learning approach through preference learning. Experimental results demonstrate the effectiveness of the proposed approach. We hope that our work can serve as an inspiration for exploring the potential of LLMs as AI physicians. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# 地球環境変化における最良腕の同定
Identifying the Best Arm in the Presence of Global Environment Shifts ( http://arxiv.org/abs/2408.12581v1 ) ライセンス: Link先を確認 | Phurinut Srisawad, Juergen Branke, Long Tran-Thanh, | (参考訳) 本稿では,非定常確率的バンディット設定において,環境のグローバルな影響により,すべてのアームの手段が同じ方法でシフトする,新たなベストアーム同定問題を定式化する。
目標は、予算の固定化によって、環境の変化にまたがる独特なベストアームを識別することである。
この設定は、Adversarial Bandits(英語版)やCorrupted Bandits(英語版)の特殊な場合と見なすことができるが、これらの設定に適合した既存のソリューションが、このグローバルな影響の性質を完全に活用するわけではなく、したがって(理論的な保証にもかかわらず)実際にうまく機能しないことを示す。
この問題を克服するため,本稿では,グローバルな環境変化に対応する上で,一貫性とロバスト性を備えた新しい選択政策を策定する。
次に、各環境における全腕にわたるグローバルシフトに関する情報を活用するアロケーションポリシーLinLUCBを提案する。
実証テストは、既存の他の方法に対するポリシーの大幅な改善を描いています。
This paper formulates a new Best-Arm Identification problem in the non-stationary stochastic bandits setting, where the means of all arms are shifted in the same way due to a global influence of the environment. The aim is to identify the unique best arm across environmental change given a fixed total budget. While this setting can be regarded as a special case of Adversarial Bandits or Corrupted Bandits, we demonstrate that existing solutions tailored to those settings do not fully utilise the nature of this global influence, and thus, do not work well in practice (despite their theoretical guarantees). To overcome this issue, in this paper we develop a novel selection policy that is consistent and robust in dealing with global environmental shifts. We then propose an allocation policy, LinLUCB, which exploits information about global shifts across all arms in each environment. Empirical tests depict a significant improvement in our policies against other existing methods. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# テンソルネットワーク状態の微分プログラミングを用いた量子回路最適化
Quantum Circuit Optimization using Differentiable Programming of Tensor Network States ( http://arxiv.org/abs/2408.12583v1 ) ライセンス: Link先を確認 | David Rogerson, Ananda Roy, | (参考訳) 効率的な量子回路最適化スキームは、強く相互作用する量子多体系の量子シミュレーションの中心である。
本稿では,機械学習手法とテンソルネットワーク手法を組み合わせた最適化アルゴリズムを提案する。
このアルゴリズムは従来のハードウェア上で動作し、スカラーコスト関数を最小化することで、浅く正確な量子回路を見つける。
行列積状態に対する時間進化ブロックデシミテーションアルゴリズム上に実装された逆モード自動微分法を用いて、最適化プロセスに関連する勾配を計算する。
ADAMオプティマイザの変動を利用して、ユニタリ演算子を保存する電荷保存多様体の勾配降下を行い、最適量子回路を求める。
このアプローチの有効性は、Ising, 3-state Potts, and the massive Schwinger model for the system sizes to L=100のスピン鎖ハミルトニアンの基底状態を見つけることによって示される。
これらのモデルの最初の10個の励起状態は、システムサイズ L=24 に対しても得られる。
すべての回路は、適切なCPU時間と控えめなメモリ要求下で高い状態忠実性を達成する。
Efficient quantum circuit optimization schemes are central to quantum simulation of strongly interacting quantum many body systems. Here, we present an optimization algorithm which combines machine learning techniques and tensor network methods. The said algorithm runs on classical hardware and finds shallow, accurate quantum circuits by minimizing scalar cost functions. The gradients relevant for the optimization process are computed using the reverse mode automatic differentiation technique implemented on top of the time-evolved block decimation algorithm for matrix product states. A variation of the ADAM optimizer is utilized to perform a gradient descent on the manifolds of charge conserving unitary operators to find the optimal quantum circuit. The efficacy of this approach is demonstrated by finding the ground states of spin chain Hamiltonians for the Ising, three-state Potts and the massive Schwinger models for system sizes up to L=100. The first ten excited states of these models are also obtained for system sizes L=24. All circuits achieve high state fidelities within reasonable CPU time and modest memory requirements. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# ピラミッド・アテンション・ブロードキャストによるリアルタイム映像生成
Real-Time Video Generation with Pyramid Attention Broadcast ( http://arxiv.org/abs/2408.12588v1 ) ライセンス: Link先を確認 | Xuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You, | (参考訳) 本稿では,リアルタイム,高品質,トレーニング不要なDiTビデオ生成手法であるPraamid Attention Broadcast(PAB)を提案する。
本手法は, 拡散過程における注意差がU字型パターンを示し, 有意な冗長性を示すことに基づく。
我々は、ピラミッドスタイルのその後のステップに注意出力をブロードキャストすることでこれを緩和する。
最高の効率のために、各注意に異なるブロードキャスト戦略を適用する。
さらに、より効率的な分散推論のために、放送シーケンスの並列化を導入する。
PABはベースラインと比較して3つのモデルで優れた結果を示し、最大720pビデオのリアルタイム生成を実現している。
我々は,我々のシンプルで効果的な手法が,堅牢なベースラインとして機能し,将来的なビデオ生成研究や応用を促進することを期待する。
We present Pyramid Attention Broadcast (PAB), a real-time, high quality and training-free approach for DiT-based video generation. Our method is founded on the observation that attention difference in the diffusion process exhibits a U-shaped pattern, indicating significant redundancy. We mitigate this by broadcasting attention outputs to subsequent steps in a pyramid style. It applies different broadcast strategies to each attention based on their variance for best efficiency. We further introduce broadcast sequence parallel for more efficient distributed inference. PAB demonstrates superior results across three models compared to baselines, achieving real-time generation for up to 720p videos. We anticipate that our simple yet effective method will serve as a robust baseline and facilitate future research and application for video generation. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# xGen-VideoSyn-1:圧縮表現を用いた高忠実テキスト・ビデオ合成
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations ( http://arxiv.org/abs/2408.12590v1 ) ライセンス: Link先を確認 | Can Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong, | (参考訳) テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルであるxGen-VideoSyn-1を提案する。
OpenAIのSoraのような最近の進歩に基づいて、潜在拡散モデル(LDM)アーキテクチャを探求し、ビデオ変分オートエンコーダ(VidVAE)を導入する。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さと長いシーケンスビデオの生成に伴う計算要求を大幅に削減する。
計算コストをさらに高めるため,ビデオセグメント間の時間的整合性を維持する分割・統合戦略を提案する。
我々の拡散変換器(DiT)モデルは空間的・時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比で堅牢な一般化を可能にする。
我々は、最初からデータ処理パイプラインを考案し、1300万以上の高品質のビデオテキストペアを収集しました。
パイプラインには、クリップ、テキスト検出、モーション推定、美学のスコアリング、社内のビデオ-LLMモデルに基づく濃密なキャプションなど、複数のステップが含まれています。
VidVAEとDiTの訓練にはそれぞれ40日と642日を要した。
我々のモデルは、14秒以上の720pビデオ生成をエンドツーエンドでサポートし、最先端のT2Vモデルと競合する性能を示す。
We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# 距離スーパービジョンのための微分可能論理プログラミング
Differentiable Logic Programming for Distant Supervision ( http://arxiv.org/abs/2408.12591v1 ) ライセンス: Link先を確認 | Akihiro Takemura, Katsumi Inoue, | (参考訳) 我々は,ニューラル・シンボリックAI(Near-Symbolic AI,NeSy)において,ニューラルネットワークと論理プログラミングを統合する新しい手法を提案する。
従来の手法とは違って,提案手法はラベルの欠落を推論するシンボリック・ソルバに依存しない。
代わりに、ニューラルネットワークの出力と論理プログラムの両方を行列に埋め込むことで、論理的含意と制約を異なる方法で評価する。
この方法は、遠隔の監督下でより効率的な学習を容易にする。
一定量のトレーニングデータを維持しながら,既存の手法に対するアプローチを評価した。
その結果,本手法は様々なタスクにまたがる他の手法の精度に適合するだけでなく,学習プロセスの高速化にも寄与することがわかった。
これらの結果は,NeSyアプリケーションにおける精度と学習効率を両立させるアプローチの可能性を強調している。
We introduce a new method for integrating neural networks with logic programming in Neural-Symbolic AI (NeSy), aimed at learning with distant supervision, in which direct labels are unavailable. Unlike prior methods, our approach does not depend on symbolic solvers for reasoning about missing labels. Instead, it evaluates logical implications and constraints in a differentiable manner by embedding both neural network outputs and logic programs into matrices. This method facilitates more efficient learning under distant supervision. We evaluated our approach against existing methods while maintaining a constant volume of training data. The findings indicate that our method not only matches or exceeds the accuracy of other methods across various tasks but also speeds up the learning process. These results highlight the potential of our approach to enhance both accuracy and learning efficiency in NeSy applications. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# 変形性ガスケットアセンブリの自動化
Automating Deformable Gasket Assembly ( http://arxiv.org/abs/2408.12593v1 ) ライセンス: Link先を確認 | Simeon Adebola, Tara Sadjadpour, Karim El-Refai, Will Panitch, Zehan Ma, Roy Lin, Tianshuang Qiu, Shreya Ganti, Charlotte Le, Jaimyn Drake, Ken Goldberg, | (参考訳) ガスケット組立体では、変形可能なガスケットを配置し、狭い水路に押し込む必要がある。
この作業は、自動車、家電、電子機器、その他の製品の製造において、表面を封じ込めることに共通している。
ガスケット組立体は長距離かつ高精度な作業であり、ガスケットは流路と整列し、安全な適合を達成するために完全に押し込まれなければならない。
提案手法を比較するために, 深層模倣学習と3つの手続き的アルゴリズムの4つの手法を提案する。
我々は,この手法を100の物理的試行で評価した。
結果は,Binary+アルゴリズムが直線チャネル上で10/10で成功するのに対して,250人の遠隔操作型実演に基づく学習方針は8/10で成功し,非常に遅いことを示唆している。
コード、CADモデル、ビデオ、データはhttps://berkeleyautomation.github.io/robot-gasket/にある。
In Gasket Assembly, a deformable gasket must be aligned and pressed into a narrow channel. This task is common for sealing surfaces in the manufacturing of automobiles, appliances, electronics, and other products. Gasket Assembly is a long-horizon, high-precision task and the gasket must align with the channel and be fully pressed in to achieve a secure fit. To compare approaches, we present 4 methods for Gasket Assembly: one policy from deep imitation learning and three procedural algorithms. We evaluate these methods with 100 physical trials. Results suggest that the Binary+ algorithm succeeds in 10/10 on the straight channel whereas the learned policy based on 250 human teleoperated demonstrations succeeds in 8/10 trials and is significantly slower. Code, CAD models, videos, and data can be found at https://berkeleyautomation.github.io/robot-gasket/ | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# 好ましくないグラフ事前学習とプロンプト学習
Non-Homophilic Graph Pre-Training and Prompt Learning ( http://arxiv.org/abs/2408.12594v1 ) ライセンス: Link先を確認 | Xingtong Yu, Jie Zhang, Yuan Fang, Renhe Jiang, | (参考訳) グラフは様々な分野にわたるオブジェクト間の複雑な関係をモデル化するためにユビキタスである。
グラフニューラルネットワーク(GNN)はグラフベースのアプリケーションでは主要な技術となっているが、その性能は豊富なラベル付きデータに大きく依存している。
ラベリングの要件を減らすために、事前学習と迅速な学習が一般的な選択肢となっている。
しかし、既存のプロンプト法のほとんどは、実世界のグラフのホモ親和性とヘテロ親和性の特徴を区別しない。
特に、多くの実世界のグラフは非ホモ親和性であり、厳密にも一様でもホモ親和性を持たず、ホモ親和性とヘテロ親和性を持つパターンを混合し、グラフやノード間で異なる非ホモ親和性を示す。
本稿では,非親和性グラフのための新しい事前学習および迅速な学習フレームワークProNoGを提案する。
まず、既存のグラフ事前学習手法を分析し、事前学習タスクの選択に関する理論的知見を提供する。
第2に,各ノードが特異な非ホモフィル性を示すことを認識し,下流タスクにおけるノード固有のパターンを特徴付ける条件付きネットワークを提案する。
最後に,10の公開データセットに関する広範な実験を通じて,ProNoGを徹底的に評価・解析する。
Graphs are ubiquitous for modeling complex relationships between objects across various fields. Graph neural networks (GNNs) have become a mainstream technique for graph-based applications, but their performance heavily relies on abundant labeled data. To reduce labeling requirement, pre-training and prompt learning has become a popular alternative. However, most existing prompt methods do not differentiate homophilic and heterophilic characteristics of real-world graphs. In particular, many real-world graphs are non-homophilic, not strictly or uniformly homophilic with mixing homophilic and heterophilic patterns, exhibiting varying non-homophilic characteristics across graphs and nodes. In this paper, we propose ProNoG, a novel pre-training and prompt learning framework for such non-homophilic graphs. First, we analyze existing graph pre-training methods, providing theoretical insights into the choice of pre-training tasks. Second, recognizing that each node exhibits unique non-homophilic characteristics, we propose a conditional network to characterize the node-specific patterns in downstream tasks. Finally, we thoroughly evaluate and analyze ProNoG through extensive experiments on ten public datasets. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# 量子サボタージュ複雑性
Quantum Sabotage Complexity ( http://arxiv.org/abs/2408.12595v1 ) ライセンス: Link先を確認 | Arjan Cornelissen, Nikhil S. Mande, Subhasree Patro, | (参考訳) Boolean 関数 $f:\{0,1\}^n\to\{0,1\}$ が与えられた場合、通常のクエリモデルのゴールは、未知の入力 $x \in \{0,1\}^n$ に対して$f$ を計算し、クエリの数を$x$ に最小化することである。
f_{\mathsf{sab}}$: 入力$x \in f^{-1}(0)$と入力$y \in f^{-1}(1)$が与えられた場合、すべての異なる場所が$*$に置き換えられるか、またはすべての異なる場所が$\dagger$に置き換えられるか、アルゴリズムの目標は、クエリの数を最小限にしながら、どれがどのケースであるかを特定することである。
Ben-David と Kothari [ToC'18] は、Boolean 関数のランダム化サボタージュ複雑性を $f_{\mathsf{sab}}$ のゼロエラーランダム化クエリ複雑性として導入した。
自然なフォローアップ質問は、$\mathsf{Q}(f_{\mathsf{sab}})$、$f_{\mathsf{sab}}$の量子クエリ複雑性を理解することである。
本稿では,これを体系的に研究する。
$\bullet\;\;$$$$x$と$y$に追加のクエリアクセスがあるなら、$\mathsf{Q}(f_{\mathsf{sab}})=O(\min\{\mathsf{Q}(f),\sqrt{n}\})$.sqrt{n}\})。
$\bullet\;\;$ アルゴリズムが 0-入力と 1-入力の異なる指数を出力する必要があるなら、$\mathsf{Q}(f_{\mathsf{sab}})=O(\min\{\mathsf{Q}(f)^{1.5},\sqrt{n}\})$ である。
$\bullet\;\;$ $\mathsf{Q}(f_{\mathsf{sab}}) = \Omega(\sqrt{\mathsf{fbs}(f)})$, $\mathsf{fbs}(f)$は$f$の分数ブロック感度を表す。
既知の結果から、以前の弾丸の結果とともに、$\mathsf{Q}(f_{\mathsf{sab}})$が$\mathsf{Q}(f)$と多項式的に関連していることを意味する。
$\bullet\;\;$ 上のバウンドは、And、Or、Majority、Parityといった標準関数に対してタイトである。
f$がインデックス関数であるとき、$\mathsf{Q}(f_{\mathsf{sab}})=\Theta(\mathsf{fbs}(f))$は、すべての$f$に対して$\mathsf{Q}(f_{\mathsf{sab}})=\Theta(\sqrt{\mathsf{fbs}(f)})$である可能性を除外する。
Given a Boolean function $f:\{0,1\}^n\to\{0,1\}$, the goal in the usual query model is to compute $f$ on an unknown input $x \in \{0,1\}^n$ while minimizing the number of queries to $x$. One can also consider a "distinguishing" problem denoted by $f_{\mathsf{sab}}$: given an input $x \in f^{-1}(0)$ and an input $y \in f^{-1}(1)$, either all differing locations are replaced by a $*$, or all differing locations are replaced by $\dagger$, and an algorithm's goal is to identify which of these is the case while minimizing the number of queries. Ben-David and Kothari [ToC'18] introduced the notion of randomized sabotage complexity of a Boolean function to be the zero-error randomized query complexity of $f_{\mathsf{sab}}$. A natural follow-up question is to understand $\mathsf{Q}(f_{\mathsf{sab}})$, the quantum query complexity of $f_{\mathsf{sab}}$. In this paper, we initiate a systematic study of this. The following are our main results: $\bullet\;\;$ If we have additional query access to $x$ and $y$, then $\mathsf{Q}(f_{\mathsf{sab}})=O(\min\{\mathsf{Q}(f),\sqrt{n}\})$. $\bullet\;\;$ If an algorithm is also required to output a differing index of a 0-input and a 1-input, then $\mathsf{Q}(f_{\mathsf{sab}})=O(\min\{\mathsf{Q}(f)^{1.5},\sqrt{n}\})$. $\bullet\;\;$ $\mathsf{Q}(f_{\mathsf{sab}}) = \Omega(\sqrt{\mathsf{fbs}(f)})$, where $\mathsf{fbs}(f)$ denotes the fractional block sensitivity of $f$. By known results, along with the results in the previous bullets, this implies that $\mathsf{Q}(f_{\mathsf{sab}})$ is polynomially related to $\mathsf{Q}(f)$. $\bullet\;\;$ The bound above is easily seen to be tight for standard functions such as And, Or, Majority and Parity. We show that when $f$ is the Indexing function, $\mathsf{Q}(f_{\mathsf{sab}})=\Theta(\mathsf{fbs}(f))$, ruling out the possibility that $\mathsf{Q}(f_{\mathsf{sab}})=\Theta(\sqrt{\mathsf{fbs}(f)})$ for all $f$. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# ND-SDF:高忠実度室内再構成のための正規偏向場学習
ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction ( http://arxiv.org/abs/2408.12598v1 ) ライセンス: Link先を確認 | Ziyu Tang, Weicai Ye, Yifan Wang, Di Huang, Hujun Bao, Tong He, Guofeng Zhang, | (参考訳) ボリュームレンダリングによるニューラル暗黙的再構成は、高密度な3次元表面を復元する効果を示した。
しかし、微妙な幾何を同時に復元し、異なる特徴を持つ領域をまたいだ滑らかさを保つことは自明ではない。
この問題に対処するため、従来の手法では幾何学的先行法が一般的であり、しばしば以前のモデルの性能に制約される。
本稿では,ND-SDFを提案する。ND-SDFは通常のドデフレクション場を学習し,通常のシーンとそれ以前のシーンの角偏差を表現する。
提案手法は,全ての試料に幾何偏差を均一に適用し,精度に有意なバイアスを与える従来の手法とは異なり,本手法では,試料の特異な特性に基づいて動的に学習・適応し,モデルの精度と有効性を向上する。
本手法は, 壁面や床面などのスムーズなテクスチャ構造を得るだけでなく, 複雑な構造の幾何学的詳細も保存する。
さらに、偏光角度に基づく新しい光サンプリング手法を導入し、非偏光レンダリングプロセスを容易にし、特に細い構造物における複雑な表面の品質と精度を大幅に向上させる。
様々な挑戦的データセットの一貫性の向上は,本手法の優位性を示している。
Neural implicit reconstruction via volume rendering has demonstrated its effectiveness in recovering dense 3D surfaces. However, it is non-trivial to simultaneously recover meticulous geometry and preserve smoothness across regions with differing characteristics. To address this issue, previous methods typically employ geometric priors, which are often constrained by the performance of the prior models. In this paper, we propose ND-SDF, which learns a Normal Ddeflection field to represent the angular deviation between the scene normal and the prior normal. Unlike previous methods that uniformly apply geometric priors on all samples, introducing significant bias in accuracy, our proposed normal deflection field dynamically learns and adapts the utilization of samples based on their specific characteristics, thereby improving both the accuracy and effectiveness of the model. Our method not only obtains smooth weakly textured regions such as walls and floors but also preserves the geometric details of complex structures. In addition, we introduce a novel ray sampling strategy based on the deflection angle to facilitate the unbiased rendering process, which significantly improves the quality and accuracy of intricate surfaces, especially on thin structures. Consistent improvements on various challenging datasets demonstrate the superiority of our method. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# 大規模言語モデルのための制御可能なテキスト生成:サーベイ
Controllable Text Generation for Large Language Models: A Survey ( http://arxiv.org/abs/2408.12599v1 ) ライセンス: Link先を確認 | Xun Liang, Hanyu Wang, Yezhaohui Wang, Shichao Song, Jiawei Yang, Simin Niu, Jie Hu, Dan Liu, Shunyu Yao, Feiyu Xiong, Zhiyu Li, | (参考訳) 自然言語処理(NLP)において,Large Language Models(LLM)は高いテキスト生成品質を示した。
しかし、現実世界のアプリケーションでは、LSMはますます複雑な要件を満たす必要がある。
誤解を招くコンテンツや不適切なコンテンツを避けるだけでなく、LLMは特定の文章スタイルを模倣したり、詩的な豊かさでテキストを生成するなど、特定のユーザーニーズに適応することが期待されている。
これらの様々な要求は、安全、感情、主題的整合性、言語スタイルなど、事前に定義された制御条件に従うことを保証する制御可能なテキスト生成(CTG)技術の開発を推進してきた。
本稿では,LCMにおけるCTGの最近の進歩を体系的にレビューし,その中核概念を包括的に定義し,制御条件とテキスト品質の要件を明らかにする。
我々はCTGタスクをコンテンツ制御と属性制御の2つの主要なタイプに分類する。
モデル再訓練、微調整、強化学習、プロンプトエンジニアリング、潜時空間操作、復号時間介入など、主要な手法について議論する。
我々は,各手法の特徴,利点,限界を分析し,生成制御を実現するための微妙な洞察を提供する。
さらに,CTG評価手法を概観し,適用範囲を概観し,流速の低減や実用性など,現在の研究における課題に対処する。
我々はまた、将来の研究において現実世界の応用に重点を置くなど、いくつかの魅力も提案する。
本稿では,この分野の研究者や開発者に対して貴重なガイダンスを提供することを目的としている。
参照リストと中国語版はhttps://github.com/IAAR-Shanghai/CTGSurvey.comで公開されている。
In Natural Language Processing (NLP), Large Language Models (LLMs) have demonstrated high text generation quality. However, in real-world applications, LLMs must meet increasingly complex requirements. Beyond avoiding misleading or inappropriate content, LLMs are also expected to cater to specific user needs, such as imitating particular writing styles or generating text with poetic richness. These varied demands have driven the development of Controllable Text Generation (CTG) techniques, which ensure that outputs adhere to predefined control conditions--such as safety, sentiment, thematic consistency, and linguistic style--while maintaining high standards of helpfulness, fluency, and diversity. This paper systematically reviews the latest advancements in CTG for LLMs, offering a comprehensive definition of its core concepts and clarifying the requirements for control conditions and text quality. We categorize CTG tasks into two primary types: content control and attribute control. The key methods are discussed, including model retraining, fine-tuning, reinforcement learning, prompt engineering, latent space manipulation, and decoding-time intervention. We analyze each method's characteristics, advantages, and limitations, providing nuanced insights for achieving generation control. Additionally, we review CTG evaluation methods, summarize its applications across domains, and address key challenges in current research, including reduced fluency and practicality. We also propose several appeals, such as placing greater emphasis on real-world applications in future research. This paper aims to offer valuable guidance to researchers and developers in the field. Our reference list and Chinese version are open-sourced at https://github.com/IAAR-Shanghai/CTGSurvey. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# DreamCinema: 無料カメラと3Dキャラクタによるシネマティックトランスファー
DreamCinema: Cinematic Transfer with Free Camera and 3D Character ( http://arxiv.org/abs/2408.12601v1 ) ライセンス: Link先を確認 | Weiliang Chen, Fangfu Liu, Diankun Wu, Haowen Sun, Haixu Song, Yueqi Duan, | (参考訳) われわれはデジタルメディアの繁栄の時代を生きている。
映画転送に関する現在の研究は、映画製作者が古典的な映像から視覚的要素(例えば、映画撮影やキャラクターの振る舞い)を再現し、操作することを可能にしている。
しかし、リメイクされた映画のキャラクターは依然として手作りに依存しており、技術的な複雑さと高いコストが伴うため、普通のユーザーにとっては実現不可能である。
さらに, フレーム間運動の撮影が不十分で, 物理的軌道のモデル化が不十分なため, 撮影のスムーズさが欠如している。
幸いなことに、2Dと3D AIGCの驚くべき成功により、ユーザのニーズに合った文字を効率的に生成し、撮影を多様化する可能性が開けた。
本稿では,ユーザフレンドリーな映画制作を促進することを目的とした,生成AIを映画制作パラダイムに先駆けた,新しい映画転送フレームワークであるDreamCinemaを提案する。
具体的には、まず、撮影要素(例えば、人間とカメラのポーズ)を抽出し、カメラの軌道を最適化する。
次に,人体構造を持つ3次元高品質キャラクタを効率よく作成するキャラクタ生成手法を提案する。
最後に,映像生成に生成文字を組み込んだ構造誘導型モーショントランスファー戦略を開発し,それを3Dグラフィックスエンジンでスムーズに転送する。
広汎な実験により,フリーカメラと3Dキャラクタを用いた高品質フィルムの製作の有効性が示された。
We are living in a flourishing era of digital media, where everyone has the potential to become a personal filmmaker. Current research on cinematic transfer empowers filmmakers to reproduce and manipulate the visual elements (e.g., cinematography and character behaviors) from classic shots. However, characters in the reimagined films still rely on manual crafting, which involves significant technical complexity and high costs, making it unattainable for ordinary users. Furthermore, their estimated cinematography lacks smoothness due to inadequate capturing of inter-frame motion and modeling of physical trajectories. Fortunately, the remarkable success of 2D and 3D AIGC has opened up the possibility of efficiently generating characters tailored to users' needs, diversifying cinematography. In this paper, we propose DreamCinema, a novel cinematic transfer framework that pioneers generative AI into the film production paradigm, aiming at facilitating user-friendly film creation. Specifically, we first extract cinematic elements (i.e., human and camera pose) and optimize the camera trajectory. Then, we apply a character generator to efficiently create 3D high-quality characters with a human structure prior. Finally, we develop a structure-guided motion transfer strategy to incorporate generated characters into film creation and transfer it via 3D graphics engines smoothly. Extensive experiments demonstrate the effectiveness of our method for creating high-quality films with free camera and 3D characters. | 翻訳日:2024-08-23 12:52:30 公開日:2024-08-22 |
# マンバのサーベイ
A Survey of Mamba ( http://arxiv.org/abs/2408.01129v3 ) ライセンス: Link先を確認 | Haohao Qu, Liangbo Ning, Rui An, Wenqi Fan, Tyler Derr, Hui Liu, Xin Xu, Qing Li, | (参考訳) 最も代表的なDL技術の1つとして、トランスフォーマーアーキテクチャは多くの高度なモデル、特に数十億のパラメータからなる大規模言語モデル(LLM)が強化され、ディープラーニングの基盤となっている。
素晴らしい成果にもかかわらず、トランスフォーマーは依然として固有の制限に直面しており、特に注意計算の2次計算の複雑さから生じる時間を要する推論である。
近年、古典的状態空間モデル(SSM)からインスピレーションを得た新しいアーキテクチャであるMambaが、トランスフォーマーに匹敵するモデリング能力を提供しながら、シーケンス長に関するほぼ直線的なスケーラビリティを保ちながら、基礎モデルを構築するための有望な代替手段として登場した。
このことが、様々な領域で印象的なパフォーマンスを達成するためのマンバの可能性を積極的に探究する研究を活発に進めるきっかけとなった。
このような急速な進化を考えると、既存のマンバ駆動モデルを統合する体系的なレビューが不可欠であり、この新たなモデルアーキテクチャの包括的理解を提供する。
そこで本研究では,近年のマンバ関連研究を詳細に調査し,マンバモデルの発展,さまざまなデータにマンバを適応させる技術,およびマンバが優れている応用の3つの主な側面について考察する。
具体的には,様々な代表的な深層学習モデルの基礎知識と,Mamba-1&2の詳細について概説する。
そして、AIにおけるMambaの重要性を示すために、Mambaモデルのアーキテクチャ設計、データ適応性、アプリケーションに焦点を当てた関連する研究を網羅的にレビューする。
最後に,現状の限界について考察し,将来的な研究の方向性を探究し,今後の研究に深い洞察を与える。
As one of the most representative DL techniques, Transformer architecture has empowered numerous advanced models, especially the large language models (LLMs) that comprise billions of parameters, becoming a cornerstone in deep learning. Despite the impressive achievements, Transformers still face inherent limitations, particularly the time-consuming inference resulting from the quadratic computation complexity of attention calculation. Recently, a novel architecture named Mamba, drawing inspiration from classical state space models (SSMs), has emerged as a promising alternative for building foundation models, delivering comparable modeling abilities to Transformers while preserving near-linear scalability concerning sequence length. This has sparked an increasing number of studies actively exploring Mamba's potential to achieve impressive performance across diverse domains. Given such rapid evolution, there is a critical need for a systematic review that consolidates existing Mamba-empowered models, offering a comprehensive understanding of this emerging model architecture. In this survey, we therefore conduct an in-depth investigation of recent Mamba-associated studies, covering three main aspects: the advancements of Mamba-based models, the techniques of adapting Mamba to diverse data, and the applications where Mamba can excel. Specifically, we first review the foundational knowledge of various representative deep learning models and the details of Mamba-1&2 as preliminaries. Then, to showcase the significance of Mamba for AI, we comprehensively review the related studies focusing on Mamba models' architecture design, data adaptability, and applications. Finally, we present a discussion of current limitations and explore various promising research directions to provide deeper insights for future investigations. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# ドリームブースを用いた安定拡散に基づく新しい中国景観絵画生成モデル
A New Chinese Landscape Paintings Generation Model based on Stable Diffusion using DreamBooth ( http://arxiv.org/abs/2408.08561v3 ) ライセンス: Link先を確認 | Yujia Gu, Xinyu Fang, Xueyuan Deng, Zihan Peng, Yinan Peng, | (参考訳) 本研究は, 安定拡散モデル (SDM) とパラメータ効率の良いファインチューニング法を組み合わせた中国景観絵画の製作を主目的とする手法を提案する。
このトレーニングプロセスは、LoRAと事前訓練されたSDMとDreamBoothとをそれぞれ組み合わせて加速する。
本研究は,中国景観絵画インターネットデータセットにおいて,DreamBoothと組み合わせたSDMが,一般的な事前学習型SDMやLoRAによる微調整型SDMなど,他のモデルよりも優れた性能を示すことを示す。
SDMとDreamBoothを組み合わせたSDMは、データセット上で12.75のFIDを達成し、専門家評価の観点から他のモデルよりも優れており、中国景観絵画の分野におけるモデルの汎用性は、ユニークな識別子、高い忠実さ、高品質を与えられた。
本研究は,特に景観絵画の領域において,ドメイン固有のタスクにおけるSDMの性能を向上させるための特別調整手法の可能性を示す。
This study mainly introduces a method combining the Stable Diffusion Model (SDM) and Parameter-Efficient Fine-Tuning method for generating Chinese Landscape Paintings. This training process is accelerated by combining LoRA with pre-trained SDM and DreamBooth with pre-trained SDM, respectively. On the Chinese Landscape Paintings Internet dataset used in this paper, this study finds that SDM combined with DreamBooth exhibits superior performance, outperforming other models, including the generic pre-trained SDM and LoRA-based fine-tuning SDM. The SDM combined with DreamBooth achieves a FID of 12.75 on the dataset and outperforms all other models in terms of expert evaluation, highlighting the model's versatility in the field of Chinese Landscape Paintings given the unique identifier, high fidelity and high quality. This study illustrates the potential of specialised fine-tuning method to improve the performance of SDM on domain-specific tasks, particularly in the domain of Landscape Paintings. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# TsCA:コンポジションゼロショット学習のためのコンディショナルトランスポートによるセマンティック一貫性アライメントについて
TsCA: On the Semantic Consistency Alignment via Conditional Transport for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2408.08703v2 ) ライセンス: Link先を確認 | Miaoge Li, Jingcai Guo, Richard Yi Da Xu, Dongsheng Wang, Xiaofeng Cao, Song Guo, | (参考訳) 合成ゼロショット学習 (CZSL) は, 基本コンポーネントの共有知識を活用することで, 新規な \textit{state-object} 合成を認識することを目的としている。
かなりの進歩にもかかわらず、意味的に類似したマルチモーダル表現間のバイアスを効果的に調整し、事前学習された知識を新しい構成文脈に一般化することは、持続的な課題である。
本稿では,条件伝達(CT)理論とそのホモロジーをCZSLにおける視覚・セマンティック相互作用に再考すること,さらにこれらの問題によく適応する新しい三値整合性フレームワーク(TsCA)を提案する。
具体的には、パッチ、プリミティブ、コンポジションの3つの異なる意味的相同性集合を用いて、その意味的相違を最小限に抑えるために、ペアワイズCTコストを構築する。
これらの集合内の整合性伝達をさらに確実にするため、モダリティに関係なく、輸送フロー中の自己マッピングの特徴的整合性を保証することによって学習を洗練させるサイクル整合性制約を実装した。
さらに,CTプランをオープンワールド設定に拡張することで,非実現不可能なペアを効果的にフィルタリングし,推論を高速化し,精度を向上する。
提案手法の有効性を検証するため, 広範囲な実験を行った。
Compositional Zero-Shot Learning (CZSL) aims to recognize novel \textit{state-object} compositions by leveraging the shared knowledge of their primitive components. Despite considerable progress, effectively calibrating the bias between semantically similar multimodal representations, as well as generalizing pre-trained knowledge to novel compositional contexts, remains an enduring challenge. In this paper, our interest is to revisit the conditional transport (CT) theory and its homology to the visual-semantics interaction in CZSL and further, propose a novel Trisets Consistency Alignment framework (dubbed TsCA) that well-addresses these issues. Concretely, we utilize three distinct yet semantically homologous sets, i.e., patches, primitives, and compositions, to construct pairwise CT costs to minimize their semantic discrepancies. To further ensure the consistency transfer within these sets, we implement a cycle-consistency constraint that refines the learning by guaranteeing the feature consistency of the self-mapping during transport flow, regardless of modality. Moreover, we extend the CT plans to an open-world setting, which enables the model to effectively filter out unfeasible pairs, thereby speeding up the inference as well as increasing the accuracy. Extensive experiments are conducted to verify the effectiveness of the proposed method. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# 大型の言語モデルは、あなたが言っていることを気にしていないかもしれない: Prompt Formatが説明を破る
Large Language Models Might Not Care What You Are Saying: Prompt Format Beats Descriptions ( http://arxiv.org/abs/2408.08780v3 ) ライセンス: Link先を確認 | Chenming Tang, Zhixiang Wang, Yunfang Wu, | (参考訳) In-context Learning (ICL) の助けを借りて、大規模言語モデル (LLM) は様々なタスクで優れたパフォーマンスを実現している。
しかし、ICLにおける記述的命令の機能はいまだ解明されていない。
本研究では,複数のテキスト中のサンプルの選択基準を記述するためのアンサンブルプロンプトフレームワークを提案する。
しかし驚いたことに、LLMは必ずしも記述が実際に何を言っているかを気にせず、パフォーマンスの向上は主にアンサンブルフォーマットによって引き起こされる。
さらに、この新たなアンサンブルプロンプトを、3つの LLM を用いたコモンセンス、数学、論理的推論、幻覚タスクに適用し、有望な結果を得る。
この論文が公開されたら、私たちのコードは公開されます。
With the help of in-context learning (ICL), large language models (LLMs) have achieved impressive performance across various tasks. However, the function of descriptive instructions during ICL remains under-explored. In this work, we propose an ensemble prompt framework to describe the selection criteria of multiple in-context examples, and preliminary experiments on machine translation (MT) across six translation directions confirm that this framework boosts ICL perfromance. But to our surprise, LLMs might not necessarily care what the descriptions actually say, and the performance gain is primarily caused by the ensemble format, since the framework could lead to improvement even with random descriptive nouns. We further apply this new ensemble prompt on a range of commonsense, math, logical reasoning and hallucination tasks with three LLMs and achieve promising results, suggesting again that designing a proper prompt format would be much more effective and efficient than paying effort into specific descriptions. Our code will be publicly available once this paper is published. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# Lazy から Prolific へ:正の非ラベルシーケンス学習による開語彙エクストリーム分類における欠落ラベルのタックリング
From Lazy to Prolific: Tackling Missing Labels in Open Vocabulary Extreme Classification by Positive-Unlabeled Sequence Learning ( http://arxiv.org/abs/2408.08981v2 ) ライセンス: Link先を確認 | Ranran Haoran Zhang, Bensu Uçar, Soumik Dey, Hansi Wu, Binbin Li, Rui Zhang, | (参考訳) Open-vocabulary Extreme Multi-label Classification (OXMC)は、非常に大きく定義されたラベルセット(典型的には10^3$から10^{12}$ラベル)を超える予測を可能にし、現実世界のラベリングタスクの動的な性質に対処することで、従来のXMCを拡張している。
しかし、データアノテーションにおける自己選択バイアスは、トレーニングデータとテストデータの両方において、特にあまり人気のないインプットにおいて、大きな欠落を生んでいる。
これは2つの重要な課題を生み出します: 生成モデルはラベルを過大に生成することで"怠慢"になることを学び、テストセットのアノテーションが不十分なため、評価は信頼できないものになります。
本稿では,OXMCをキーフレーズ生成タスクとして再編成し,生成モデルの怠慢に対処するPUSL(Positive-Unlabeled Sequence Learning)を提案する。
さらに,F1@$\mathcal{O}$と新たに提案されたB@$k$という一連の評価指標を用いて,不完全な基底真理を持つOXMCモデルを確実に評価することを提案する。
かなり不均衡なラベルを持つEコマースデータセットでは、PUSLは30%以上のユニークなラベルを生成し、予測の72%は実際のユーザクエリと一致している。
より歪んだEURLex-4.3kデータセットでは、特にラベル数が15から30に増加するにつれて、PUSLは優れたF1スコアを示す。
提案手法はOXMCにおけるモデリングと評価の両課題に,ラベルの欠如を効果的に対処するものである。
Open-vocabulary Extreme Multi-label Classification (OXMC) extends traditional XMC by allowing prediction beyond an extremely large, predefined label set (typically $10^3$ to $10^{12}$ labels), addressing the dynamic nature of real-world labeling tasks. However, self-selection bias in data annotation leads to significant missing labels in both training and test data, particularly for less popular inputs. This creates two critical challenges: generation models learn to be "lazy'" by under-generating labels, and evaluation becomes unreliable due to insufficient annotation in the test set. In this work, we introduce Positive-Unlabeled Sequence Learning (PUSL), which reframes OXMC as an infinite keyphrase generation task, addressing the generation model's laziness. Additionally, we propose to adopt a suite of evaluation metrics, F1@$\mathcal{O}$ and newly proposed B@$k$, to reliably assess OXMC models with incomplete ground truths. In a highly imbalanced e-commerce dataset with substantial missing labels, PUSL generates 30% more unique labels, and 72% of its predictions align with actual user queries. On the less skewed EURLex-4.3k dataset, PUSL demonstrates superior F1 scores, especially as label counts increase from 15 to 30. Our approach effectively tackles both the modeling and evaluation challenges in OXMC with missing labels. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# 斜め決定木用バニラグラディエント染料
Vanilla Gradient Descent for Oblique Decision Trees ( http://arxiv.org/abs/2408.09135v2 ) ライセンス: Link先を確認 | Subrat Prasad Panda, Blaise Genest, Arvind Easwaran, Ponnuthurai Nagaratnam Suganthan, | (参考訳) 決定木(Decision Trees, DT)は、グラフデータ上での効率向上のために、値付けされた、重要でないAIモデルの1つである。
しかし、正確なDTを学習することは、特に斜めDTでは複雑であり、かなりのトレーニング時間を要する。
さらに、DTは、例えば回帰タスクにおいて「一般化しない」というような過度な適合に苦しむ。
最近、いくつかの研究がDTを(斜めに)差別化する方法を提案している。
これにより、DTの学習に高効率な勾配偏光アルゴリズムが使用できる。
また、木の上の決定と同時に木の葉で回帰器を学習することで、一般化機能を可能にする。
DTを微分可能とする以前のアプローチは、木の内部ノード(ソフトDT)の確率近似や、内部ノード(量子化勾配勾配)の勾配計算の近似に依存する。
本研究では、標準的なバニラ勾配勾配を用いた(ハード、斜め)DTをニューラルネットワーク(NN)として意味論的に等価かつ可逆的に符号化するDTSemNetを提案する。
DTSemNetを用いて学習した斜めDTは、最先端技術を用いて学習した同様の大きさの斜めDTよりも正確であることを示す。
さらに、DT訓練時間を著しく短縮する。
また, DTSemNetは, 物理入力による強化学習(RL)設定において, NNポリシーと同じくらい効率的にDTポリシーを学習できることを実験的に実証した(次元$\leq32$)。
コードは {\color{blue}\textit{\url{https://github.com/CPS-research-group/dtsemnet}}} で公開されている。
Decision Trees (DTs) constitute one of the major highly non-linear AI models, valued, e.g., for their efficiency on tabular data. Learning accurate DTs is, however, complicated, especially for oblique DTs, and does take a significant training time. Further, DTs suffer from overfitting, e.g., they proverbially "do not generalize" in regression tasks. Recently, some works proposed ways to make (oblique) DTs differentiable. This enables highly efficient gradient-descent algorithms to be used to learn DTs. It also enables generalizing capabilities by learning regressors at the leaves simultaneously with the decisions in the tree. Prior approaches to making DTs differentiable rely either on probabilistic approximations at the tree's internal nodes (soft DTs) or on approximations in gradient computation at the internal node (quantized gradient descent). In this work, we propose DTSemNet, a novel semantically equivalent and invertible encoding for (hard, oblique) DTs as Neural Networks (NNs), that uses standard vanilla gradient descent. Experiments across various classification and regression benchmarks show that oblique DTs learned using DTSemNet are more accurate than oblique DTs of similar size learned using state-of-the-art techniques. Further, DT training time is significantly reduced. We also experimentally demonstrate that DTSemNet can learn DT policies as efficiently as NN policies in the Reinforcement Learning (RL) setup with physical inputs (dimensions $\leq32$). The code is available at {\color{blue}\textit{\url{https://github.com/CPS-research-group/dtsemnet}}}. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# FQGA-Single:画像から画像への翻訳作業における低トレーニングエポックと低モデルパラメータを目指して
FQGA-single: Towards Fewer Training Epochs and Fewer Model Parameters for Image-to-Image Translation Tasks ( http://arxiv.org/abs/2408.09218v3 ) ライセンス: Link先を確認 | Cho Yang, | (参考訳) 今回提案したSynthRAD Grand Challenge Datasetでは,CycleGAN-single (CycleGAN-single) と呼ばれるシングルエポック修正(SEM)法を用いて,約200エポック(CycleGAN-multi)でのCycleGAN訓練法と比較した。
モデル性能は,PSNR,SSIM,MAE,MSEなどの定量的性能指標を用いて質的,定量的に評価した。
本論文では,患者データの医療画像化など,特定の画像から画像への変換作業において,モデル評価における定量的,質的なパフォーマンスの両面を考察する。
また,良質な量的性能は必ずしも良質な量的性能を示唆するものではなく,逆は常に真であるとは限らない(つまり,良質な量的性能は必ずしも良質な量的性能を示唆するものではない)。
本稿では,FQGA(Fast Paired Image-to- Image Translation Quarter-Generator Adversary)と呼ばれる軽量モデルを提案する。
FQGAは、20エポックのトレーニング後にのみ、CycleGANを質的に、定量的に上回る。
最後に、FQGA上でSEM法を用いることで、CycleGANを定量的にも質的にも再び上回ることができる。
これらの性能向上は,より少ないモデルパラメータと少ないエポック(時間と計算の節約につながる)でも,Cone Beam Computed Tomography (CBCT) とComputed Tomography (CT) で議論された医療画像翻訳タスクとは別に,機械学習の他の画像・画像翻訳タスクに適用できる可能性がある。
CycleGAN was trained on SynthRAD Grand Challenge Dataset using the single-epoch modification (SEM) method proposed in this paper which is referred to as (CycleGAN-single) compared to the usual method of training CycleGAN on around 200 epochs (CycleGAN-multi). Model performance were evaluated qualitatively and quantitatively with quantitative performance metrics like PSNR, SSIM, MAE and MSE. The consideration of both quantitative and qualitative performance when evaluating a model is unique to certain image-to-image translation tasks like medical imaging of patient data as detailed in this paper. Also, this paper shows that good quantitative performance does not always imply good qualitative performance and the converse is also not always True (i.e. good qualitative performance does not always imply good quantitative performance). This paper also proposes a lightweight model called FQGA (Fast Paired Image-to-Image Translation Quarter-Generator Adversary) which has 1/4 the number of parameters compared to CycleGAN (when comparing their Generator Models). FQGA outperforms CycleGAN qualitatively and quantitatively even only after training on 20 epochs. Finally, using SEM method on FQGA allowed it to again outperform CycleGAN both quantitatively and qualitatively. These performance gains even with fewer model parameters and fewer epochs (which will result in time and computational savings) may also be applicable to other image-to-image translation tasks in Machine Learning apart from the Medical image-translation task discussed in this paper between Cone Beam Computed Tomography (CBCT) and Computed Tomography (CT) images. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# 分子特性予測の進歩:単一・マルチモーダルアプローチに関する調査
Advancements in Molecular Property Prediction: A Survey of Single and Multimodal Approaches ( http://arxiv.org/abs/2408.09461v2 ) ライセンス: Link先を確認 | Tanya Liyaqat, Tanvir Ahmad, Chandni Saxena, | (参考訳) 分子特性予測(MPP)は、薬物発見、物質科学、環境化学など様々な分野において重要な役割を担っている。
化学データの指数的な成長と人工知能の進化によって、近年はMPPの顕著な進歩が見られた。
しかし、分子構造、SMILES記法、分子画像などの分子データの多面的性質は、その効果的な表現において根本的な課題となっている。
これを解決するために、表現学習技術は、分子データの情報的かつ解釈可能な表現を取得する際に有効である。
本稿では,MPPにおける最近のAI/ベースアプローチについて考察する。
様々な分子表現と符号化スキームの概要を提供し、モダリティを用いてMPPメソッドを分類し、特徴生成に利用可能なデータセットとツールを概説する。
本稿は,近年の手法の性能も分析し,MPP分野の進展に向けた今後の研究の方向性を提案する。
Molecular Property Prediction (MPP) plays a pivotal role across diverse domains, spanning drug discovery, material science, and environmental chemistry. Fueled by the exponential growth of chemical data and the evolution of artificial intelligence, recent years have witnessed remarkable strides in MPP. However, the multifaceted nature of molecular data, such as molecular structures, SMILES notation, and molecular images, continues to pose a fundamental challenge in its effective representation. To address this, representation learning techniques are instrumental as they acquire informative and interpretable representations of molecular data. This article explores recent AI/-based approaches in MPP, focusing on both single and multiple modality representation techniques. It provides an overview of various molecule representations and encoding schemes, categorizes MPP methods by their use of modalities, and outlines datasets and tools available for feature generation. The article also analyzes the performance of recent methods and suggests future research directions to advance the field of MPP. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# ALS-HAR:IMUをベースとしたヒューマンアクティビティリコグニテーションを実現するウェアラブル環境光センサ
ALS-HAR: Harnessing Wearable Ambient Light Sensors to Enhance IMU-based Human Activity Recogntion ( http://arxiv.org/abs/2408.09527v2 ) ライセンス: Link先を確認 | Lala Shakti Swarup Ray, Daniel Geißler, Mengxi Liu, Bo Zhou, Sungho Suh, Paul Lukowicz, | (参考訳) 周囲光センサ(ALS)が画面の明るさ適応に一般的に使用されるスマートデバイスに広く統合されているにもかかわらず、人的活動認識(HAR)への応用は、主にボディウーンALSによるものであるが、ほとんど探索されていない。
本研究では,ロバストな光ベースモーションアクティビティ分類器であるALS-HARを開発した。
ALS-HARは他のモダリティと同等の精度を達成しているが、周囲の光の変化、気象条件の変化、室内の照明といった外部の障害に対する自然な感度は、日常的に使うのが困難である。
このような欠点に対処するため,我々は,ALSから抽出した知識を伝達することにより,環境不変なIMUに基づく活動分類を多モーダル・コントラッシブな分類により強化する戦略を導入する。
ALS-HARの精度は外部の照明条件に強く依存するが、IMUベースの分類器などの他のHARシステムの改善は依然として可能であり、ALSが不十分な場合においても、IMUベースの分類器では、追加知識により精度が4.2 %、マクロF1スコアは6.4 %向上し、3つの実験シナリオではマルチモーダルセンサ融合モデルを超えている。
我々の研究は、センサベースのHAR技術の進歩におけるALS統合の未解決の可能性を強調し、医療、スポーツ監視、スマート屋内環境に応用可能な、実用的で効率的なALSベースのアクティビティ認識システムへの道を開いた。
Despite the widespread integration of ambient light sensors (ALS) in smart devices commonly used for screen brightness adaptation, their application in human activity recognition (HAR), primarily through body-worn ALS, is largely unexplored. In this work, we developed ALS-HAR, a robust wearable light-based motion activity classifier. Although ALS-HAR achieves comparable accuracy to other modalities, its natural sensitivity to external disturbances, such as changes in ambient light, weather conditions, or indoor lighting, makes it challenging for daily use. To address such drawbacks, we introduce strategies to enhance environment-invariant IMU-based activity classifications through augmented multi-modal and contrastive classifications by transferring the knowledge extracted from the ALS. Our experiments on a real-world activity dataset for three different scenarios demonstrate that while ALS-HAR's accuracy strongly relies on external lighting conditions, cross-modal information can still improve other HAR systems, such as IMU-based classifiers.Even in scenarios where ALS performs insufficiently, the additional knowledge enables improved accuracy and macro F1 score by up to 4.2 % and 6.4 %, respectively, for IMU-based classifiers and even surpasses multi-modal sensor fusion models in two of our three experiment scenarios. Our research highlights the untapped potential of ALS integration in advancing sensor-based HAR technology, paving the way for practical and efficient wearable ALS-based activity recognition systems with potential applications in healthcare, sports monitoring, and smart indoor environments. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# 逆ロバスト学習のための正規化
Regularization for Adversarial Robust Learning ( http://arxiv.org/abs/2408.09672v2 ) ライセンス: Link先を確認 | Jie Wang, Rui Gao, Yao Xie, | (参考訳) 現実世界のアプリケーションで人工知能が普及しているにもかかわらず、敵攻撃に対するその脆弱性は依然として重大な懸念であり、機械学習モデルの堅牢性を調べる動機となっている。
様々なヒューリスティックスは$\infty$-Wassersteinメートル法を用いて分布的にロバストなリスクを最適化することを目的としているが、ロバスト性の概念はしばしば計算の難易度に遭遇する。
計算課題に対処するために,$\phi$-divergence正規化を分散ロバストなリスク関数に組み込む,新たな対角訓練手法を開発した。
この正規化は、元の定式化と比較して計算の顕著な改善をもたらす。
本研究では, この問題を効率的に解くために, 偏りを持つ確率勾配法を開発し, ほぼ最適サンプル複雑性を実現する。
さらに、正則化効果を確立し、正則化パラメータとロバストネスの様々なスケーリング機構を考慮し、正則化経験的リスク最小化フレームワークに同値であることを示す。
これらの規則は、勾配ノルム正則化、分散正則化、あるいはこれらの極端の間を補間する滑らかな勾配ノルム正則化をもたらす。
我々は,教師付き学習,強化学習,文脈学習における提案手法を数値的に検証し,様々な敵攻撃に対する最先端の性能を示す。
Despite the growing prevalence of artificial neural networks in real-world applications, their vulnerability to adversarial attacks remains a significant concern, which motivates us to investigate the robustness of machine learning models. While various heuristics aim to optimize the distributionally robust risk using the $\infty$-Wasserstein metric, such a notion of robustness frequently encounters computation intractability. To tackle the computational challenge, we develop a novel approach to adversarial training that integrates $\phi$-divergence regularization into the distributionally robust risk function. This regularization brings a notable improvement in computation compared with the original formulation. We develop stochastic gradient methods with biased oracles to solve this problem efficiently, achieving the near-optimal sample complexity. Moreover, we establish its regularization effects and demonstrate it is asymptotic equivalence to a regularized empirical risk minimization framework, by considering various scaling regimes of the regularization parameter and robustness level. These regimes yield gradient norm regularization, variance regularization, or a smoothed gradient norm regularization that interpolates between these extremes. We numerically validate our proposed method in supervised learning, reinforcement learning, and contextual learning and showcase its state-of-the-art performance against various adversarial attacks. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# 少人数のDPOは、トレーニングの堅牢性を高めるために罰則を拒絶する
Minor DPO reject penalty to increase training robustness ( http://arxiv.org/abs/2408.09834v2 ) ライセンス: Link先を確認 | Shiming Xie, Hong Chen, Fred Yu, Zeye Sun, Xiuyu Wu, Yingfan Hu, | (参考訳) 人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
過去には、人間のフィードバック(RLHF)アルゴリズムからの強化学習を使用して、LLMポリシーを最適化し、これらの嗜好に適合させ、元のモデルから遠ざからないようにしている。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
選択されたデータと拒否データの選好ペアを用いて、DPOは相対ログ確率を暗黙の報奨関数としてモデル化し、単純なバイナリクロスエントロピーの目的を使ってLCMポリシーを最適化する。
DPOは非常にまっすぐで理解しやすいです。
ほとんどの場合、効率よく、よく機能する。
本稿では、DPOにおける$\beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
これらの知見により、元のRLアルゴリズムに整合したMinorDPOを提案し、好みの最適化プロセスの安定性を向上させる。
Learning from human preference is a paradigm used in large-scale language model (LLM) fine-tuning step to better align pretrained LLM to human preference for downstream task. In the past it uses reinforcement learning from human feedback (RLHF) algorithm to optimize the LLM policy to align with these preferences and not to draft too far from the original model. Recently, Direct Preference Optimization (DPO) has been proposed to solve the alignment problem with a simplified RL-free method. Using preference pairs of chosen and reject data, DPO models the relative log probability as implicit reward function and optimize LLM policy using a simple binary cross entropy objective directly. DPO is quite straight forward and easy to be understood. It perform efficiently and well in most cases. In this article, we analyze the working mechanism of $\beta$ in DPO, disclose its syntax difference between RL algorithm and DPO, and understand the potential shortage brought by the DPO simplification. With these insights, we propose MinorDPO, which is better aligned to the original RL algorithm, and increase the stability of preference optimization process. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# Convert and Speak:ミニマルスーパービジョンによるゼロショットアクセント変換
Convert and Speak: Zero-shot Accent Conversion with Minimum Supervision ( http://arxiv.org/abs/2408.10096v2 ) ライセンス: Link先を確認 | Zhijun Jia, Huaying Xue, Xiulian Peng, Yan Lu, | (参考訳) 並列データの低リソースはアクセント変換(AC)問題の鍵となる課題であり、発音単位と韻律パターンの両方を変換する必要がある。
本稿では,変換を意味的トークンレベルでのみ操作し,ターゲットアクセント領域における音声生成モデルを用いて変換された意味的トークン上で音声を条件付けする2段階生成フレームワーク"Convert-and-speak"を提案する。
分離設計により、「話者」モジュールは大量のターゲットアクセント音声を使用でき、「変換」モジュールに必要な並列データを緩和することができる。
セマンティックトークンのブリッジとの変換は、テキストの書き起こしによるデータの要求を緩和し、言語事前学習技術の使用を解放し、パラレルアクセント音声データの必要性をさらに効果的に削減する。
の複雑さとレイテンシを低減するため、単一ステージのAR生成モデルは、高い品質と低い計算コストを達成するように設計されている。
インド英語からアメリカ英語への変換実験では, アクセントの類似性, 音声品質, 話者のメンテナンスにおいて, 同一話者に拘束されない15分間の弱い並列データしか持たない状態で, 最先端の性能を実現することが示されている。
多様なアクセント型による大規模な実験は、このフレームワークが高い適応性を持っていることを示唆し、低リソースデータで他のアクセントに適応しやすくする。
オーディオサンプルはhttps://www.microsoft.com/en-us/research/project/convert-and-speak-zero-shot-accent-conversion-with- minimumsupervision/で入手できる。
Low resource of parallel data is the key challenge of accent conversion(AC) problem in which both the pronunciation units and prosody pattern need to be converted. We propose a two-stage generative framework "convert-and-speak" in which the conversion is only operated on the semantic token level and the speech is synthesized conditioned on the converted semantic token with a speech generative model in target accent domain. The decoupling design enables the "speaking" module to use massive amount of target accent speech and relieves the parallel data required for the "conversion" module. Conversion with the bridge of semantic token also relieves the requirement for the data with text transcriptions and unlocks the usage of language pre-training technology to further efficiently reduce the need of parallel accent speech data. To reduce the complexity and latency of "speaking", a single-stage AR generative model is designed to achieve good quality as well as lower computation cost. Experiments on Indian-English to general American-English conversion show that the proposed framework achieves state-of-the-art performance in accent similarity, speech quality, and speaker maintenance with only 15 minutes of weakly parallel data which is not constrained to the same speaker. Extensive experimentation with diverse accent types suggests that this framework possesses a high degree of adaptability, making it readily scalable to accommodate other accents with low-resource data. Audio samples are available at https://www.microsoft.com/en-us/research/project/convert-and-speak-zero-shot-accent-conversion-with- minimumsupervision/. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# 同期ゲーム, 代数グラフ Identities, 量子NP硬度低減の話題
Topics in Algebra of Synchronous Games, Algebraic Graph Identities and Quantum NP-hardness Reductions ( http://arxiv.org/abs/2408.10114v3 ) ライセンス: Link先を確認 | Entong He, | (参考訳) 同期ゲームとその関連ゲーム代数の対応性について検討する。
我々は代数的および局所的な可換グラフの恒等性に関する結果を提案することで、Helton et al [HMPS17] の研究を少し発展させる。
非可換Nullstellens\"atze [BWHK23]に関する理論的研究に基づいて、Gr\"obner basis methodと半定値プログラミングを含む計算ツールを構築し、特定のモデルによる完璧な戦略の存在を確認する。
我々は[HMPS17]で提案された遺伝モデルと$C^*$モデルの等価性を証明した。
また、Ji の還元 $\texttt{3-Coloring}^* \leq_p \texttt{3-SAT}^*$ [Ji13] を拡張し、量子変換 NP-ハードネス還元 $\texttt{Clique}^* \leq_p \texttt{3-SAT}^*$ の別の例を示す。
We review the correspondence between a synchronous game and its associated game algebra. We slightly develop the work of Helton et al.[HMPS17] by proposing results on algebraic and locally commuting graph identities. Based on the theoretical works on noncommutative Nullstellens\"atze [BWHK23], we build computational tools involving Gr\"obner basis method and semidefinite programming to check the existence of perfect strategies with specific models. We prove the equivalence between the hereditary and $C^*$ models proposed in [HMPS17]. We also extend Ji's reduction $\texttt{3-Coloring}^* \leq_p \texttt{3-SAT}^*$ [Ji13] and exhibit another instance of quantum-version NP-hardness reduction $\texttt{Clique}^* \leq_p \texttt{3-SAT}^*$. | 翻訳日:2024-08-23 12:42:26 公開日:2024-08-22 |
# 変圧器モデルを用いたシリコンフォトニクスグレーティングからのビームプロファイルの認識
Recognizing Beam Profiles from Silicon Photonics Gratings using Transformer Model ( http://arxiv.org/abs/2408.10287v3 ) ライセンス: Link先を確認 | Yu Dian Lim, Hong Yu Li, Simon Chun Kiat Goh, Xiangyu Wang, Peng Zhao, Chuan Seng Tan, | (参考訳) 過去10年間で、イオントラップ量子コンピューティングのコミュニティにおいて、トラップされたイオン量子ビットの光学アドレス化のための集積シリコンフォトニクス(SiPh)格子の開発が盛んに行われている。
しかし、赤外線カメラからビームプロファイルを見る場合、ビームプロファイルが位置する対応する高さを決定することはしばしば困難である。
本研究では、SiPh格子からの光のビームプロファイルの対応する高さカテゴリを認識するトランスモデルを開発した。
モデルは,(1)入力パッチ,(2)入力シーケンスの2つの手法を用いて訓練される。
入力パッチでトレーニングしたモデルでは、0.938の認識精度が得られた。
一方、入力シーケンスで訓練されたモデルでは、0.895の精度が低い。
しかし、モデルトレーニング150サイクルを繰り返すと、入力パッチでトレーニングされたモデルは0.445から0.959の範囲で、入力シーケンスでトレーニングされたモデルは0.789から0.936の精度でトレーニングされた。
得られた結果は、光ビームの自動焦点付けやz軸ステージの自動調整など、様々な用途に拡張でき、所望のビームプロファイルを取得することができる。
Over the past decade, there has been extensive work in developing integrated silicon photonics (SiPh) gratings for the optical addressing of trapped ion qubits in the ion trap quantum computing community. However, when viewing beam profiles from infrared (IR) cameras, it is often difficult to determine the corresponding heights where the beam profiles are located. In this work, we developed transformer models to recognize the corresponding height categories of beam profiles of light from SiPh gratings. The model is trained using two techniques: (1) input patches, and (2) input sequence. For model trained with input patches, the model achieved recognition accuracy of 0.938. Meanwhile, model trained with input sequence shows lower accuracy of 0.895. However, when repeating the model-training 150 cycles, model trained with input patches shows inconsistent accuracy ranges between 0.445 to 0.959, while model trained with input sequence exhibit higher accuracy values between 0.789 to 0.936. The obtained outcomes can be expanded to various applications, including auto-focusing of light beam and auto-adjustment of z-axis stage to acquire desired beam profiles. | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |
# 形式的検証のためのシグモイドの最大緩和
Achieving the Tightest Relaxation of Sigmoids for Formal Verification ( http://arxiv.org/abs/2408.10491v2 ) ライセンス: Link先を確認 | Samuel Chevalier, Duncan Starkenburg, Krishnamurthy Dvijotham, | (参考訳) 形式的検証の分野では、ニューラルネットワーク(NN)は通常、最適化された等価な数学的プログラムに書き換えられる。
これらの再構成の本質的にの非凸性を克服するために、非線形活性化関数の凸緩和が典型的に利用される。
しかしながら、「S字型」活性化関数の一般的な緩和(すなわち、静的線形切断)は、過度に緩くなり、全体の検証プロセスが遅くなる。
本稿では,シグモイド活性化関数を上下に有界な調整可能な超平面を導出する。
双対空間でチューニングされると、これらのアフィン境界はシグモイド活性化関数の非線形多様体の周りで滑らかに回転する。
このアプローチは$\alpha$-sigと呼ばれ、シグモイド活性化関数の最も強固で、要素的な凸緩和を形式的な検証フレームワークに組み込むことができる。
大規模な検証タスクにこれらの緩和を組み込み、そのパフォーマンスをLiRPAや最先端の検証デュオである$\alpha$-CROWNと比較する。
In the field of formal verification, Neural Networks (NNs) are typically reformulated into equivalent mathematical programs which are optimized over. To overcome the inherent non-convexity of these reformulations, convex relaxations of nonlinear activation functions are typically utilized. Common relaxations (i.e., static linear cuts) of "S-shaped" activation functions, however, can be overly loose, slowing down the overall verification process. In this paper, we derive tuneable hyperplanes which upper and lower bound the sigmoid activation function. When tuned in the dual space, these affine bounds smoothly rotate around the nonlinear manifold of the sigmoid activation function. This approach, termed $\alpha$-sig, allows us to tractably incorporate the tightest possible, element-wise convex relaxation of the sigmoid activation function into a formal verification framework. We embed these relaxations inside of large verification tasks and compare their performance to LiRPA and $\alpha$-CROWN, a state-of-the-art verification duo. | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |
# ディープラーニングフレームワークにおけるアルゴリズム負債の自動検出:実証的研究
Automated Detection of Algorithm Debt in Deep Learning Frameworks: An Empirical Study ( http://arxiv.org/abs/2408.10529v3 ) ライセンス: Link先を確認 | Emmanuel Iko-Ojo Simon, Chirath Hettiarachchi, Alex Potanin, Hanna Suominen, Fatemeh Fard, | (参考訳) コンテキスト: これまでの研究は、機械学習(ML/DL)モデルが、SATD(Self-Admitted Technical Debt)と呼ばれるソースコードコメントからTechnical Debtを検出できることを示した。
ソフトウェア開発におけるML/DLの重要性にもかかわらず、限定的な研究は、新しいSATDタイプの自動検出に焦点を当てている。
AD検出は、TDを早期に識別し、研究、学習を促進し、モデル劣化とスケーラビリティの欠如に関連する問題の蓄積を防止するために重要である。
Aim: ML/DLモデルのAD検出性能を改善することが目標です。
方法: TF-IDF, Count Vectorizer, Hash Vectorizer, TD-indicative words を用いて, ML/DL分類器を用いて, AD検出を改善する特徴を特定する。
AD、互換性、欠陥、設計、ドキュメント、要求、テスト負債に手動で分類された7つのDLフレームワークから収集された既存のデータセットを使用します。
MLモデルの機能をさらに強化するために,様々な単語埋め込み手法について検討する。
これらの埋め込みは、ROBERTA、ALBERTv2、および大規模な言語モデル(LLMs:INSTRUCTOR、VOYAGE AI)のようなDLで作成されたモデルから提供される。
AD関連用語を取り入れてデータセットを強化し、さまざまなML/DL分類器、サポートベクトルマシン、ロジスティック回帰、ランダムフォレスト、ROBERTA、ALBERTv2をトレーニングします。
Context: Previous studies demonstrate that Machine or Deep Learning (ML/DL) models can detect Technical Debt from source code comments called Self-Admitted Technical Debt (SATD). Despite the importance of ML/DL in software development, limited studies focus on automated detection for new SATD types: Algorithm Debt (AD). AD detection is important because it helps to identify TD early, facilitating research, learning, and preventing the accumulation of issues related to model degradation and lack of scalability. Aim: Our goal is to improve AD detection performance of various ML/DL models. Method: We will perform empirical studies using approaches: TF-IDF, Count Vectorizer, Hash Vectorizer, and TD-indicative words to identify features that improve AD detection, using ML/DL classifiers with different data featurisations. We will use an existing dataset curated from seven DL frameworks where comments were manually classified as AD, Compatibility, Defect, Design, Documentation, Requirement, and Test Debt. We will explore various word embedding methods to further enrich features for ML models. These embeddings will be from models founded in DL such as ROBERTA, ALBERTv2, and large language models (LLMs): INSTRUCTOR and VOYAGE AI. We will enrich the dataset by incorporating AD-related terms, then train various ML/DL classifiers, Support Vector Machine, Logistic Regression, Random Forest, ROBERTA, and ALBERTv2. | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |
# NVマグネトメトリーにおける磁場の迅速構築のための位相ベースアプローチ
Phase-Based Approaches for Rapid Construction of Magnetic Fields in NV Magnetometry ( http://arxiv.org/abs/2408.11069v2 ) ライセンス: Link先を確認 | Prabhat Anand, Ankit Khandelwal, Achanna Anil Kumar, M Girish Chandra, Pavan K Reddy, Anuj Bathla, Dasika Shishir, Kasturi Saha, | (参考訳) 第2の量子革命が進行中の量子センサーは、実験室のデモから現場への展開へと移行し、拡張され、さらに新しい機能も提供している。
信号処理と運用ソフトウェアは、この進歩の恩恵を享受するために、これらの新興センサーシステムの不可欠な部分になりつつある。
本稿では,光磁気共鳴(ODMR)信号から磁場を推定することに焦点を当て,広帯域窒素空力中心を用いた磁力計について検討する。
ODMR信号の位相推定へのシフトを計算効率の良い手法として提案する。
フーリエ変換とフィルタを前処理ステップとして用い,よく知られた超解像法に基づく線形曲線整合あるいは複素周波数推定を回転不変技術(ESPRIT)を用いて推定する手法を提案する。
量子センシング文献の既存の方法は、磁場マップを決定するローレンツのフィッティングに基づいて異なる経路を取る。
提案手法の機能と有効性を示すために,実験データに基づく関連する結果を提供し,提案手法による計算時間を既存手法よりも大幅に短縮したことを示す。
With the second quantum revolution underway, quantum-enhanced sensors are moving from laboratory demonstrations to field deployments, providing enhanced and even new capabilities. Signal processing and operational software is becoming integral parts of these emerging sensing systems to reap the benefits of this progress. This paper looks into widefield Nitrogen Vacancy Center-based magnetometry and focuses on estimating the magnetic field from the Optically Detected Magnetic Resonances (ODMR) signal, a crucial output for various applications. Mapping the shifts of ODMR signals to phase estimation, a computationally efficient approaches are proposed. Involving Fourier Transform and Filtering as pre-processing steps, the suggested approaches involve linear curve fit or complex frequency estimation based on well-known super-resolution technique Estimation of Signal Parameters via Rotational Invariant Techniques (ESPRIT). The existing methods in the quantum sensing literature take different routes based on Lorentzian fitting for determining magnetic field maps. To showcase the functionality and effectiveness of the suggested techniques, relevant results, based on experimental data are provided, which shows a significant reduction in computational time with the proposed method over existing methods | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |
# Mistral-SPLADE: より学習されたスパース検索のためのLLM
Mistral-SPLADE: LLMs for better Learned Sparse Retrieval ( http://arxiv.org/abs/2408.11119v2 ) ライセンス: Link先を確認 | Meet Doshi, Vishwajeet Kumar, Rudra Murthy, Vignesh P, Jaydeep Sen, | (参考訳) 学習されたスパースレトリバー(LSR)は、従来のキーワードベースのスパースレトリバーと埋め込みベースの高密度レトリバーのギャップを埋める効果的な検索戦略へと進化してきた。
学習されたスパース検索者は、クエリやドキュメントから最も重要なセマンティックキーワード拡張を学習し、重複するキーワード拡張によるより良い検索を容易にする。
SPLADEのようなLSRは典型的には、ハードネガティブマイニングや蒸留などの既知の検索性能向上の方法と合わせて、MLM(masked language modeling)スタイルの目的を持つエンコーダのみのモデルを使用してきた。
本研究では,意味的キーワード拡張学習にデコーダのみを用いたモデルを提案する。
提案するデコーダは,データ量が大きくなったモデルのみが,検索改善に必要なキーワード拡張の学習に適している。
我々はMistralをバックボーンとして、SPLADEに似たLearned Sparse Retrieverを開発し、テキスト埋め込みモデルのトレーニングによく使用される文変換データのサブセットでトレーニングする。
実験では,デコーダのみに基づくスパース検索モデル(LLM)が,SPLADEを含む既存のLSRシステムの性能を超えるという仮説を支持した。
LLMベースのモデル(Echo-Mistral-SPLADE)は、BEIRテキスト検索ベンチマークにおいて、現在最先端の学習されたスパース検索モデルとなっている。
Learned Sparse Retrievers (LSR) have evolved into an effective retrieval strategy that can bridge the gap between traditional keyword-based sparse retrievers and embedding-based dense retrievers. At its core, learned sparse retrievers try to learn the most important semantic keyword expansions from a query and/or document which can facilitate better retrieval with overlapping keyword expansions. LSR like SPLADE has typically been using encoder only models with MLM (masked language modeling) style objective in conjunction with known ways of retrieval performance improvement such as hard negative mining, distillation, etc. In this work, we propose to use decoder-only model for learning semantic keyword expansion. We posit, decoder only models that have seen much higher magnitudes of data are better equipped to learn keyword expansions needed for improved retrieval. We use Mistral as the backbone to develop our Learned Sparse Retriever similar to SPLADE and train it on a subset of sentence-transformer data which is often used for training text embedding models. Our experiments support the hypothesis that a sparse retrieval model based on decoder only large language model (LLM) surpasses the performance of existing LSR systems, including SPLADE and all its variants. The LLM based model (Echo-Mistral-SPLADE) now stands as a state-of-the-art learned sparse retrieval model on the BEIR text retrieval benchmark. | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |
# マルチモーダル大言語モデルに基づく動画感情オープン語彙認識
Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model ( http://arxiv.org/abs/2408.11286v2 ) ライセンス: Link先を確認 | Mengying Ge, Dongkai Tang, Mingyang Li, | (参考訳) マルチモーダル感情認識は大きな関心事である。
しかし、従来のデータセットは固定ラベルに基づいており、多くの場合、主要な感情に焦点を当て、複雑なシーンにおける詳細な感情の変化を無視するモデルになる。
本稿では、MLLM技術を用いてビデオからオープン語彙感情ラベルを生成する方法を紹介する。
このソリューションには、フレームワーク、データ生成と処理、トレーニング方法、結果生成、マルチモデルの共同判断などが含まれる。
MER2024課題のMER-OV(Open-Word Emotion Recognition)において,本手法は重要な優位性を実現し,複雑な感情計算の能力に優れていた。
Multimodal emotion recognition is a task of great concern. However, traditional data sets are based on fixed labels, resulting in models that often focus on main emotions and ignore detailed emotional changes in complex scenes. This report introduces the solution of using MLLMs technology to generate open-vocabulary emotion labels from a video. The solution includes the use of framework, data generation and processing, training methods, results generation and multi-model co-judgment. In the MER-OV (Open-Word Emotion Recognition) of the MER2024 challenge, our method achieved significant advantages, leading to its superior capabilities in complex emotion computation. | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |
# 部分的表現を用いた説明可能な深層強化学習
Using Part-based Representations for Explainable Deep Reinforcement Learning ( http://arxiv.org/abs/2408.11455v2 ) ライセンス: Link先を確認 | Manos Kirtas, Konstantinos Tsampazis, Loukia Avramelou, Nikolaos Passalis, Anastasios Tefas, | (参考訳) 深層学習モデルを用いたパートベース表現の学習は,特徴表現から得られる潜在要因を単純な付加によって組み込むため,解釈可能な設計アプローチに有意な可能性を秘めている。
しかし、パートベース学習モデルのトレーニングは、特にモデルのパラメータに非負の制約を課すことで、不安定性や収束問題といったトレーニング上の困難を生じさせる。
さらに、多くの最適化手法に影響を与える固有の不安定性のために、深層強化学習(RL)にそのようなアプローチを適用することがさらに要求される。
本稿では,RLにおけるアクターモデルに対する非負のトレーニング手法を提案する。
この目的のために、我々は非負の初期化手法と、既存の手法と比較して勾配流を良くする改良された手話保存訓練手法を用いる。
本稿では,よく知られたCartpoleベンチマークを用いて提案手法の有効性を示す。
Utilizing deep learning models to learn part-based representations holds significant potential for interpretable-by-design approaches, as these models incorporate latent causes obtained from feature representations through simple addition. However, training a part-based learning model presents challenges, particularly in enforcing non-negative constraints on the model's parameters, which can result in training difficulties such as instability and convergence issues. Moreover, applying such approaches in Deep Reinforcement Learning (RL) is even more demanding due to the inherent instabilities that impact many optimization methods. In this paper, we propose a non-negative training approach for actor models in RL, enabling the extraction of part-based representations that enhance interpretability while adhering to non-negative constraints. To this end, we employ a non-negative initialization technique, as well as a modified sign-preserving training method, which can ensure better gradient flow compared to existing approaches. We demonstrate the effectiveness of the proposed approach using the well-known Cartpole benchmark. | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |
# 局所学習に基づくLAKD活性化マッピング蒸留
LAKD-Activation Mapping Distillation Based on Local Learning ( http://arxiv.org/abs/2408.11478v2 ) ライセンス: Link先を確認 | Yaoze Zhang, Yuming Zhang, Yu Zhao, Yue Zhang, Feiyu Zhu, | (参考訳) 知識蒸留は、コンパクトモデルの性能を高めるために、様々な基本的な視覚モデルに広く応用されている。
既存の知識蒸留法は、教師モデルから知識を得るために異なる蒸留ターゲットを設計することに焦点を当てている。
しかし、これらの手法は、しばしば蒸留された情報の効率的な利用を見落とし、様々な種類の情報を密結合させ、教師ネットワークからの知識が学習のネットワークにどのように役立つかを説明することは困難である。
本稿では,教師ネットワークからの蒸留情報をより効率的に活用し,高い解釈性と競争性能を実現する,新たな知識蒸留フレームワークであるLAKDを提案する。
このフレームワークは、分離分離分離機構と非指向性アクティベーションマッピングを通じて、独立した対話的トレーニング機構を確立する。
LAKDは教師の特徴を分離し、単純なものから複雑なものへと進歩的な相互作用訓練を促進する。
具体的には、生徒ネットワークは、教師から受け継がれた知識を分離するために、独立した勾配を持つローカルモジュールに分割される。
非方向性のアクティベーションマッピングにより、学生ネットワークは、粗い特徴知識を学習することで、異なるローカルモジュールからの知識を統合することができる。
CIFAR-10, CIFAR-100, ImageNetデータセットについて実験を行った結果, LAKD法は既存の手法よりも優れており, 常に異なるデータセットにおける最先端性能を実現していることがわかった。
Knowledge distillation is widely applied in various fundamental vision models to enhance the performance of compact models. Existing knowledge distillation methods focus on designing different distillation targets to acquire knowledge from teacher models. However, these methods often overlook the efficient utilization of distilled information, crudely coupling different types of information, making it difficult to explain how the knowledge from the teacher network aids the student network in learning. This paper proposes a novel knowledge distillation framework, Local Attention Knowledge Distillation (LAKD), which more efficiently utilizes the distilled information from teacher networks, achieving higher interpretability and competitive performance. The framework establishes an independent interactive training mechanism through a separation-decoupling mechanism and non-directional activation mapping. LAKD decouples the teacher's features and facilitates progressive interaction training from simple to complex. Specifically, the student network is divided into local modules with independent gradients to decouple the knowledge transferred from the teacher. The non-directional activation mapping helps the student network integrate knowledge from different local modules by learning coarse-grained feature knowledge. We conducted experiments on the CIFAR-10, CIFAR-100, and ImageNet datasets, and the results show that our LAKD method significantly outperforms existing methods, consistently achieving state-of-the-art performance across different datasets. | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |
# SAM-REF: セグメントのリファインメントのためのイメージプロンプトのシナジーを再考する
SAM-REF: Rethinking Image-Prompt Synergy for Refinement in Segment Anything ( http://arxiv.org/abs/2408.11535v2 ) ライセンス: Link先を確認 | Chongkai Yu, Anqi Li, Xiaochao Qu, Luoqi Liu, Ting Liu, | (参考訳) Segment Anything Model (SAM) の出現は、ジェネラリストモデルを用いた対話的セグメンテーションにおいて重要なマイルストーンとなる。
後期融合モデルとして、SAMはイメージ埋め込みを一度抽出し、後続の相互作用においてプロンプトとマージする。
この戦略は、誘導されたターゲットゾーンから詳細な情報を抽出する能力を制限する。
現在のスペシャリストモデルは、画像の組み合わせを符号化し、引き起こされたオブジェクトをターゲットにするよう促す初期の融合戦略を利用するが、画像上の反復的な複雑な計算は高いレイテンシをもたらす。
これらの問題の鍵は、画像とプロンプトを効率的に同期させることである。
我々は,早期核融合の精度と後期核融合の効率を維持しつつ,画像とプロンプトを完全に統合し,グローバルおよびローカルにプロンプトする2段階リファインメントフレームワークSAM-REFを提案する。
第一段階のGlobalDiff Refinerは、画像全体とプロンプトを組み合わせ、オブジェクト全体の詳細な情報をキャプチャする軽量のアーリーフュージョンネットワークである。
第2ステージのPatchDiff Refinerは、マスクに従ってオブジェクトの詳細ウィンドウを特定してプロンプトし、オブジェクトのローカル詳細を洗練します。
実験により,複数の相互作用を持つ複雑なケースに対処する上で,本手法の有効性と効率を実証した。
我々のSAM-REFモデルは、効率を損なうことなくセグメンテーション品質に関するほとんどの指標において、最先端の手法よりも優れています。
The advent of the Segment Anything Model (SAM) marks a significant milestone for interactive segmentation using generalist models. As a late fusion model, SAM extracts image embeddings once and merges them with prompts in later interactions. This strategy limits the models ability to extract detailed information from the prompted target zone. Current specialist models utilize the early fusion strategy that encodes the combination of images and prompts to target the prompted objects, yet repetitive complex computations on the images result in high latency. The key to these issues is efficiently synergizing the images and prompts. We propose SAM-REF, a two-stage refinement framework that fully integrates images and prompts globally and locally while maintaining the accuracy of early fusion and the efficiency of late fusion. The first-stage GlobalDiff Refiner is a lightweight early fusion network that combines the whole image and prompts, focusing on capturing detailed information for the entire object. The second-stage PatchDiff Refiner locates the object detail window according to the mask and prompts, then refines the local details of the object. Experimentally, we demonstrated the high effectiveness and efficiency of our method in tackling complex cases with multiple interactions. Our SAM-REF model outperforms the current state-of-the-art method in most metrics on segmentation quality without compromising efficiency. | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |
# DeRainGS:雨環境における景観復元のためのガウス的スプレイティング
DeRainGS: Gaussian Splatting for Enhanced Scene Reconstruction in Rainy Environments ( http://arxiv.org/abs/2408.11540v2 ) ライセンス: Link先を確認 | Shuhong Liu, Xiang Chen, Hongming Chen, Quanfeng Xu, Mingrui Li, | (参考訳) 降雨条件下での再建は、視認性の低下と視覚知覚の歪みによって大きな課題を生じさせる。
これらの条件は、自律的な計画から環境モニタリングまで、アプリケーションに不可欠な幾何学的マップの品質を著しく損なう可能性がある。
これらの課題に対応するために,雨環境における3次元再構成(DRRE)の新たな課題を紹介し,雨環境下での3次元シーンの再構築の複雑さに対処することを目的とした。
このタスクをベンチマークするために,雨害や雨滴の多彩な強度を特徴とする,合成画像と実世界の両方のシーン画像の多様なコレクションからなるHydroViewsデータセットを構築した。
さらに, 降雨環境の復元に適した3DGS法であるDeRainGSを提案する。
降雨シナリオの広範囲にわたる広範囲にわたる実験により,本手法が最先端性能を実現し,既存の閉塞のない手法よりも優れていたことが実証された。
Reconstruction under adverse rainy conditions poses significant challenges due to reduced visibility and the distortion of visual perception. These conditions can severely impair the quality of geometric maps, which is essential for applications ranging from autonomous planning to environmental monitoring. In response to these challenges, this study introduces the novel task of 3D Reconstruction in Rainy Environments (3DRRE), specifically designed to address the complexities of reconstructing 3D scenes under rainy conditions. To benchmark this task, we construct the HydroViews dataset that comprises a diverse collection of both synthesized and real-world scene images characterized by various intensities of rain streaks and raindrops. Furthermore, we propose DeRainGS, the first 3DGS method tailored for reconstruction in adverse rainy environments. Extensive experiments across a wide range of rain scenarios demonstrate that our method delivers state-of-the-art performance, remarkably outperforming existing occlusion-free methods. | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |
# バックドア攻撃に対する視覚状態空間モデルのロバスト性を探る
Exploring Robustness of Visual State Space model against Backdoor Attacks ( http://arxiv.org/abs/2408.11679v2 ) ライセンス: Link先を確認 | Cheng-Yi Lee, Cheng-Chang Tsai, Chia-Mu Yu, Chun-Shien Lu, | (参考訳) Visual State Space Model (VSS) は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
しかし、開発過程では、バックドア攻撃はセキュリティに深刻な課題をもたらしている。
このような攻撃は、特定のトリガーがアクティベートされた時に、感染したモデルがターゲットラベルを予測し、モデルが通常、良質なサンプルで振る舞います。
本稿では,バックドアアタックのレンズを通してVSSのロバスト性を理解するための系統実験を行い,特に状態空間モデル(SSM)機構がロバスト性に与える影響について述べる。
まず、異なるバックドアトリガに対するVSSの脆弱性を調査し、パッチ内のコンテキスト情報をキャプチャするSSMメカニズムにより、VSSモデルは、SSMのないモデルと比較してバックドアトリガにより影響を受けやすいことを明らかにした。
さらに,VSSモデルの処理技術に対する感度を分析し,これらのトリガが効果的に破壊されていることを明らかにする。
これらの観測に基づいて、パッチの摂動に抵抗するために各パッチに再帰するVSSモデルの効果的なバックドアを検討する。
3つのデータセットにわたる大規模な実験とさまざまなバックドアアタックにより、VSSモデルはTransformers(ViT)と互換性があるが、Gated CNNよりも堅牢ではないことが明らかになった。
Visual State Space Model (VSS) has demonstrated remarkable performance in various computer vision tasks. However, in the process of development, backdoor attacks have brought severe challenges to security. Such attacks cause an infected model to predict target labels when a specific trigger is activated, while the model behaves normally on benign samples. In this paper, we conduct systematic experiments to comprehend on robustness of VSS through the lens of backdoor attacks, specifically how the state space model (SSM) mechanism affects robustness. We first investigate the vulnerability of VSS to different backdoor triggers and reveal that the SSM mechanism, which captures contextual information within patches, makes the VSS model more susceptible to backdoor triggers compared to models without SSM. Furthermore, we analyze the sensitivity of the VSS model to patch processing techniques and discover that these triggers are effectively disrupted. Based on these observations, we consider an effective backdoor for the VSS model that recurs in each patch to resist patch perturbations. Extensive experiments across three datasets and various backdoor attacks reveal that the VSS model performs comparably to Transformers (ViTs) but is less robust than the Gated CNNs, which comprise only stacked Gated CNN blocks without SSM. | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |
# 個別窒素空孔中心のスケーラブル並列測定
Scalable parallel measurement of individual nitrogen-vacancy centers ( http://arxiv.org/abs/2408.11715v2 ) ライセンス: Link先を確認 | Matthew Cambria, Saroj Chand, Shimon Kolkowitz, | (参考訳) ダイヤモンド中の窒素空孔(NV)中心は固体スピン欠陥であり、量子センシングや量子情報処理に広く採用されている。
通常、実験は単一の孤立したNV中心または多くのNV中心の未解決アンサンブルで行われ、測定速度と空間分解能のトレードオフや個々の欠陥の制御が生じる。
本研究では,複数の光学的に解決されたNV中心を並列に処理することで,このトレードオフを回避できる実験プラットフォームを提案する。
我々は、より大きな集合から複数のNV中心に対して電荷とスピン状態の操作を選択的に行い、10個のNV中心の電子スピン状態を並列に操作・測定する。
さらに,この測定の高信号対雑音比は,45個の一意相関係数の同時測定に対応して,10NV中心のスピン状態間のショット対ショット対相関の検出を可能にすることを示した。
我々は、我々のプラットフォームを何千もの個別に解決されたNVセンターで並列実験にスケールする方法を議論することで締めくくった。
これらの結果は、個々のスピン欠陥を用いた高スループット実験を可能にし、最近開発された相関センシング技術の応用のための自然なプラットフォームを提供する。
The nitrogen-vacancy (NV) center in diamond is a solid-state spin defect that has been widely adopted for quantum sensing and quantum information processing applications. Typically, experiments are performed either with a single isolated NV center or with an unresolved ensemble of many NV centers, resulting in a trade-off between measurement speed and spatial resolution or control over individual defects. In this work, we introduce an experimental platform that bypasses this trade-off by addressing multiple optically resolved NV centers in parallel. We perform charge- and spin-state manipulations selectively on multiple NV centers from within a larger set, and we manipulate and measure the electronic spin states of 10 NV centers in parallel. Further, we show that the high signal-to-noise ratio of the measurements enables the detection of shot-to-shot pairwise correlations between the spin states of 10 NV centers, corresponding to the simultaneous measurement of 45 unique correlation coefficients. We conclude by discussing how our platform can be scaled to parallel experiments with thousands of individually resolved NV centers. These results enable high-throughput experiments with individual spin defects, and provide a natural platform for the application of recently developed correlated sensing techniques. | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |
# 光ISAC:基本性能限界とトランシーバ設計
Optical ISAC: Fundamental Performance Limits and Transceiver Design ( http://arxiv.org/abs/2408.11792v2 ) ライセンス: Link先を確認 | Alireza Ghazavi Khorasgani, Mahtab Mirmohseni, Ahmed Elzanaty, | (参考訳) 本稿では,通信用シングルインプット・シングルアウトプットとセンサ用シングルインプット・マルチアウトプット(SISO-COMとSIMO-SEN)を備えた光ポイント・ツー・ポイント(P2P)システムにおける最適容量歪み(C-D)トレードオフを,統合センシング通信(ISAC)フレームワーク内で特徴付ける。
最適速度歪み(R-D)領域を考察し、いくつかの内部(IB)および外部(OB)境界を探索する。
本稿では,非共役前と非共役前との非線形計測・状態関係に対処するため,実践的,漸近的に最適最大距離推定器 (MAP) と目標距離推定器 (MLE) を導入する。
検知アンテナの数が増加するにつれて、これらの推定器はベイズクラム・ラオ境界(BCRB)に収束する。
また、達成可能なレートCRB(AR-CRB)が最適C-D領域のOBとして機能し、非バイアス推定器と漸近的に多数の受信アンテナの両方に有効であることを示す。
入力分布がC-D領域のパレート境界のトレードオフを決定することを明らかにするために, 反復的ブラフト・アリモトアルゴリズム (BAA) と, メモリ効率の高い閉形式 (CF) アプローチ (CF) の2つのアルゴリズムを提案する。
CFアプローチは、高光信号-雑音比(O-SNR)条件に対するCF最適分布を含む。
さらに、この光学ISACコンテキストにDRT(Deterministic-Random Tradeoff)を適用し、洗練する。
This paper characterizes the optimal capacity-distortion (C-D) tradeoff in an optical point-to-point (P2P) system with single-input single-output for communication and single-input multiple-output for sensing (SISO-COM and SIMO-SEN) within an integrated sensing and communication (ISAC) framework. We consider the optimal rate-distortion (R-D) region and explore several inner (IB) and outer (OB) bounds. We introduce practical, asymptotically optimal maximum a posteriori (MAP) and maximum likelihood estimators (MLE) for target distance, addressing nonlinear measurement-to-state relationships and non-conjugate priors. As the number of sensing antennas increases, these estimators converge to the Bayesian Cram\'er-Rao bound (BCRB). We also establish that the achievable rate-CRB (AR-CRB) serves as an OB for the optimal C-D region, valid for both unbiased estimators and asymptotically large numbers of receive antennas. To clarify that the input distribution determines the tradeoff across the Pareto boundary of the C-D region, we propose two algorithms: \textit{i}) an iterative Blahut-Arimoto algorithm (BAA)-type method, and \textit{ii}) a memory-efficient closed-form (CF) approach. The CF approach includes a CF optimal distribution for high optical signal-to-noise ratio (O-SNR) conditions. Additionally, we adapt and refine the Deterministic-Random Tradeoff (DRT) to this optical ISAC context. | 翻訳日:2024-08-23 12:32:33 公開日:2024-08-22 |