このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240720となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ゴールデンレトリバー:産業知識基盤のための高忠実エージェント検索生成
Golden-Retriever: High-Fidelity Agentic Retrieval Augmented Generation for Industrial Knowledge Base ( http://arxiv.org/abs/2408.00798v1 ) ライセンス: Link先を確認 | Zhiyu An, Xianzhong Ding, Yen-Chun Fu, Cheng-Chung Chu, Yan Li, Wan Du, | (参考訳) 本稿では,LLMファインチューニングとRAGフレームワークにおける課題を克服し,ドメイン固有ジャーゴンとコンテキスト解釈を用いて,大規模産業知識基盤を効率的にナビゲートするために設計されたGolden-Retrieverを紹介する。
Golden-Retrieverは、文書検索の前に、リフレクションに基づく質問の増大ステップを組み込んでいる。
具体的には、入力された質問のすべてのjargonと略語を抽出し、事前に定義されたリストに対してコンテキストを決定し、拡張された定義と記述のためのjargon辞書を問い合わせる。
この包括的拡張により、RAGフレームワークは、明確なコンテキストを提供し、あいまいさを解消することにより、最も関連性の高い文書を検索し、精度を大幅に向上する。
ドメイン固有の質問応答データセットを用いた3つのオープンソースのLCMによる評価は、Golden-Retrieverの優れた性能を示し、産業知識ベースを効率的に統合しクエリするための堅牢なソリューションを提供する。
This paper introduces Golden-Retriever, designed to efficiently navigate vast industrial knowledge bases, overcoming challenges in traditional LLM fine-tuning and RAG frameworks with domain-specific jargon and context interpretation. Golden-Retriever incorporates a reflection-based question augmentation step before document retrieval, which involves identifying jargon, clarifying its meaning based on context, and augmenting the question accordingly. Specifically, our method extracts and lists all jargon and abbreviations in the input question, determines the context against a pre-defined list, and queries a jargon dictionary for extended definitions and descriptions. This comprehensive augmentation ensures the RAG framework retrieves the most relevant documents by providing clear context and resolving ambiguities, significantly improving retrieval accuracy. Evaluations using three open-source LLMs on a domain-specific question-answer dataset demonstrate Golden-Retriever's superior performance, providing a robust solution for efficiently integrating and querying industrial knowledge bases. | 翻訳日:2024-08-19 05:18:32 公開日:2024-07-20 |
# あり得ない? - アメリカでAIを規制する
To Be, Or Not To Be?: Regulating Impossible AI in the United States ( http://arxiv.org/abs/2408.01440v1 ) ライセンス: Link先を確認 | Maanas Kumar Sharma, | (参考訳) 多くのAIシステムは、機能しない場合でもデプロイされる。
一部のAIは、単に自分が実行していると主張するタスクを実行できない。
このようなシステムをImpossible AIと呼ぶ。
本稿では、米国におけるImpossible AIの総合的な導入と、技術と政策の両面から、米国におけるImpossible AIの規制の推進を指導することを目的とする。
本稿は、Impossible AIの開発、展開、批判、政府規制(あるいはその欠如)を通じて、Impossible AIの3つの例をトラックする。
私たちはこれを、現在のImpossible AI規制の呼び方における基本的な障壁の分析と組み合わせて、擁護に焦点を合わせるための領域と方向を提供します。
特に,これらのシステムの基本的不確実性に着目し,クリティハイプに対する注意を喚起する機能優先アプローチを推進している。
この作業は、AIに対する妥当性の課題、技術的システムをデプロイしない決定、技術的作業と擁護とを結びつけることに焦点を当てる、コミュニティの広範なシフトの一部である。
Many AI systems are deployed even when they do not work. Some AI will simply never be able to perform the task it claims to perform. We call such systems Impossible AI. This paper seeks to provide an integrated introduction to Impossible AI in the United States and guide advocates, both technical and policy, to push forward regulation of Impossible AI in the U.S. The paper tracks three examples of Impossible AI through their development, deployment, criticism, and government regulation (or lack thereof). We combine this with an analysis of the fundamental barriers in the way of current calls for Impossible AI regulation and then offer areas and directions in which to focus advocacy. In particular, we advance a functionality-first approach that centers the fundamental impossibility of these systems and caution against criti-hype. This work is part of a broader shift in the community to focus on validity challenges to AI, the decision not to deploy technical systems, and connecting technical work with advocacy. | 翻訳日:2024-08-19 04:59:02 公開日:2024-07-20 |
# データマイニングツールとしての拡散モデル
Diffusion Models as Data Mining Tools ( http://arxiv.org/abs/2408.02752v1 ) ライセンス: Link先を確認 | Ioannis Siglidis, Aleksander Holynski, Alexei A. Efros, Mathieu Aubry, Shiry Ginosar, | (参考訳) 本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
我々の洞察では、現代の生成モデルはトレーニングデータの正確な表現を学習するため、視覚パターンをマイニングすることでデータを要約することができる。
具体的には、条件付き拡散モデルを微調整して特定のデータセットから画像を合成した後、これらのモデルを用いてそのデータセットの典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
データマイニングにおけるこの分析バイシンセシスアプローチには2つの大きな利点がある。
第一に、全ての視覚的要素を明示的に比較する必要がないので、従来の対応に基づくアプローチよりもはるかに優れたスケールである。
第2に、視覚的なデータマイニングは単一のデータセットに重点を置いていますが、当社のアプローチは、歴史的車のデータセット、歴史的な顔データセット、大規模な世界規模のストリートビューデータセット、さらに大きなシーンデータセットなど、コンテントとスケールのさまざまなデータセットに重点を置いています。
さらに,クラスラベル間の視覚的要素の変換や一貫した変化の分析も可能である。
This paper demonstrates how to use generative models trained for image synthesis as tools for visual data mining. Our insight is that since contemporary generative models learn an accurate representation of their training data, we can use them to summarize the data by mining for visual patterns. Concretely, we show that after finetuning conditional diffusion models to synthesize images from a specific dataset, we can use these models to define a typicality measure on that dataset. This measure assesses how typical visual elements are for different data labels, such as geographic location, time stamps, semantic labels, or even the presence of a disease. This analysis-by-synthesis approach to data mining has two key advantages. First, it scales much better than traditional correspondence-based approaches since it does not require explicitly comparing all pairs of visual elements. Second, while most previous works on visual data mining focus on a single dataset, our approach works on diverse datasets in terms of content and scale, including a historical car dataset, a historical face dataset, a large worldwide street-view dataset, and an even larger scene dataset. Furthermore, our approach allows for translating visual elements across class labels and analyzing consistent changes. | 翻訳日:2024-08-19 04:49:14 公開日:2024-07-20 |
# 言語モデルのインテリジェンス解析
Intelligence Analysis of Language Models ( http://arxiv.org/abs/2407.18968v1 ) ライセンス: Link先を確認 | Liane Galanti, Ethan Baron, | (参考訳) 本稿では,Large Language Models (LLMs) のARCデータセット上での有効性を検証する。
このデータセットは抽象的推論能力をテストするための代表的なベンチマークとして機能し、オブジェクトの識別、基本的な数え上げ、基本的な幾何学原理といった重要な概念の基本的な理解を必要とする。
このデータセットからのタスクは、評価のためのプロンプトベースのフォーマットに変換される。
当初、ゼロショットアプローチによりモデルの可能性を評価する。
その後、モデル性能向上におけるその役割を決定することを目的として、Chain-of-Thought(CoT)手法の適用について検討する。
我々の結果は、現代のLLMに期待されているにもかかわらず、これらのモデルは、ARCデータセットのより単純なサブセットを扱う場合でも、非言語的な領域で依然として苦戦していることを示唆している。
私たちの研究は、この文脈におけるオープンソースモデルの能力に焦点を当てた初めてのものです。
このプロジェクトの発見をサポートするコード、データセット、プロンプトは、GitHubリポジトリにある。
In this project, we test the effectiveness of Large Language Models (LLMs) on the Abstraction and Reasoning Corpus (ARC) dataset. This dataset serves as a representative benchmark for testing abstract reasoning abilities, requiring a fundamental understanding of key concepts such as object identification, basic counting, and elementary geometric principles. Tasks from this dataset are converted into a prompt-based format for evaluation. Initially, we assess the models' potential through a Zero-shot approach. Subsequently, we investigate the application of the Chain-of-Thought (CoT) technique, aiming to determine its role in improving model performance. Our results suggest that, despite the high expectations placed on contemporary LLMs, these models still struggle in non-linguistic domains, even when dealing with simpler subsets of the ARC dataset. Our study is the first to concentrate on the capabilities of open-source models in this context. The code, dataset, and prompts supporting this project's findings can be found in our GitHub repository, accessible at: https://github.com/Lianga2000/LLMsOnARC. | 翻訳日:2024-08-05 01:06:22 公開日:2024-07-20 |
# 変圧器を用いた拡散モデルによる原データと生成データのランダム再構成による脳波分類の改善
Improving EEG Classification Through Randomly Reassembling Original and Generated Data with Transformer-based Diffusion Models ( http://arxiv.org/abs/2407.20253v1 ) ライセンス: Link先を確認 | Mingzhi Chen, Yiyu Gui, Yuqi Su, Yuesheng Zhu, Guibo Luo, Yuchao Yang, | (参考訳) 脳波(EEG)分類は、脳機能を理解し、疾患を診断し、精神状態を評価するために重要である様々な医学・工学的応用で広く用いられている。
しかし、脳波データの不足は、脳波分類ネットワークの性能を著しく制限し、この課題を克服するための潜在的な解決策として、生成モデルに基づくデータ拡張手法が出現する。
既存の手法には2つの問題がある: 1) 生成された脳波信号の品質は高くない。
2)脳波分類網の強化は効果がない。
本稿では,トランスフォーマーを用いた拡散確率モデルと,上記の2つの問題に対処するためのデータに基づくデータ拡張手法を提案する。
脳波信号の特徴として,信号の事前処理を行う定数要素スケーリング手法を提案する。
マルチスケール・コンボリューションと動的フーリエスペクトル情報モジュールをモデルに組み込み、トレーニングプロセスの安定性と生成データの品質を改善した。
提案手法は,生成したデータを時間領域の原データでランダムに再アセンブルしてビジナルデータを得る手法で,経験的リスクとビジナルリスクを最小化してモデル性能を向上させる。
提案手法は,5つのEEGデータセットを4つのタスクで拡張し,Bonデータセットの14.00%,New Delhiてんかんデータセットの25.83%,SleepEDF-20データセットの4.98%,FACEDデータセットの9.42%,Shuデータセットの2.5%という,大幅な精度向上を実現した。
もうすぐ私たちのメソッドのコードを公開するつもりです。
Electroencephalogram (EEG) classification has been widely used in various medical and engineering applications, where it is important for understanding brain function, diagnosing diseases, and assessing mental health conditions. However, the scarcity of EEG data severely restricts the performance of EEG classification networks, and generative model-based data augmentation methods emerging as potential solutions to overcome this challenge. There are two problems with existing such methods: (1) The quality of the generated EEG signals is not high. (2) The enhancement of EEG classification networks is not effective. In this paper, we propose a Transformer-based denoising diffusion probabilistic model and a generated data-based data augmentation method to address the above two problems. For the characteristics of EEG signals, we propose a constant-factor scaling method to preprocess the signals, which reduces the loss of information. We incorporated Multi-Scale Convolution and Dynamic Fourier Spectrum Information modules into the model, improving the stability of the training process and the quality of the generated data. The proposed augmentation method randomly reassemble the generated data with original data in the time-domain to obtain vicinal data, which improves the model performance by minimizing the empirical risk and the vicinal risk. We experiment the proposed augmentation method on five EEG datasets for four tasks and observe significant accuracy performance improvements: 14.00% on the Bonn dataset; 25.83% on the New Delhi epilepsy dataset; 4.98% on the SleepEDF-20 dataset; 9.42% on the FACED dataset; 2.5% on the Shu dataset. We intend to make the code of our method publicly accessible shortly | 翻訳日:2024-08-05 00:46:38 公開日:2024-07-20 |
# EEGMamba:EEG分類の専門家の混成による双方向状態空間モデル
EEGMamba: Bidirectional State Space Models with Mixture of Experts for EEG Classification ( http://arxiv.org/abs/2407.20254v1 ) ライセンス: Link先を確認 | Yiyu Gui, MingZhi Chen, Yuqi Su, Guibo Luo, Yuchao Yang, | (参考訳) 近年、深層学習の発展に伴い、脳波分類網(EEG)は一定の進歩を遂げている。
トランスフォーマーベースのモデルは、脳波信号の長期的な依存関係を捉えるのによく機能する。
しかし、その2次計算の複雑さは計算オーバーヘッドを著しく引き起こす。
さらに、ほとんどの脳波分類モデルは単一タスクにのみ適しており、信号長やチャネル数の変化により、異なるタスク間での一般化能力が低下し、様々なタスクからの脳波データを同時に処理することができない。
本稿では,脳波の普遍的分類ネットワークであるEEGMambaを紹介し,複数のタスクの統一化フレームワークとして,時空間適応(ST-Adaptive)モジュール,双方向マンバ(Bidirectional Mamba)およびMixture of Experts(MoE)をシームレスに統合する。
提案したST適応モジュールは、時相適応性を実現するために、時相適応畳み込みにより、異なる長さとチャネル数のEEG信号に対して統一的な特徴抽出を行い、クラストークンを組み込む。
さらに,脳波信号処理において,高精度かつ高速な推論速度のバランスをとるため,脳波信号に特に適する双方向マンバを設計する。
タスク毎の脳波データをよりよく処理するために,タスク対応のMoEを導入し,タスク毎の脳波データの差分と共通点の把握を実現した。
我々は,8つの公用脳波データセットを用いて実験を行い,発作検出,感情認識,睡眠ステージ分類,運動画像の4種類のタスクにおいて,その優れた性能を実証した。
コードはまもなくリリースされる予定だ。
In recent years, with the development of deep learning, electroencephalogram (EEG) classification networks have achieved certain progress. Transformer-based models can perform well in capturing long-term dependencies in EEG signals. However, their quadratic computational complexity leads to significant computational overhead. Moreover, most EEG classification models are only suitable for single tasks, showing poor generalization capabilities across different tasks and further unable to handle EEG data from various tasks simultaneously due to variations in signal length and the number of channels. In this paper, we introduce a universal EEG classification network named EEGMamba, which seamlessly integrates the Spatio-Temporal-Adaptive (ST-Adaptive) module, Bidirectional Mamba, and Mixture of Experts (MoE) into a unified framework for multiple tasks. The proposed ST-Adaptive module performs unified feature extraction on EEG signals of different lengths and channel counts through spatio-adaptive convolution and incorporates a class token to achieve temporal-adaptability. Moreover, we design a bidirectional Mamba particularly suitable for EEG signals for further feature extraction, balancing high accuracy and fast inference speed in processing long EEG signals. In order to better process EEG data for different tasks, we introduce Task-aware MoE with a universal expert, achieving the capture of both differences and commonalities between EEG data from different tasks. We test our model on eight publicly available EEG datasets, and experimental results demonstrate its superior performance in four types of tasks: seizure detection, emotion recognition, sleep stage classification, and motor imagery. The code is set to be released soon. | 翻訳日:2024-08-05 00:46:38 公開日:2024-07-20 |
# 患者軌跡のマッピング:臨床診断者からの敗血症発生経路の理解と可視化
Mapping Patient Trajectories: Understanding and Visualizing Sepsis Prognostic Pathways from Patients Clinical Narratives ( http://arxiv.org/abs/2407.21039v1 ) ライセンス: Link先を確認 | Sudeshna Jana, Tirthankar Dasgupta, Lipika Dey, | (参考訳) 近年、医療専門家は、予後経路の探索を通じて、パーソナライズされた、エビデンスに基づく患者ケアに重点を置いている。
これを研究するために、電子健康記録(EHR)データからの構造化された臨床変数が伝統的に多くの研究者によって採用されてきた。
現在、自然言語処理モデルは臨床研究において大きな注目を集めており、臨床物語の使用の可能性を広げている。
本稿では,臨床ノートから派生した敗血症予後経路の体系的手法を提案し,敗血症に関連する合併症を探索し,これらのサブグループをSHAPを用いて説明することによって同定した多様な患者サブグループに着目した。
これらのサブグループの抽出された予後経路は、時間とともにセプシスの重症度の動的な軌跡について貴重な洞察を与える。
これらの経路を可視化することは、様々な状況で病気の進行の可能性と方向性に光を当て、劣化または改善のいずれかにかかわらず、敗血症ステージ間の遷移に影響を与えるパターンや重要な要因やバイオマーカーを明らかにする。
これにより、医療提供者は個別の患者に対してよりパーソナライズされ効果的な医療戦略を実施することができる。
In recent years, healthcare professionals are increasingly emphasizing on personalized and evidence-based patient care through the exploration of prognostic pathways. To study this, structured clinical variables from Electronic Health Records (EHRs) data have traditionally been employed by many researchers. Presently, Natural Language Processing models have received great attention in clinical research which expanded the possibilities of using clinical narratives. In this paper, we propose a systematic methodology for developing sepsis prognostic pathways derived from clinical notes, focusing on diverse patient subgroups identified by exploring comorbidities associated with sepsis and generating explanations of these subgroups using SHAP. The extracted prognostic pathways of these subgroups provide valuable insights into the dynamic trajectories of sepsis severity over time. Visualizing these pathways sheds light on the likelihood and direction of disease progression across various contexts and reveals patterns and pivotal factors or biomarkers influencing the transition between sepsis stages, whether toward deterioration or improvement. This empowers healthcare providers to implement more personalized and effective healthcare strategies for individual patients. | 翻訳日:2024-08-05 00:36:46 公開日:2024-07-20 |
# CORT:組み込みシステムのためのクラス指向リアルタイムトラッキング
CORT: Class-Oriented Real-time Tracking for Embedded Systems ( http://arxiv.org/abs/2407.17521v1 ) ライセンス: Link先を確認 | Edoardo Cittadini, Alessandro De Siena, Giorgio Buttazzo, | (参考訳) 自律システムにおける人工知能の利用は、複数のリアルタイムアプリケーション(自動運転、監視ドローン、ロボットなど)において、カメラの前を移動する複数の物体の軌跡をローカライズし追跡する多目的追跡の研究に大きく貢献している。
現在の追跡アルゴリズムは, 追跡精度の向上と識別スイッチ数削減のために, 複雑なヒューリスティックスと再同定モデルを導入し, タイミング性能に注意を要せず, また, 再同定フェーズを除去して応答時間を短縮することを目的としている。
この研究は、トラッキング性能を低下させることなく、より小さく予測可能な実行時間を実現できるマルチクラスオブジェクトトラッキングの新しいアプローチを提案する。
この考え方は、ハンガリー行列をクラスごとに分割し、少数の要素に厳密に必要とされる場合にのみ第2の同定段階を呼び出すことによって、検出と一致した予測をより小さなサブプロブレムに分割する問題を減らすことを目的としている。
提案手法は, 自動車, トラック, 自転車, 歩行者など, 様々な種類の物体を用いた複雑な都市シナリオにおいて評価され, 最先端トラッカーに対するマルチクラスアプローチの有効性が示された。
The ever-increasing use of artificial intelligence in autonomous systems has significantly contributed to advance the research on multi-object tracking, adopted in several real-time applications (e.g., autonomous driving, surveillance drones, robotics) to localize and follow the trajectory of multiple objects moving in front of a camera. Current tracking algorithms can be divided into two main categories: some approaches introduce complex heuristics and re-identification models to improve the tracking accuracy and reduce the number of identification switches, without particular attention to the timing performance, whereas other approaches are aimed at reducing response times by removing the re-identification phase, thus penalizing the tracking accuracy. This work proposes a new approach to multi-class object tracking that allows achieving smaller and more predictable execution times, without penalizing the tracking performance. The idea is to reduce the problem of matching predictions with detections into smaller sub-problems by splitting the Hungarian matrix by class and invoking the second re-identification stage only when strictly necessary for a smaller number of elements. The proposed solution was evaluated in complex urban scenarios with several objects of different types (as cars, trucks, bikes, and pedestrians), showing the effectiveness of the multi-class approach with respect to state of the art trackers. | 翻訳日:2024-07-26 18:08:23 公開日:2024-07-20 |
# 技術の未来をマッピングする:ソーシャルメディア談話における話題・感性・感情分析
Mapping the Technological Future: A Topic, Sentiment, and Emotion Analysis in Social Media Discourse ( http://arxiv.org/abs/2407.17522v1 ) ライセンス: Link先を確認 | Alina Landowska, Maciej Skorski, Krzysztof Rajda, | (参考訳) 世界中の人々は現在、不確実性の強力な源として働く多くの技術的課題に直面しています。
テクノロジー(例えばAI)のボラティリティと予測不可能に起因する不確実性とその潜在的な影響は、ソーシャルメディアで広く議論されている。
この研究は、BERTopicのモデリングと、2021年から2023年までの150万ツイートの感情と感情の分析を用いて、予想されるテクノロジー駆動の未来を特定し、400人の主要な世論指導者(KOL)がコミュニケーションする感情を捉える。
肯定的な感情は、肯定的な予感が支配的であり、否定的な感情よりも有意に優れていた。
特に「ホップ」スコアは中央値の「不安」スコアよりも約10.33\%高い。
KOLは「楽観主義」と「悲観主義」と課題よりも利点を強調している。
この研究は、KOLが将来のビジョンを形成する上で重要な役割を予見的談話と、技術的不確実性の時代における感情的トーンを通じて強調する。
People worldwide are currently confronted with a number of technological challenges, which act as a potent source of uncertainty. The uncertainty arising from the volatility and unpredictability of technology (such as AI) and its potential consequences is widely discussed on social media. This study uses BERTopic modelling along with sentiment and emotion analysis on 1.5 million tweets from 2021 to 2023 to identify anticipated tech-driven futures and capture the emotions communicated by 400 key opinion leaders (KOLs). Findings indicate positive sentiment significantly outweighs negative, with a prevailing dominance of positive anticipatory emotions. Specifically, the 'Hope' score is approximately 10.33\% higher than the median 'Anxiety' score. KOLs emphasize 'Optimism' and benefits over 'Pessimism' and challenges. The study emphasizes the important role KOLs play in shaping future visions through anticipatory discourse and emotional tone during times of technological uncertainty. | 翻訳日:2024-07-26 18:08:23 公開日:2024-07-20 |
# 大域的形状記述子を用いた動物・植物群への物体の視覚的分類に関する研究 : カテゴリー別欠陥に着目して
A study on general visual categorization of objects into animal and plant groups using global shape descriptors with a focus on category-specific deficits ( http://arxiv.org/abs/1901.11398v2 ) ライセンス: Link先を確認 | Zahra Sadeghi, | (参考訳) 人間は対象の一般的な分類をどう区別しますか。
多くのセマンティックカテゴリー障害では、患者は広範囲の分類に長けているが、細部や特定の詳細を覚えることができない。
概念に関する一般的なインフォームは、セマンティックメモリに関連するダメージに対してより堅牢であることがよく受け入れられている。
セマンティックメモリ障害の患者に対する再侮辱は、サブカテゴリ認識における能力の喪失を示す。
本稿では,カテゴリゴリー特異的障害の行動証拠を概説し,動物と植物の一般的なカテゴリーが,テキスト情報を処理せずに視覚的に識別可能であることを示す。
この目的のために、我々は特徴学習の新たなフェーズを持つ形状記述子を利用する。
本手法が視覚領域における動物と植物を効果的に識別できることを確認するため,教師なし学習機構と教師なし学習機構を用いて評価を行った。
How do humans distinguish between general categories of objects? In a number of se-mantic-category deficits, patients are good at making broad categorization but are un-able to remember fine and specific details. It has been well accepted that general in-formation about concepts is more robust to damages related to semantic memory. Re-sults from patients with semantic memory disorders demonstrate the loss of ability in subcategory recognition. In this paper, we review the behavioural evidence for cate-gory specific disorder and show that general categories of animal and plant are visual-ly distinguishable without processing textural information. To this aim, we utilize shape descriptors with an additional phase of feature learning. The results are evaluated with both supervised and unsupervised learning mechanisms and confirm that the proposed method can effectively discriminates between animal and plant object categories in visual domain. | 翻訳日:2024-07-25 20:17:42 公開日:2024-07-20 |
# マルチソース時空間データ、深層学習、組立モデル、移動学習による山火事予測の強化
Enhancing Wildfire Forecasting Through Multisource Spatio-Temporal Data, Deep Learning, Ensemble Models and Transfer Learning ( http://arxiv.org/abs/2407.15878v1 ) ライセンス: Link先を確認 | Ayoub Jadouli, Chaker El Amrani, | (参考訳) 本稿では,衛星データを含む多ソース時空間データの統合による山火事予測の新しい手法と深層学習手法の適用について述べる。
具体的には,移動学習アルゴリズムに基づくアンサンブルモデルを用いて山火事の予報を行う。
主要な焦点は、山火事の予報における気象シーケンス、人的活動、および特定の気象パラメータの重要性を理解することである。
この研究は、特にモロッコの森林地帯において、ネットワークのトレーニングのためのリアルタイムデータを取得する際の課題に直面している。
今後の研究は,多チャンネル,多次元,非形式的なデータソースを処理し,表面タイルの将来エントロピーの理解を深めるグローバルモデルを開発することを目的としている。
This paper presents a novel approach in wildfire prediction through the integration of multisource spatiotemporal data, including satellite data, and the application of deep learning techniques. Specifically, we utilize an ensemble model built on transfer learning algorithms to forecast wildfires. The key focus is on understanding the significance of weather sequences, human activities, and specific weather parameters in wildfire prediction. The study encounters challenges in acquiring real-time data for training the network, especially in Moroccan wildlands. The future work intends to develop a global model capable of processing multichannel, multidimensional, and unformatted data sources to enhance our understanding of the future entropy of surface tiles. | 翻訳日:2024-07-24 21:44:53 公開日:2024-07-20 |
# スマートグリッドにおける分散フェデレーション異常検出:P2Pゴシップアプローチ
Decentralized Federated Anomaly Detection in Smart Grids: A P2P Gossip Approach ( http://arxiv.org/abs/2407.15879v1 ) ライセンス: Link先を確認 | Muhammad Akbar Husnoo, Adnan Anwar, Md Enamul Haque, A. N. Mahmood, | (参考訳) スマートグリッドセクターにおけるセキュリティとプライバシの懸念が高まり、重要なスマートグリッドインフラストラクチャ内の堅牢な侵入検知システムに対する大きな需要がもたらされた。
プライバシ保護とデータオーナシップの分離による課題に対処するため、フェデレートラーニング(FL)は、生データの共有を必要とせずに、攻撃検出モデルの協調トレーニングを容易にする、有望なプライバシ保護ソリューションとして登場した。
しかし、FLは中央集権アグリゲータに大きく依存していることと、モデル更新送信時のプライバシリークのリスクにより、電力系統におけるいくつかの実装上の制限を提示する。
本稿では,これらの技術的ボトルネックを克服するために,ランダムウォークとエピデミックという2つの主要なゴシッププロトコルに基づく分散化フェデレーション異常検出手法を提案する。
その結果,ランダムウォークプロトコルはエピデミックプロトコルよりも優れた性能を示し,分散化されたフェデレート学習環境におけるその有効性を強調した。
市販の産業用制御システムデータセットを用いたフレームワークの実験的検証により,データ機密性を保護し,通信遅延やストラグラーの影響を軽減するとともに,攻撃検出精度が向上した。
さらに,本手法は従来のFLに比べて35%のトレーニング時間を向上し,分散学習法の有効性と堅牢性を実証した。
The increasing security and privacy concerns in the Smart Grid sector have led to a significant demand for robust intrusion detection systems within critical smart grid infrastructure. To address the challenges posed by privacy preservation and decentralized power system zones with distinct data ownership, Federated Learning (FL) has emerged as a promising privacy-preserving solution which facilitates collaborative training of attack detection models without necessitating the sharing of raw data. However, FL presents several implementation limitations in the power system domain due to its heavy reliance on a centralized aggregator and the risks of privacy leakage during model update transmission. To overcome these technical bottlenecks, this paper introduces a novel decentralized federated anomaly detection scheme based on two main gossip protocols namely Random Walk and Epidemic. Our findings indicate that the Random Walk protocol exhibits superior performance compared to the Epidemic protocol, highlighting its efficacy in decentralized federated learning environments. Experimental validation of the proposed framework utilizing publicly available industrial control systems datasets demonstrates superior attack detection accuracy while safeguarding data confidentiality and mitigating the impact of communication latency and stragglers. Furthermore, our approach yields a notable 35% improvement in training time compared to conventional FL, underscoring the efficacy and robustness of our decentralized learning method. | 翻訳日:2024-07-24 21:44:53 公開日:2024-07-20 |
# Diff4VS: 仮想スクリーニングのための分類誘導拡散を用いたHIV阻害分子生成
Diff4VS: HIV-inhibiting Molecules Generation with Classifier Guidance Diffusion for Virtual Screening ( http://arxiv.org/abs/2407.15880v1 ) ライセンス: Link先を確認 | Jiaqing Lyu, Changjie Chen, Bing Liang, Yijia Zhang, | (参考訳) エイズ流行で4000万人が死亡し、深刻な世界的な問題を引き起こした。
新しいHIV阻害分子の同定は、エイズ流行と戦う上で非常に重要である。
ここでは、分類誘導拡散モデルと配位子に基づく仮想スクリーニング戦略を組み合わせて、HIV阻害分子の発見を初めて行う。
これをDiff4VSと呼ぶ。
HIV分子データセットを用いて追加の分類器を訓練し、その分類器の勾配を利用して拡散を誘導してHIV阻害分子を生成する。
実験により、Diff4VSは他の方法よりも候補となるHIV阻害分子を生成できることが示されている。
リガンドベースの仮想スクリーニングにインスパイアされた新しい指標であるD薬インデックスが提案されている。
ドラッグインデックス(英: DrugIndex)は、生成分子中の候補薬物分子の割合と、トレーニングセット内の候補薬物分子の割合の比率である。
DrugIndexは、医薬品の観点から分子生成モデルを進化させる新しい評価方法を提供する。
さらに,仮想スクリーニングに分子生成モデルを用いた場合の新たな現象を報告する。
実際の分子と比較すると、生成分子は既知の薬物分子と非常に類似した割合が低い。
これを分子生成における分解と呼ぶ。
データ解析に基づいて、分解は生成モデルにおいて特定の構造を持つ分子を生成するのが困難であることから生じる可能性がある。
本研究は,薬物設計における生成モデルの適用に寄与する。
The AIDS epidemic has killed 40 million people and caused serious global problems. The identification of new HIV-inhibiting molecules is of great importance for combating the AIDS epidemic. Here, the Classifier Guidance Diffusion model and ligand-based virtual screening strategy are combined to discover potential HIV-inhibiting molecules for the first time. We call it Diff4VS. An extra classifier is trained using the HIV molecule dataset, and the gradient of the classifier is used to guide the Diffusion to generate HIV-inhibiting molecules. Experiments show that Diff4VS can generate more candidate HIV-inhibiting molecules than other methods. Inspired by ligand-based virtual screening, a new metric DrugIndex is proposed. The DrugIndex is the ratio of the proportion of candidate drug molecules in the generated molecule to the proportion of candidate drug molecules in the training set. DrugIndex provides a new evaluation method for evolving molecular generative models from a pharmaceutical perspective. Besides, we report a new phenomenon observed when using molecule generation models for virtual screening. Compared to real molecules, the generated molecules have a lower proportion that is highly similar to known drug molecules. We call it Degradation in molecule generation. Based on the data analysis, the Degradation may result from the difficulty of generating molecules with a specific structure in the generative model. Our research contributes to the application of generative models in drug design from method, metric, and phenomenon analysis. | 翻訳日:2024-07-24 21:44:53 公開日:2024-07-20 |
# 不均一な戦略エージェント間の平均値推定のためのデータ共有
Data Sharing for Mean Estimation Among Heterogeneous Strategic Agents ( http://arxiv.org/abs/2407.15881v1 ) ライセンス: Link先を確認 | Alex Clinton, Yiding Chen, Xiaojin Zhu, Kirthevasan Kandasamy, | (参考訳) 通常の分布からサンプルを収集することにより,$m$エージェントがベクトル$\mu\in\mathbb{R}^d$を推定する協調学習問題を,$k^{\text{th}}$ distribution$\mathcal{N}(\mu_k, \sigma^2)$から,コスト$c_{i,k} \in (0, \infty]$からサンプルを得るために,各エージェント$i$を用いて検討する。
独自の作業を行う代わりに、エージェントはコストの安いデータを収集し、それと引き換えに他のデータと共有することができる。
しかしながら、エージェントが異なるコレクションコストを持つ場合には、まず、すべてのエージェントに利益をもたらすために、データコレクションの作業を適切に分割する方法を決定する必要があります。
さらに、ナイーブな共有プロトコルでは、戦略的エージェントはデータの収集や作成を過小評価し、社会的に望ましくない結果をもたらす可能性がある。
本機構は,協調ゲーム理論と非協調ゲーム理論のアイデアを組み合わせることで,これらの課題に対処する。
私たちは、データ収集のコストを分配するために、公理交渉のアイデアを使用します。
このようなソリューションを前提として、真に報告を強制するためのNashインセンティブ互換(NIC)メカニズムを開発する。
我々は、最悪の場合、最小限の社会的ペナルティ(エージェント推定エラーとデータ収集コストの仮定)に対する$\mathcal{O}(\sqrt{m})$近似と、好ましい条件下での$\mathcal{O}(1)$近似を達成する。
我々はこれをハードネスの結果で補完し、$\Omega(\sqrt{m})$が任意のNICメカニズムでは避けられないことを示す。
We study a collaborative learning problem where $m$ agents estimate a vector $\mu\in\mathbb{R}^d$ by collecting samples from normal distributions, with each agent $i$ incurring a cost $c_{i,k} \in (0, \infty]$ to sample from the $k^{\text{th}}$ distribution $\mathcal{N}(\mu_k, \sigma^2)$. Instead of working on their own, agents can collect data that is cheap to them, and share it with others in exchange for data that is expensive or even inaccessible to them, thereby simultaneously reducing data collection costs and estimation error. However, when agents have different collection costs, we need to first decide how to fairly divide the work of data collection so as to benefit all agents. Moreover, in naive sharing protocols, strategic agents may under-collect and/or fabricate data, leading to socially undesirable outcomes. Our mechanism addresses these challenges by combining ideas from cooperative and non-cooperative game theory. We use ideas from axiomatic bargaining to divide the cost of data collection. Given such a solution, we develop a Nash incentive-compatible (NIC) mechanism to enforce truthful reporting. We achieve a $\mathcal{O}(\sqrt{m})$ approximation to the minimum social penalty (sum of agent estimation errors and data collection costs) in the worst case, and a $\mathcal{O}(1)$ approximation under favorable conditions. We complement this with a hardness result, showing that $\Omega(\sqrt{m})$ is unavoidable in any NIC mechanism. | 翻訳日:2024-07-24 21:44:53 公開日:2024-07-20 |
# オーストラリアの気候極端における深層学習モデルの評価--河川流と洪水の予測
Evaluation of deep learning models for Australian climate extremes: prediction of streamflow and floods ( http://arxiv.org/abs/2407.15882v1 ) ライセンス: Link先を確認 | Siddharth Khedkar, R. Willem Vervoort, Rohitash Chandra, | (参考訳) 近年、洪水のような気候の極端はオーストラリアにとって重要な環境と経済の危険をもたらし、環境と経済に損害を与え、人間や動物の生活が失われた。
この被害を抑えるため、洪水の効率的な予測方法が不可欠である。
洪水予測技術は現在、水文学、流体力学(物理モデル)の数値モデルに基づいている。
ディープラーニングを含む機械学習手法は、柔軟性や正確性など、従来の物理的アプローチよりも一定の利点がある。
深層学習手法は、短時間で小規模から中規模の極端なイベントを予測できると約束されてきたが、大規模な洪水は重要な課題である。
本研究では,長期記憶(LSTM)深層学習モデルに対する極値理論を動機としたスイッチング機構を用いて,大規模な極端な浸水問題に対処するアンサンブルベースの機械学習手法を提案する。
我々は,多変量および多段階の時系列予測手法を用いて,オーストラリアの主要漁獲量において,数日間にわたってストリームフローを予測する。
アンサンブルフレームワークはまた、静的情報を使用して時系列情報を強化し、キャッチメントをまたいだ地域モデリングを可能にする。
以上の結果から,選抜されたオーストラリア漁獲地の大規模な洪水シナリオに顕著な有効性を示すとともに,河川流出極端の予測の高度化が示された。
比較分析により,深層学習モデルが様々な地域での洪水予測に革命をもたらす可能性を明らかにした。
In recent years, climate extremes such as floods have created significant environmental and economic hazards for Australia, causing damage to the environment and economy and losses of human and animal lives. An efficient method of forecasting floods is crucial to limit this damage. Techniques for flood prediction are currently based on hydrological, and hydrodynamic (physically-based) numerical models. Machine learning methods that include deep learning offer certain advantages over conventional physically based approaches, including flexibility and accuracy. Deep learning methods have been promising for predicting small to medium-sized climate extreme events over a short time horizon; however, large flooding events present a critical challenge. We present an ensemble-based machine learning approach that addresses large-scale extreme flooding challenges using a switching mechanism motivated by extreme-value theory for long-short-term-memory (LSTM) deep learning models. We use a multivariate and multi-step time-series prediction approach to predict streamflow for multiple days ahead in the major catchments of Australia. The ensemble framework also employs static information to enrich the time-series information, allowing for regional modelling across catchments. Our results demonstrate enhanced prediction of streamflow extremes, with notable efficacy for large flooding scenarios in the selected Australian catchments. Through comparative analysis, our methodology underscores the potential for deep learning models to revolutionise flood forecasting across diverse regions. | 翻訳日:2024-07-24 21:44:53 公開日:2024-07-20 |
# 学習率カリキュラム
Learning Rate Curriculum ( http://arxiv.org/abs/2205.09180v4 ) ライセンス: Link先を確認 | Florinel-Alin Croitoru, Nicolae-Catalin Ristea, Radu Tudor Ionescu, Nicu Sebe, | (参考訳) ほとんどのカリキュラム学習手法は、データサンプルを困難にソートするアプローチを必要とする。
本研究では,ニューラルネットワークの各層に異なる学習率を用いることで,初等訓練期間中にデータに依存しないカリキュラムを作成する,LeRaC(Learning Rate Curriculum)と呼ばれる新しいカリキュラム学習手法を提案する。
より具体的には、LeRaCは入力に近いニューラルネットワーク層に高い学習率を割り当て、層が入力から遠くに配置されているため、学習率が徐々に低下する。
学習率は、最初のトレーニングイテレーションで、すべて同じ値に達するまで、さまざまなペースで増加する。
この点から、ニューラルモデルは通常のように訓練される。
これにより、モデルレベルのカリキュラム学習戦略が作成され、難易度でサンプルをソートする必要がなく、どのニューラルネットワークとも互換性があり、アーキテクチャに関係なく高いパフォーマンスレベルが生成される。
コンピュータビジョン (CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet-200, Food-101, UTKFace, PASCAL VOC), Language (BoolQ, QNLI, RTE) および Audio (ESC-50, CREMA-D) ドメインから,様々な畳み込み (ResNet-18, Wide-ResNet-50, DenseNet-121, YOLOv5), recurrent (LSTM) およびtransformer (CvT, BERT, SepTr) アーキテクチャを考慮し, コンピュータビジョンから12つのデータセットを総合的に実験した。
我々は,従来の研修制度と,最新のデータに依存しないカリキュラム学習手法であるSmoothing(CBS)によるカリキュラムとの比較を行った。
CBSとは違って、標準的なトレーニングシステムに対するパフォーマンス改善は、すべてのデータセットとモデルで一貫しています。
さらに、トレーニング時間という点ではCBSをはるかに上回りました(LeRaCの標準トレーニング体制には追加費用はありません)。
私たちのコードは、https://github.com/CroitoruAlin/LeRaC.comで無料で利用可能です。
Most curriculum learning methods require an approach to sort the data samples by difficulty, which is often cumbersome to perform. In this work, we propose a novel curriculum learning approach termed Learning Rate Curriculum (LeRaC), which leverages the use of a different learning rate for each layer of a neural network to create a data-agnostic curriculum during the initial training epochs. More specifically, LeRaC assigns higher learning rates to neural layers closer to the input, gradually decreasing the learning rates as the layers are placed farther away from the input. The learning rates increase at various paces during the first training iterations, until they all reach the same value. From this point on, the neural model is trained as usual. This creates a model-level curriculum learning strategy that does not require sorting the examples by difficulty and is compatible with any neural network, generating higher performance levels regardless of the architecture. We conduct comprehensive experiments on 12 data sets from the computer vision (CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet-200, Food-101, UTKFace, PASCAL VOC), language (BoolQ, QNLI, RTE) and audio (ESC-50, CREMA-D) domains, considering various convolutional (ResNet-18, Wide-ResNet-50, DenseNet-121, YOLOv5), recurrent (LSTM) and transformer (CvT, BERT, SepTr) architectures. We compare our approach with the conventional training regime, as well as with Curriculum by Smoothing (CBS), a state-of-the-art data-agnostic curriculum learning approach. Unlike CBS, our performance improvements over the standard training regime are consistent across all data sets and models. Furthermore, we significantly surpass CBS in terms of training time (there is no additional cost over the standard training regime for LeRaC). Our code is freely available at: https://github.com/CroitoruAlin/LeRaC. | 翻訳日:2024-07-24 06:25:22 公開日:2024-07-20 |
# 量子コンピュータにおける連続電位のギブズサンプリング
Gibbs Sampling of Continuous Potentials on a Quantum Computer ( http://arxiv.org/abs/2210.08104v4 ) ライセンス: Link先を確認 | Arsalan Motamedi, Pooya Ronagh, | (参考訳) 連続実数値関数からギブをサンプリングすることは機械学習にとって難しい問題である。
ここでは、関数が周期的であるとき、量子フーリエ変換を利用して、このタスクのための量子アルゴリズムを構築する。
線形常微分方程式を解くために量子アルゴリズムを用いて、フォッカー・プランク方程式を解き、ギブス分布を符号化する量子状態を作成する。
量子コンピュータ上でのこれらの関数の補間と微分の効率は、関数のフーリエ変換のフーリエ係数の崩壊率に依存することを示す。
この性質をフーリエ領域における測度集中とみなし、その機能解析条件を提供する。
我々のアルゴリズムは、関数の量子オラクルに対するゼロエスオーダークエリを生成する。
指数的に長い混合時間に悩まされているにもかかわらず、このアルゴリズムはサンプリングにおける精度を指数関数的に改善し、一般の場合、特にエネルギー関数の臨界点を同定する幾何学的条件において平均推定における多項式量子スピードアップを可能にする。
Gibbs sampling from continuous real-valued functions is a challenging problem of interest in machine learning. Here we leverage quantum Fourier transforms to build a quantum algorithm for this task when the function is periodic. We use the quantum algorithms for solving linear ordinary differential equations to solve the Fokker--Planck equation and prepare a quantum state encoding the Gibbs distribution. We show that the efficiency of interpolation and differentiation of these functions on a quantum computer depends on the rate of decay of the Fourier coefficients of the Fourier transform of the function. We view this property as a concentration of measure in the Fourier domain, and also provide functional analytic conditions for it. Our algorithm makes zeroeth order queries to a quantum oracle of the function. Despite suffering from an exponentially long mixing time, this algorithm allows for exponentially improved precision in sampling, and polynomial quantum speedups in mean estimation in the general case, and particularly under geometric conditions we identify for the critical points of the energy function. | 翻訳日:2024-07-24 06:15:59 公開日:2024-07-20 |
# ジェネレーション・アンド・テストによる補助的タスク発見
Auxiliary task discovery through generate-and-test ( http://arxiv.org/abs/2210.14361v2 ) ライセンス: Link先を確認 | Banafsheh Rafiee, Sina Ghiassian, Jun Jin, Richard Sutton, Jun Luo, Adam White, | (参考訳) 本稿では,表現学習のアイデアに基づく強化学習における補助的タスク発見へのアプローチについて検討する。
補助的なタスクは、報酬を最大化する主なタスクに加えて、エージェントに補助的な予測と制御目的を学習させ、より良い表現を生み出すことで、データ効率を改善する傾向にある。
通常、これらのタスクは人によって設計されます。
メタラーニングは、自動タスク発見のための有望な道を提供するが、これらの手法は計算に高価であり、実際にチューニングすることは困難である。
本稿では,新しいタスクを継続的に生成し,高機能なタスクのみを保存する,補助タスク発見のための補完的アプローチについて検討する。
また,これらの特徴が主課題にどの程度有用であるかに基づいた,補助課題の有用性の新たな尺度も導入する。
我々の発見アルゴリズムは,一組の環境において,補助的なタスクを使わずに,ランダムなタスクや学習を著しく上回っている。
In this paper, we explore an approach to auxiliary task discovery in reinforcement learning based on ideas from representation learning. Auxiliary tasks tend to improve data efficiency by forcing the agent to learn auxiliary prediction and control objectives in addition to the main task of maximizing reward, and thus producing better representations. Typically these tasks are designed by people. Meta-learning offers a promising avenue for automatic task discovery; however, these methods are computationally expensive and challenging to tune in practice. In this paper, we explore a complementary approach to the auxiliary task discovery: continually generating new auxiliary tasks and preserving only those with high utility. We also introduce a new measure of auxiliary tasks' usefulness based on how useful the features induced by them are for the main task. Our discovery algorithm significantly outperforms random tasks and learning without auxiliary tasks across a suite of environments. | 翻訳日:2024-07-24 06:15:59 公開日:2024-07-20 |
# DifFace:Diffused Error Contractionによるブラインド顔修復
DifFace: Blind Face Restoration with Diffused Error Contraction ( http://arxiv.org/abs/2212.06512v4 ) ライセンス: Link先を確認 | Zongsheng Yue, Chen Change Loy, | (参考訳) 深層学習に基づくブラインドフェイス修復法は前例のない成功を収めたが、それでも2つの大きな限界に悩まされている。
まず、トレーニングデータから複雑な劣化に直面すると、そのほとんどが劣化します。
第二に、これらの手法には複数の制約(例えば、忠実性、知覚的、敵対的損失)が必要である。
本研究では,複雑な損失設計を伴わずに,目に見えない複雑な劣化に対処できるDifFaceという新しい手法を提案する。
提案手法の鍵となるのは,観測された低品質(LQ)画像から高品質(HQ)画像への後部分布を確立することである。
特に、LQ画像から事前学習拡散モデルの中間状態への遷移分布を設計し、この中間状態から徐々にHQターゲットへ、事前学習拡散モデルを再帰的に適用して伝達する。
遷移分布は、いくつかの合成データに対して$L_2$の損失でトレーニングされた復元バックボーンにのみ依存する。
さらに、遷移分布は復元バックボーンの誤差を縮小し、未知の劣化に対して我々の手法をより堅牢にすることができる。
総合的な実験により、DifFaceは最先端の手法よりも優れていることが示される。
コードとモデルはhttps://github.com/zsyOAOA/DifFace.comで入手できる。
While deep learning-based methods for blind face restoration have achieved unprecedented success, they still suffer from two major limitations. First, most of them deteriorate when facing complex degradations out of their training data. Second, these methods require multiple constraints, e.g., fidelity, perceptual, and adversarial losses, which require laborious hyper-parameter tuning to stabilize and balance their influences. In this work, we propose a novel method named DifFace that is capable of coping with unseen and complex degradations more gracefully without complicated loss designs. The key of our method is to establish a posterior distribution from the observed low-quality (LQ) image to its high-quality (HQ) counterpart. In particular, we design a transition distribution from the LQ image to the intermediate state of a pre-trained diffusion model and then gradually transmit from this intermediate state to the HQ target by recursively applying a pre-trained diffusion model. The transition distribution only relies on a restoration backbone that is trained with $L_2$ loss on some synthetic data, which favorably avoids the cumbersome training process in existing methods. Moreover, the transition distribution can contract the error of the restoration backbone and thus makes our method more robust to unknown degradations. Comprehensive experiments show that DifFace is superior to current state-of-the-art methods, especially in cases with severe degradations. Code and model are available at https://github.com/zsyOAOA/DifFace. | 翻訳日:2024-07-24 06:15:59 公開日:2024-07-20 |
# ニューロシンボリックコンピューティングのためのセマンティックフレームワーク
A Semantic Framework for Neuro-Symbolic Computing ( http://arxiv.org/abs/2212.12050v4 ) ライセンス: Link先を確認 | Simon Odense, Artur d'Avila Garcez, | (参考訳) ニューロシンボリックAIの分野は、ニューラルネットワークとシンボリックシステムの組み合わせの恩恵を受けることを目的としている。
この分野の基盤は、記号的知識のニューラルネットワークへの翻訳または符号化である。
長年にわたり多くのニューロシンボリック法やアプローチが提案されてきたが、近年ではコード化の一般的な定義は存在せず、ニューロシンボリック法を正確に理論的に比較することが可能である。
本稿では,ニューロシンボリックAIのセマンティックフレームワークを導入することでこの問題に対処する。
まずセマンティックエンコーディングの形式的定義を提供し、ニューラルネットワークによって知識ベースを正しくエンコードできるコンポーネントと条件を指定する。
そして、この定義によって多くのニューロシンボリックアプローチが説明されることを示す。
本稿では,様々な形態の知識表現のニューラルエンコーディングへのフレームワークの適用例と対応証明について述べる。
当初、多くの異なるニューロシンボリックな方法が提案された形式化に該当することが示されている。
これは、既存のニューロシンボリックシステムの全ファミリーのセマンティックエンコーディングのより広い文脈に配置することで、将来のニューロシンボリックエンコーディングへのガイダンスを提供することが期待されている。
この論文は、ニューロシンボリックAIの理論と深層学習のセマンティクスの提供に関する議論を始めるのに役立つと期待されている。
The field of neuro-symbolic AI aims to benefit from the combination of neural networks and symbolic systems. A cornerstone of the field is the translation or encoding of symbolic knowledge into neural networks. Although many neuro-symbolic methods and approaches have been proposed throughout the years, and with an large increase in recent years, no common definition of encoding exists that can enable a precise, theoretical comparison of neuro-symbolic methods. This paper addresses this problem by introducing a semantic framework for neuro-symbolic AI. We start by providing a formal definition of semantic encoding, specifying the components and conditions under which a knowledge-base can be encoded correctly by a neural network. We then show that many neuro-symbolic approaches are accounted for by this definition. We provide a number of examples and correspondence proofs of the application of the proposed framework to the neural encoding of various forms of knowledge representation. Many, at first sight disparate, neuro-symbolic methods, are shown to fall within the proposed formalization. This is expected to provide a guidance to future neuro-symbolic encodings by placing them in the broader context of the semantic encoding of entire families of existing neuro-symbolic systems. The paper is hoped to help initiate a discussion around the provision of a theory for neuro-symbolic AI and a semantics for deep learning. | 翻訳日:2024-07-24 06:15:59 公開日:2024-07-20 |
# 従来の可読性公式と英語の比較
Traditional Readability Formulas Compared for English ( http://arxiv.org/abs/2301.02975v3 ) ライセンス: Link先を確認 | Bruce W. Lee, Jason Hyung-Jong Lee, | (参考訳) 伝統的な英語の可読性の公式(方程式)は、主に20世紀に開発された。
それでも、多くの研究者が様々なNLPアプリケーションに頼っている。
この現象は、可読性の公式の利便性と単純さに起因すると考えられる。
本研究ではNLPコミュニティに貢献する。
1.新英語可読性公式(NERF)の導入
2. 旧可読性式(フレッシュ・キンケイド級、フォッグ指数、SMOG指数、コールマン・リオー指数、自動可読性指数)の係数の補正
3 可読性式の評価、簡易化研究及び医用テキストにおける使用、及び
さまざまなNLPプロジェクトに広く適用するためのPythonベースのプログラムの開発。
Traditional English readability formulas, or equations, were largely developed in the 20th century. Nonetheless, many researchers still rely on them for various NLP applications. This phenomenon is presumably due to the convenience and straightforwardness of readability formulas. In this work, we contribute to the NLP community by 1. introducing New English Readability Formula (NERF), 2. recalibrating the coefficients of old readability formulas (Flesch-Kincaid Grade Level, Fog Index, SMOG Index, Coleman-Liau Index, and Automated Readability Index), 3. evaluating the readability formulas, for use in text simplification studies and medical texts, and 4. developing a Python-based program for the wide application to various NLP projects. | 翻訳日:2024-07-24 06:15:59 公開日:2024-07-20 |
# 二次正則化と Davis-Yin 分割による整数線形プログラムの微分
Differentiating Through Integer Linear Programs with Quadratic Regularization and Davis-Yin Splitting ( http://arxiv.org/abs/2301.13395v4 ) ライセンス: Link先を確認 | Daniel McKenzie, Samy Wu Fung, Howard Heaton, | (参考訳) 多くの応用において、組合せ問題は類似しているが異なるパラメータで繰り返し解決されなければならない。
しかし、パラメータ$w$は直接観測されておらず、$w$と相関するコンテキストデータ$d$のみが利用可能である。
ニューラルネットワークを使って$d$の$w$を予測する傾向があります。
しかし、そのようなモデルをトレーニングするには、ニューラルネットワークのトレーニングに使用される勾配ベースのフレームワークと組み合わせ最適化の離散的な性質を調整する必要がある。
Integer Linear Program (ILP) が問題となる場合について検討する。
ILPの4次正規化連続緩和に対して,DYS(Davis-Yin splitting)と呼ばれる三元分割法を適用することを提案する。
得られたスキームは、最近導入されたヤコビ自由バックプロパゲーション(JFB)と互換性があることを証明する。
最短経路問題とクナップサック問題という2つの代表的なICPに関する実験により, この前方パス上の組み合わせ-DYS, 後方パス上のJFBは, 既存のスキームよりも高次元問題に対してより効果的にスケールするスキームを示す。
この論文に関連するすべてのコードはgithub.com/mines-opt-ml/fpo-dysで入手できる。
In many applications, a combinatorial problem must be repeatedly solved with similar, but distinct parameters. Yet, the parameters $w$ are not directly observed; only contextual data $d$ that correlates with $w$ is available. It is tempting to use a neural network to predict $w$ given $d$. However, training such a model requires reconciling the discrete nature of combinatorial optimization with the gradient-based frameworks used to train neural networks. We study the case where the problem in question is an Integer Linear Program (ILP). We propose applying a three-operator splitting technique, also known as Davis-Yin splitting (DYS), to the quadratically regularized continuous relaxation of the ILP. We prove that the resulting scheme is compatible with the recently introduced Jacobian-free backpropagation (JFB). Our experiments on two representative ILPs: the shortest path problem and the knapsack problem, demonstrate that this combination-DYS on the forward pass, JFB on the backward pass-yields a scheme which scales more effectively to high-dimensional problems than existing schemes. All code associated with this paper is available at github.com/mines-opt-ml/fpo-dys. | 翻訳日:2024-07-24 06:06:15 公開日:2024-07-20 |
# 報酬の読み書き:指導マニュアルの助けを借りてアタリを弾くことを学ぶ
Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals ( http://arxiv.org/abs/2302.04449v4 ) ライセンス: Link先を確認 | Yue Wu, Yewen Fan, Paul Pu Liang, Amos Azaria, Yuanzhi Li, Tom M. Mitchell, | (参考訳) 高いサンプルの複雑さは、長い間RLにとって課題だった。
一方、人間は対話やデモンストレーションだけでなく、非構造化のテキスト文書、例えば指導マニュアルを読むことでタスクを実行することを学ぶ。
インストラクションマニュアルとwikiページは、貴重な特徴やポリシー、タスク固有の環境ダイナミクスや報酬構造をエージェントに知らせることのできる、最も豊富なデータである。
そこで本研究では,人手による指導マニュアルを活用すれば,特定のタスクの学習方針を支援する能力が,より効率的かつ優れたエージェントに繋がるのではないか,という仮説を立てる。
我々はRead and Rewardフレームワークを提案する。
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
本フレームワークは,手動から関連情報を抽出・要約するQA抽出モジュールと,手動からの情報に基づいてオブジェクトとエージェントのインタラクションを評価するReasoningモジュールとから構成される。
そして、相互作用を検出すると、標準A2C RL剤に補助報酬が付与される。
実験により,RLアルゴリズムは設計支援時の性能と訓練速度を大幅に向上させることができた。
High sample complexity has long been a challenge for RL. On the other hand, humans learn to perform tasks not only from interaction or demonstrations, but also by reading unstructured text documents, e.g., instruction manuals. Instruction manuals and wiki pages are among the most abundant data that could inform agents of valuable features and policies or task-specific environmental dynamics and reward structures. Therefore, we hypothesize that the ability to utilize human-written instruction manuals to assist learning policies for specific tasks should lead to a more efficient and better-performing agent. We propose the Read and Reward framework. Read and Reward speeds up RL algorithms on Atari games by reading manuals released by the Atari game developers. Our framework consists of a QA Extraction module that extracts and summarizes relevant information from the manual and a Reasoning module that evaluates object-agent interactions based on information from the manual. An auxiliary reward is then provided to a standard A2C RL agent, when interaction is detected. Experimentally, various RL algorithms obtain significant improvement in performance and training speed when assisted by our design. | 翻訳日:2024-07-24 06:06:15 公開日:2024-07-20 |
# スムースおよび/または強凸集合上のゲージと加速度最適化
Gauges and Accelerated Optimization over Smooth and/or Strongly Convex Sets ( http://arxiv.org/abs/2303.05037v3 ) ライセンス: Link先を確認 | Ning Liu, Benjamin Grimmer, | (参考訳) 我々は、滑らかかつ/または強い凸集合上で定義される実現可能性および制約付き最適化問題を考察する。
これらの概念は一般的な関数を反映しているが、一階最適化の文献では明らかに研究されていない。
これらの設定において,新しい拡張性,プロジェクションフリー,アクセラレーションファーストオーダー手法を提案する。
提案手法は,安価な一次元線形探索と正規ベクトル計算のみを用い,線形最適化や射影オラクルを回避している。
これにもかかわらず、強い凸問題に対して$O(1/T)$、滑らかな問題に対して$O(1/T^2)$、両方の問題に対して$O(1/T^2)$の最適加速収束保証を導出する。
我々のアルゴリズムと解析は、滑らかかつ/または強凸集合のミンコフスキーゲージの新規な特徴づけに基づいており、これは独立な興味を持つかもしれない。
We consider feasibility and constrained optimization problems defined over smooth and/or strongly convex sets. These notions mirror their popular function counterparts but are much less explored in the first-order optimization literature. We propose new scalable, projection-free, accelerated first-order methods in these settings. Our methods avoid linear optimization or projection oracles, only using cheap one-dimensional linesearches and normal vector computations. Despite this, we derive optimal accelerated convergence guarantees of $O(1/T)$ for strongly convex problems, $O(1/T^2)$ for smooth problems, and accelerated linear convergence given both. Our algorithms and analysis are based on novel characterizations of the Minkowski gauge of smooth and/or strongly convex sets, which may be of independent interest: although the gauge is neither smooth nor strongly convex, we show the gauge squared inherits any structure present in the set. | 翻訳日:2024-07-24 06:06:15 公開日:2024-07-20 |
# アクティブサンプリングを用いた病理組織学におけるデータ効率の良いコントラスト学習
Data Efficient Contrastive Learning in Histopathology using Active Sampling ( http://arxiv.org/abs/2303.16247v4 ) ライセンス: Link先を確認 | Tahsin Reasat, Asif Sushmit, David S. Smith, | (参考訳) 深層学習(DL)に基づく診断システムは、デジタル病理学において正確で堅牢な定量的分析を提供することができる。
これらのアルゴリズムは、病理組織像の高分解能のため、病理学では実用的でない大量の注釈付きトレーニングデータを必要とする。
そこで,アドホックなプレテキストタスクを用いて特徴を学習する自己教師型手法が提案されている。
自己教師型トレーニングプロセスは、学習プロセスに時間を要するような、ラベルなしの大きなデータセットを使用する。
そこで本研究では,従来の自己教師型学習手法と同じ性能を維持しつつ,小さなプロキシネットワークを用いて学習セットから情報的メンバーを積極的に抽出し,サンプル要求を93%削減し,トレーニング時間を62%削減する手法を提案する。
コードはhttps://github.com/Reasat/data_efficient_clで公開されている。
Deep learning (DL) based diagnostics systems can provide accurate and robust quantitative analysis in digital pathology. These algorithms require large amounts of annotated training data which is impractical in pathology due to the high resolution of histopathological images. Hence, self-supervised methods have been proposed to learn features using ad-hoc pretext tasks. The self-supervised training process uses a large unlabeled dataset which makes the learning process time consuming. In this work, we propose a new method for actively sampling informative members from the training set using a small proxy network, decreasing sample requirement by 93% and training time by 62% while maintaining the same performance of the traditional self-supervised learning method. The code is available on https://github.com/Reasat/data_efficient_cl | 翻訳日:2024-07-24 06:06:15 公開日:2024-07-20 |
# リアクティブIn situ可視化のための分散ニューラル表現
Distributed Neural Representation for Reactive in situ Visualization ( http://arxiv.org/abs/2304.10516v2 ) ライセンス: Link先を確認 | Qi Wu, Joseph A. Insley, Victor A. Mateevitsi, Silvio Rizzi, Michael E. Papka, Kwan-Liu Ma, | (参考訳) Inlicit Neural representations (INR) は、大規模ボリュームデータを圧縮するための強力なツールとして登場した。
これにより、in situビジュアライゼーションの新たな可能性が開ける。
しかし、分散データに対するINRの効率的な適用は未探索領域のままである。
本研究では,分散ボリュームニューラル表現を開発し,それをその場での可視化のために最適化する。
我々の技術はプロセス間のデータ交換を排除し、最先端の圧縮速度、品質、比率を達成する。
また, 大規模シミュレーションデータを高時間周波数でキャッシュする効率的な手法の実装も可能であり, より広い範囲の科学的問題において, リアクティブ・インサイト・ビジュアライゼーションの活用が促進される。
本稿では,このシステムをAscentインフラストラクチャと統合し,実世界のシミュレーションを用いてその性能とユーザビリティを評価する。
Implicit neural representations (INRs) have emerged as a powerful tool for compressing large-scale volume data. This opens up new possibilities for in situ visualization. However, the efficient application of INRs to distributed data remains an underexplored area. In this work, we develop a distributed volumetric neural representation and optimize it for in situ visualization. Our technique eliminates data exchanges between processes, achieving state-of-the-art compression speed, quality and ratios. Our technique also enables the implementation of an efficient strategy for caching large-scale simulation data in high temporal frequencies, further facilitating the use of reactive in situ visualization in a wider range of scientific problems. We integrate this system with the Ascent infrastructure and evaluate its performance and usability using real-world simulations. | 翻訳日:2024-07-24 06:06:15 公開日:2024-07-20 |
# タグ付きバイナリから可変名を取得するためのシンボル選好モデル
Symbol Preference Aware Generative Models for Recovering Variable Names from Stripped Binary ( http://arxiv.org/abs/2306.02546v3 ) ライセンス: Link先を確認 | Xiangzhe Xu, Zhuo Zhang, Zian Su, Ziyang Huang, Shiwei Feng, Yapeng Ye, Nan Jiang, Danning Xie, Siyuan Cheng, Lin Tan, Xiangyu Zhang, | (参考訳) Decompilationはバイナリ実行ファイルのソースコード形式を復元することを目的としている。
マルウェア分析、脆弱性検出、コードのハードニングなど、多くのセキュリティアプリケーションがある。
逆コンパイルにおける顕著な課題は、変数名を復元することである。
本稿では,モデルバイアスと潜在的幻覚を緩和しながら生成モデルの強みを利用する新しい手法を提案する。
我々は、事前訓練された生成モデルCodeGemma-2BとCodeLlama-7BのプロトタイプGenNmを構築した。
我々は、デコンパイルされた関数にGenNmを微調整し、トレーニングパイプラインにシンボルの好みを取り入れることでモデルバイアスを軽減する。
GenNmには関数のクエリ中に呼び出し元や呼び出し元の名前が含まれており、モデルの入力トークン制限内でリッチなコンテキスト情報を提供する。
さらに、プログラム解析を活用して、生成モデルによって生成された名前の一貫性を検証する。
この結果から、GenNmは2つの一般的なデータセットで8.6と11.4ポイントの精度向上を実現し、トレーニングデータセットに基調変数が見られない最も困難なセットアップでは8.5%から22.8%に改善した。
Decompilation aims to recover the source code form of a binary executable. It has many security applications such as malware analysis, vulnerability detection and code hardening. A prominent challenge in decompilation is to recover variable names. We propose a novel technique that leverages the strengths of generative models while mitigating model biases and potential hallucinations. We build a prototype, GenNm, from pre-trained generative models CodeGemma-2B and CodeLlama-7B. We finetune GenNm on decompiled functions, and mitigate model biases by incorporating symbol preference to the training pipeline. GenNm includes names from callers and callees while querying a function, providing rich contextual information within the model's input token limitation. It further leverages program analysis to validate the consistency of names produced by the generative model. Our results show that GenNm improves the state-of-the-art name recovery accuracy by 8.6 and 11.4 percentage points on two commonly used datasets, and improves the state-of-the-art from 8.5% to 22.8% in the most challenging setup where ground-truth variable names are not seen in the training dataset. | 翻訳日:2024-07-24 05:56:27 公開日:2024-07-20 |
# スピン軌道結合二重量子ドットの分類とマジック磁場方向
Classification and magic magnetic-field directions for spin-orbit-coupled double quantum dots ( http://arxiv.org/abs/2307.02958v2 ) ライセンス: Link先を確認 | Aritra Sen, György Frank, Baksa Kolok, Jeroen Danon, András Pályi, | (参考訳) 半導体量子ドットに閉じ込められた単一電子のスピンは、自然な量子ビット候補である。
スピンベースの量子コンピューティングの基本的な構築ブロックは、スピン軌道結合が著しい二重量子ドットで実証されている。
ここでは、スピン軌道結合された二重量子ドットが、それらの$g$-tensorsの多次元空間の分割に従って、6つのクラスに分類できることを示す。
このクラスは二重点の物理的特性、すなわち輸送、分光、コヒーレンス測定の特徴、および量子ビット制御、シャットリング、読み出し実験を決定づける。
特に、外部磁場が特別な方向(「磁気方向」)を指している場合、スピン物理は擬似スピン保存により高度に単純化されていると予測する。
また,等局所ゼーマン分割に対応する磁場方向空間におけるマジックループの存在と関連性を解析した。
これらの結果は、強いスピン軌道結合を持つ材料におけるスピンベースの量子コンピューティング実験の正確な解釈と効率的な設計に向けた重要なステップを示す。
The spin of a single electron confined in a semiconductor quantum dot is a natural qubit candidate. Fundamental building blocks of spin-based quantum computing have been demonstrated in double quantum dots with significant spin-orbit coupling. Here, we show that spin-orbit-coupled double quantum dots can be categorised in six classes, according to a partitioning of the multi-dimensional space of their $g$-tensors. The class determines physical characteristics of the double dot, i.e., features in transport, spectroscopy and coherence measurements, as well as qubit control, shuttling, and readout experiments. In particular, we predict that the spin physics is highly simplified due to pseudospin conservation, whenever the external magnetic field is pointing to special directions (`magic directions'), where the number of special directions is determined by the class. We also analyze the existence and relevance of magic loops in the space of magnetic-field directions, corresponding to equal local Zeeman splittings. These results present an important step toward precise interpretation and efficient design of spin-based quantum computing experiments in materials with strong spin-orbit coupling. | 翻訳日:2024-07-24 05:46:42 公開日:2024-07-20 |
# VITS : 文脈的包帯に対する変分推論トンプソンサンプリング
VITS : Variational Inference Thompson Sampling for contextual bandits ( http://arxiv.org/abs/2307.10167v4 ) ライセンス: Link先を確認 | Pierre Clavier, Tom Huix, Alain Durmus, | (参考訳) 本稿では,文脈的バンディットに対するトンプソンサンプリング(TS)アルゴリズムの変種を導入・解析する。
各ラウンドでは、従来のTSは現在の後部分布からのサンプルを必要とするが、通常は引き離し可能である。
この問題を回避するため、近似推論技術を用い、後部に近い分布のサンプルを提供する。
しかし、現在の近似手法は低い推定(ラプラス近似)または計算に高価である(MCMC法、アンサンブルサンプリング...)。
本稿では,ガウス変分推論に基づく新しいアルゴリズムであるValational Inference Thompson sample VITSを提案する。
このスキームは、サンプリングが容易で、計算効率が良い強力な後続近似を提供し、TSにとって理想的な選択である。
さらに,VITS は線形文脈帯域に対して従来の TS の次元とラウンド数で同じ順序のサブ線形後悔境界を達成できることを示す。
最後に、人工と実世界の両方のデータセットに対するVITSの有効性を実験的に実証した。
In this paper, we introduce and analyze a variant of the Thompson sampling (TS) algorithm for contextual bandits. At each round, traditional TS requires samples from the current posterior distribution, which is usually intractable. To circumvent this issue, approximate inference techniques can be used and provide samples with distribution close to the posteriors. However, current approximate techniques yield to either poor estimation (Laplace approximation) or can be computationally expensive (MCMC methods, Ensemble sampling...). In this paper, we propose a new algorithm, Varational Inference Thompson sampling VITS, based on Gaussian Variational Inference. This scheme provides powerful posterior approximations which are easy to sample from, and is computationally efficient, making it an ideal choice for TS. In addition, we show that VITS achieves a sub-linear regret bound of the same order in the dimension and number of round as traditional TS for linear contextual bandit. Finally, we demonstrate experimentally the effectiveness of VITS on both synthetic and real world datasets. | 翻訳日:2024-07-24 05:46:42 公開日:2024-07-20 |
# RewardsだけでなくConstraintsも:レッグロボットのロコモーションへの応用
Not Only Rewards But Also Constraints: Applications on Legged Robot Locomotion ( http://arxiv.org/abs/2308.12517v4 ) ライセンス: Link先を確認 | Yunho Kim, Hyunsik Oh, Jeonghyun Lee, Jinhyeok Choi, Gwanghyeon Ji, Moonkyu Jung, Donghoon Youm, Jemin Hwangbo, | (参考訳) ニューラルネットワークを使ってコントローラを設計し、モデルなしの強化学習でそれを訓練することで、複雑なロボットシステムにおいて印象的な制御性能を示している。
しかし、これらの優れた動作スタイルと高いタスク性能を持つコントローラは、多数の報酬項を設計し、適切な報酬係数を決定するのに非常に手間と時間を要する、広範囲な報酬工学によって開発されている。
本研究では,複雑なロボットシステムのためのニューラルネットワークコントローラをトレーニングするための,報酬と制約の両方からなる新しい強化学習フレームワークを提案する。
エンジニアが制約に対する意図を適切に反映し、最小の計算オーバーヘッドで処理できるように、2つの制約タイプと効率的なポリシー最適化アルゴリズムが提案されている。
学習フレームワークは、異なる形態と物理的特性を持つ複数の脚を持つロボットに対して、困難な地形を横断する移動制御器の訓練に応用される。
大規模なシミュレーションと実世界の実験により、単一の報酬係数だけをチューニングすることで、パフォーマンスコントローラをかなり少ない報酬工学で訓練できることが示される。
さらに、制約の解釈可能性と一般化性のおかげで、より単純で直感的なエンジニアリングプロセスが利用できる。
要約ビデオはhttps://youtu.be/KAlm3yskhvM.comで公開されている。
Several earlier studies have shown impressive control performance in complex robotic systems by designing the controller using a neural network and training it with model-free reinforcement learning. However, these outstanding controllers with natural motion style and high task performance are developed through extensive reward engineering, which is a highly laborious and time-consuming process of designing numerous reward terms and determining suitable reward coefficients. In this work, we propose a novel reinforcement learning framework for training neural network controllers for complex robotic systems consisting of both rewards and constraints. To let the engineers appropriately reflect their intent to constraints and handle them with minimal computation overhead, two constraint types and an efficient policy optimization algorithm are suggested. The learning framework is applied to train locomotion controllers for several legged robots with different morphology and physical attributes to traverse challenging terrains. Extensive simulation and real-world experiments demonstrate that performant controllers can be trained with significantly less reward engineering, by tuning only a single reward coefficient. Furthermore, a more straightforward and intuitive engineering process can be utilized, thanks to the interpretability and generalizability of constraints. The summary video is available at https://youtu.be/KAlm3yskhvM. | 翻訳日:2024-07-24 05:36:51 公開日:2024-07-20 |
# 長期の広告記憶可能性:記憶に残る広告の理解と生成
Long-Term Ad Memorability: Understanding & Generating Memorable Ads ( http://arxiv.org/abs/2309.00378v4 ) ライセンス: Link先を確認 | Harini S I, Somesh Singh, Yaman K Singla, Aanisha Bhattacharyya, Veeky Baths, Changyou Chen, Rajiv Ratn Shah, Balaji Krishnamurthy, | (参考訳) マーケターは広告に何十億ドルも費やしている。
購入時に、顧客が広告を見たブランドを認識できなければ、広告に費やされたお金は本質的に無駄になる。
マーケティングの重要性にもかかわらず、これまで広告の記憶可能性に関する大規模な研究は行われていない。
過去の記憶力に関する研究はすべて、アクションビデオのような特定のコンテンツタイプに関する短期的なリコールで行われている。
一方、広告業界は長期的な記憶力だけを気にしており、広告はほとんど常に非常にマルチモーダルである。
そこで,第1回記憶可能性データセットLAMBDAを公開し,参加者1749名,広告2205名が276ブランドをカバーした。
さまざまな参加者のサブポピュレーションや広告タイプに対する統計的テストを実行すると、広告を記憶可能なものにするための興味深い洞察がたくさん得られます。
次に,コンテンツの記憶可能性を予測するモデルHenryを提案する。
Henry氏は、すべての顕著な文献記憶可能性データセットで最先端のパフォーマンスを達成する。
これは、目に見えないデータセットで0ショットでより良い結果を得ることができ、強力な一般化性能を示す。
最後に、記憶可能な広告生成を意図して、自動注釈付きデータを利用して高品質な記憶可能な広告生成モデルを構築するスケーラブルな方法を提案する。
当社のアプローチであるSEED(Self rEwarding mEmorability Modeling)は,LAMBDAをシードデータとしてトレーニングした言語モデルから始まり,LLMを段階的にトレーニングして,より記憶に残る広告を生成する。
生成した広告は、元の広告よりも44%高い記憶率を示す。
この大規模広告データセットであるUltraLAMBDAは500万の広告で構成されています。
私たちのコードとデータセットはhttps://behavior-in-the-wild.github.io/memorability.orgで公開されています。
Marketers spend billions of dollars on advertisements, but to what end? At purchase time, if customers cannot recognize the brand for which they saw an ad, the money spent on the ad is essentially wasted. Despite its importance in marketing, until now, there has been no large-scale study on the memorability of ads. All previous memorability studies have been conducted on short-term recall on specific content types like action videos. On the other hand, the advertising industry only cares about long-term memorability, and ads are almost always highly multimodal. Therefore, we release the first memorability dataset, LAMBDA, consisting of 1749 participants and 2205 ads covering 276 brands. Running statistical tests over different participant subpopulations and ad types, we find many interesting insights into what makes an ad memorable, e.g., fast-moving ads are more memorable than those with slower scenes; people who use ad-blockers remember a lower number of ads than those who don't. Next, we present a model, Henry, to predict the memorability of a content. Henry achieves state-of-the-art performance across all prominent literature memorability datasets. It shows strong generalization performance with better results in 0-shot on unseen datasets. Finally, with the intent of memorable ad generation, we present a scalable method to build a high-quality memorable ad generation model by leveraging automatically annotated data. Our approach, SEED (Self rEwarding mEmorability Modeling), starts with a language model trained on LAMBDA as seed data and progressively trains an LLM to generate more memorable ads. We show that the generated advertisements have 44% higher memorability scores than the original ads. We release this large-scale ad dataset, UltraLAMBDA, consisting of 5 million ads. Our code and datasets are available at https://behavior-in-the-wild.github.io/memorability. | 翻訳日:2024-07-24 05:36:51 公開日:2024-07-20 |
# メタファーとサルカズムシナリオに基づく精神科スクリーニングツールを用いた大規模言語モデルの能力評価
Evaluating Large Language Models' Ability Using a Psychiatric Screening Tool Based on Metaphor and Sarcasm Scenarios ( http://arxiv.org/abs/2309.10744v3 ) ライセンス: Link先を確認 | Hiromu Yakura, | (参考訳) メタファーとサルカズムは、高度に進化した社会コミュニケーションスキルの貴重な成果である。
しかし、アスペルガー症候群として知られるこの症状を持つ子供たちは、たとえメタファーを理解するのに十分な言葉IQを持っているとしても、皮肉を理解するのに困難であることが知られている。
そのため、研究者はメタファーと皮肉の理解を評価して、同様の外部行動(注意欠陥/高活動障害など)を持つ他の状態とAsperger症候群を区別するスクリーニングテストを実施しました。
本研究では,最近の大規模言語モデル (LLM) におけるニュアンスド・ヒューマン・コミュニケーションの理解を評価するために標準化されたテストを用いた。
その結果, メタファー理解が改善し, モデルパラメータが向上したが, サルカズム理解に類似した改善は見られなかった。
ヒトのサルカズムを把握できる能力が、感情学習のための重要な脳の領域である扁桃体と結びついていることを考えると、LSMを訓練するための独特の戦略は、認知的に根ざした方法でそれらを創り出すのに不可欠である。
Metaphors and sarcasm are precious fruits of our highly evolved social communication skills. However, children with the condition then known as Asperger syndrome are known to have difficulties in comprehending sarcasm, even if they possess adequate verbal IQs for understanding metaphors. Accordingly, researchers had employed a screening test that assesses metaphor and sarcasm comprehension to distinguish Asperger syndrome from other conditions with similar external behaviors (e.g., attention-deficit/hyperactivity disorder). This study employs a standardized test to evaluate recent large language models' (LLMs) understanding of nuanced human communication. The results indicate improved metaphor comprehension with increased model parameters; however, no similar improvement was observed for sarcasm comprehension. Considering that a human's ability to grasp sarcasm has been associated with the amygdala, a pivotal cerebral region for emotional learning, a distinctive strategy for training LLMs would be imperative to imbue them with the ability in a cognitively grounded manner. | 翻訳日:2024-07-24 05:36:51 公開日:2024-07-20 |
# Smooth Nash Equilibria:アルゴリズムと複雑さ
Smooth Nash Equilibria: Algorithms and Complexity ( http://arxiv.org/abs/2309.12226v2 ) ライセンス: Link先を確認 | Constantinos Daskalakis, Noah Golowich, Nika Haghtalab, Abhishek Shetty, | (参考訳) ナッシュ均衡の概念の根本的な欠点は計算の難易度であり、正規形式ゲームにおけるナッシュ均衡の近似は PPAD-hard である。
本稿では、滑らかな解析のアイデアに触発されて、滑らかなパラメータ$\sigma$-smooth Nash平衡と呼ばれる緩和されたナッシュ均衡を導入します。
$\sigma$-smooth Nash 平衡では、プレイヤーは少なくとも$\sigma$-smooth 戦略への最良の偏差の効用を達成する必要がある。
我々は、$\sigma$-smooth Nash equilibriaの2つの変種を区別する: strong $\sigma$-smooth Nash equilibria, which players are required to play $\sigma$-smooth strategy under equilibrium play, weak $\sigma$-smooth Nash equilibria。
弱および強の$\sigma$-smooth Nash平衡がナッシュ平衡よりも優れた計算特性を持つことを示す:$\sigma$と近似パラメータ$\epsilon$とプレイヤー数がすべて定数であるとき、正規形式ゲームにおいて弱の$\epsilon$-approximate$\sigma$-smooth Nash平衡を求める定数時間ランダム化アルゴリズムが存在する。
同じパラメータ体系では、正規形式ゲームにおいて強い$\epsilon$-approximate $\sigma$-smooth Nash平衡を求める多項式時間決定論的アルゴリズムが存在する。
これらの結果は、準ポリノミアル時間よりも高速に動作できない$\epsilon$-approximate Nash平衡の最適アルゴリズムとは対照的である。
我々は、$\sigma$ または $\epsilon$ が逆多項式であるとき、弱 $\epsilon$-approximate $\sigma$-smooth Nash equilibria が計算的に抽出可能であることを示すことによって、上界を補完する。
A fundamental shortcoming of the concept of Nash equilibrium is its computational intractability: approximating Nash equilibria in normal-form games is PPAD-hard. In this paper, inspired by the ideas of smoothed analysis, we introduce a relaxed variant of Nash equilibrium called $\sigma$-smooth Nash equilibrium, for a smoothness parameter $\sigma$. In a $\sigma$-smooth Nash equilibrium, players only need to achieve utility at least as high as their best deviation to a $\sigma$-smooth strategy, which is a distribution that does not put too much mass (as parametrized by $\sigma$) on any fixed action. We distinguish two variants of $\sigma$-smooth Nash equilibria: strong $\sigma$-smooth Nash equilibria, in which players are required to play $\sigma$-smooth strategies under equilibrium play, and weak $\sigma$-smooth Nash equilibria, where there is no such requirement. We show that both weak and strong $\sigma$-smooth Nash equilibria have superior computational properties to Nash equilibria: when $\sigma$ as well as an approximation parameter $\epsilon$ and the number of players are all constants, there is a constant-time randomized algorithm to find a weak $\epsilon$-approximate $\sigma$-smooth Nash equilibrium in normal-form games. In the same parameter regime, there is a polynomial-time deterministic algorithm to find a strong $\epsilon$-approximate $\sigma$-smooth Nash equilibrium in a normal-form game. These results stand in contrast to the optimal algorithm for computing $\epsilon$-approximate Nash equilibria, which cannot run in faster than quasipolynomial-time. We complement our upper bounds by showing that when either $\sigma$ or $\epsilon$ is an inverse polynomial, finding a weak $\epsilon$-approximate $\sigma$-smooth Nash equilibria becomes computationally intractable. | 翻訳日:2024-07-24 05:36:51 公開日:2024-07-20 |
# 量子チャネルを介した情報・エネルギー同時伝送について
On Simultaneous Information and Energy Transmission through Quantum Channels ( http://arxiv.org/abs/2309.13691v4 ) ライセンス: Link先を確認 | Bishal Kumar Das, Lav R. Varshney, Vaibhav Madhok, | (参考訳) 送信された信号が同時に最小限のエネルギーを輸送しなければならない場合に、情報を量子チャネルを介して送信できる最適な速度が特徴付けられる。
そこで我々は,キャパシティ・パワー関数の量子古典的アナログを導入し,古典情報理論におけるノイズチャネルを通じて古典情報を伝達する結果を一般化する。
古典的量子チャネルのキャパシティ・パワー関数は、非アシストプロトコルとプライベートプロトコルの両方において共役であり、また、そのようなチャネルに対する入力信号のアンサンブルと無相関なアンサンブルの加算性も証明している。
これは、計算に正規化された公式は必要ないことを意味する。
これらの性質は、入力状態の集合を純粋量子状態に制限する場合に、すべてのノイズのないチャネルを保持できることを示す。
一般的なチャネルでは、キャパシティ・パワー関数は断片的凹凸である。
我々はこれを数値シミュレーションで裏付けるエレガントな視覚的証明を与える。
ランダム量子状態のチャネル容量と特性を結合する。
特に、エネルギー制約下でのランダムな量子状態の性質と大きなヒルベルト空間における濃度現象を用いて、ノイズレスチャネルの場合のキャパシティ・パワー関数の解析式を得る。
The optimal rate at which information can be sent through a quantum channel when the transmitted signal must simultaneously carry some minimum amount of energy is characterized. To do so, we introduce the quantum-classical analogue of the capacity-power function and generalize results in classical information theory for transmitting classical information through noisy channels. We show that the capacity-power function for a classical-quantum channel, for both unassisted and private protocol, is concave and also prove additivity for unentangled and uncorrelated ensembles of input signals for such channels. This implies we do not need regularized formulas for calculation. We show these properties also hold for all noiseless channels when we restrict the set of input states to be pure quantum states. For general channels, we find that the capacity-power function is piece-wise concave. We give an elegant visual proof for this supported by numerical simulations. We connect channel capacity and properties of random quantum states. In particular, we obtain analytical expressions for the capacity-power function for the case of noiseless channels using properties of random quantum states under an energy constraint and concentration phenomena in large Hilbert spaces. | 翻訳日:2024-07-24 05:36:51 公開日:2024-07-20 |
# 視覚言語モデルに対する耐雑音性非教師付き適応器
Noise-Tolerant Unsupervised Adapter for Vision-Language Models ( http://arxiv.org/abs/2309.14928v2 ) ライセンス: Link先を確認 | Eman Ali, Muhammad Haris Khan, | (参考訳) 大規模視覚言語モデルの最近の進歩は、様々なゼロショット画像分類タスクにおいて印象的な性能を達成している。
従来の研究では、少数のラベル付きターゲットサンプルを導入することで、大幅な改善が見られたが、それでもターゲットサンプルのラベル付けが必要であり、様々な視覚認識タスクを処理しながら、そのスケーラビリティと一般化性を著しく低下させる。
NtUAは、雑音耐性のない教師なし適応器で、非競合なターゲットサンプルをほとんど持たない効果的なターゲットモデルの学習を可能にする。
NtUAは、視覚的特徴を定式化したキー値キャッシュとして機能し、少数の未ラベルのターゲットサンプルの擬似ラベルをキー値ペアとして予測する。
2つの相補的なデザインで構成されている。
1つ目は、擬似ラベルノイズに対処する適応的なキャッシュ形成であり、その予測信頼度に応じてキーと値のペアを重み付けする。
2つ目は知識誘導型キャッシュ改良であり、大規模な視覚言語モデルからの知識蒸留を活用してペア値(擬似ラベル)とキャッシュ重み付けを洗練させる。
大規模な実験により、NtUAは複数の広く採用されているベンチマークにおいて、一貫して優れた性能を発揮することが示された。
Recent advances in large-scale vision-language models have achieved impressive performance in various zero-shot image classification tasks. While prior studies have demonstrated significant improvements by introducing few-shot labelled target samples, they still require labelling of target samples, which greatly degrades their scalability and generalizability while handling various visual recognition tasks. We design NtUA, a Noise-tolerant Unsupervised Adapter that allows the learning of effective target models with few unlabelled target samples. NtUA works as a key-value cache that formulates visual features and predicted pseudo-labels of the few unlabelled target samples as key-value pairs. It consists of two complementary designs. The first is adaptive cache formation that combats pseudo-label noises by weighting the key-value pairs according to their prediction confidence. The second is knowledge-guided cache refinement, which refines pair values (i.e., pseudo-labels) and cache weights by leveraging knowledge distillation from large-scale vision language models. Extensive experiments show that NtUA achieves superior performance consistently across multiple widely adopted benchmarks. | 翻訳日:2024-07-24 05:36:51 公開日:2024-07-20 |
# AugUndo: 単眼の深度補完と推定のための拡張のスケールアップ
AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation ( http://arxiv.org/abs/2310.09739v3 ) ライセンス: Link先を確認 | Yangchao Wu, Tian Yu Liu, Hyoungseob Park, Stefano Soatto, Dong Lao, Alex Wong, | (参考訳) 再構成誤差を最小化することにより、教師なし深度補完と推定法を訓練する。
再サンプリング、強度飽和、オクルージョンからのブロックアーティファクトは、画像再構成の品質に影響を及ぼす共通のデータ拡張スキームの多くの望ましくない副産物であり、したがって訓練信号である。
したがって、他のビジョンタスクにおけるパイプラインのトレーニングに不可欠な画像に対する典型的な拡張は、小さな画像強度の変化やフリップを超えて、限られた使用しか見ていない。
密度変換が3次元シーンのスケールを変え、幾何学的変換が再サンプリング中にスパースポイントを分解するので、深さ完了におけるスパース深さのモジュラリティはさらに小さくなっている。
教師なし深度補完と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転または ` `undo''-ing し、深度マップを元の参照フレームに戻すことで達成される。
これにより、元の画像とスパース深度マップを用いて復元損失を計算し、拡張された入力に対するナイーブ損失計算の落とし穴をなくし、拡張処理を拡大して性能を向上させることができる。
室内(VOID)と屋外(KITTI)のデータセットに対して本手法を実証し,両データセット間の最近の手法と,他の4つのデータセットへの一般化を一貫して改善する。
コードは、https://github.com/alexklwong/augundo.comで入手できる。
Unsupervised depth completion and estimation methods are trained by minimizing reconstruction error. Block artifacts from resampling, intensity saturation, and occlusions are amongst the many undesirable by-products of common data augmentation schemes that affect image reconstruction quality, and thus the training signal. Hence, typical augmentations on images viewed as essential to training pipelines in other vision tasks have seen limited use beyond small image intensity changes and flipping. The sparse depth modality in depth completion have seen even less use as intensity transformations alter the scale of the 3D scene, and geometric transformations may decimate the sparse points during resampling. We propose a method that unlocks a wide range of previously-infeasible geometric augmentations for unsupervised depth completion and estimation. This is achieved by reversing, or ``undo''-ing, geometric transformations to the coordinates of the output depth, warping the depth map back to the original reference frame. This enables computing the reconstruction losses using the original images and sparse depth maps, eliminating the pitfalls of naive loss computation on the augmented inputs and allowing us to scale up augmentations to boost performance. We demonstrate our method on indoor (VOID) and outdoor (KITTI) datasets, where we consistently improve upon recent methods across both datasets as well as generalization to four other datasets. Code available at: https://github.com/alexklwong/augundo. | 翻訳日:2024-07-24 05:36:51 公開日:2024-07-20 |
# ツィバコフ雑音を伴う効率的な能動学習ハーフスペース:非凸最適化手法
Efficient Active Learning Halfspaces with Tsybakov Noise: A Non-convex Optimization Approach ( http://arxiv.org/abs/2310.15411v2 ) ライセンス: Link先を確認 | Yinan Li, Chicheng Zhang, | (参考訳) Tsybakov Noise~\citep{tsybakov 2004optimal} を用いた、構造化されていないデータ分布下での計算およびラベル付きPAC能動学習の課題について検討する。
ここでは, 滑らかな非凸損失関数の任意の1次定常点が, 過大な誤差の保証が低いハーフスペースとなることを証明した。
上記の構造的結果から、Tsybakovノイズパラメータ $\alpha \in (\frac13, 1]$ という仮定の下で、ラベル複雑性が $\tilde{O}(d (\frac{1}{\epsilon})^{\frac{8-6\alpha}{3\alpha-1}})$ となるような非凸最適化アルゴリズムを設計する。
We study the problem of computationally and label efficient PAC active learning $d$-dimensional halfspaces with Tsybakov Noise~\citep{tsybakov2004optimal} under structured unlabeled data distributions. Inspired by~\cite{diakonikolas2020learning}, we prove that any approximate first-order stationary point of a smooth nonconvex loss function yields a halfspace with a low excess error guarantee. In light of the above structural result, we design a nonconvex optimization-based algorithm with a label complexity of $\tilde{O}(d (\frac{1}{\epsilon})^{\frac{8-6\alpha}{3\alpha-1}})$, under the assumption that the Tsybakov noise parameter $\alpha \in (\frac13, 1]$, which narrows down the gap between the label complexities of the previously known efficient passive or active algorithms~\citep{diakonikolas2020polynomial,zhang2021improved} and the information-theoretic lower bound in this setting. | 翻訳日:2024-07-24 05:26:51 公開日:2024-07-20 |
# イベント系列予測のための相互作用拡散過程
Interacting Diffusion Processes for Event Sequence Forecasting ( http://arxiv.org/abs/2310.17800v2 ) ライセンス: Link先を確認 | Mai Zeng, Florence Regol, Mark Coates, | (参考訳) ニューラル・テンポラル・ポイント・プロセス(TPP)は、不規則な時間間隔で発生する事象のシーケンスを予測する主要なフレームワークとして登場したが、そのシーケンシャルな性質は、長い水平予測のパフォーマンスを妨げうる。
そこで本研究では,拡散生成モデルを組み込んだ新しい手法を提案する。
このモデルはシーケンス・ツー・シーケンスの予測を容易にし、過去のイベント・シーケンスに基づいた複数ステップの予測を可能にする。
従来の手法とは対照的に,本モデルでは,複数事象の連立確率分布と地域間時間を直接学習する。
これにより、現代生成モデルの高次元モデリング能力をフル活用することができる。
我々のモデルは2つの拡散過程で構成されており、1つは時間間隔、もう1つはイベントタイプである。
これらのプロセスはそれぞれの分母関数を介して相互作用し、この関数は両方のプロセスから入力中間表現となり、モデルが複雑な相互作用を学習することができる。
提案手法は,TPPの長期予測において,最先端のベースラインよりも優れていることを示す。
Neural Temporal Point Processes (TPPs) have emerged as the primary framework for predicting sequences of events that occur at irregular time intervals, but their sequential nature can hamper performance for long-horizon forecasts. To address this, we introduce a novel approach that incorporates a diffusion generative model. The model facilitates sequence-to-sequence prediction, allowing multi-step predictions based on historical event sequences. In contrast to previous approaches, our model directly learns the joint probability distribution of types and inter-arrival times for multiple events. This allows us to fully leverage the high dimensional modeling capability of modern generative models. Our model is composed of two diffusion processes, one for the time intervals and one for the event types. These processes interact through their respective denoising functions, which can take as input intermediate representations from both processes, allowing the model to learn complex interactions. We demonstrate that our proposal outperforms state-of-the-art baselines for long-horizon forecasting of TPP. | 翻訳日:2024-07-24 05:26:51 公開日:2024-07-20 |
# 誘導コヒーレンスに基づく干渉計におけるコヒーレンスとパスの識別可能性の相補性
Complementarity relationship between coherence and path distinguishability in an interferometer based on induced coherence ( http://arxiv.org/abs/2310.19765v3 ) ライセンス: Link先を確認 | Gerard J. Machado, Lluc Sendra, Adam Vallés, Juan P. Torres, | (参考訳) 誘導コヒーレンスの概念に基づく干渉計を考えると、異なる二階非線形結晶に由来する2つの光子が干渉することができる。
我々は、2つの干渉光子の1次コヒーレンスと、それらが発する非線形結晶に関する識別情報を定量化するパラメータを結びつける相補性関係を導出した。
導出された関係は、単一光子系を超え、生成される光子-流速に対して有効であることを示す。
導出相補性関係の妥当性を検証した低光子流束系における実験結果について報告する。
We consider an interferometer based on the concept of induced coherence, where two photons that originate in different second-order nonlinear crystals can interfere. We derive a complementarity relationship that links the first-order coherence between the two interfering photons with a parameter that quantifies the distinguishing information regarding the nonlinear crystal where they originated. We show that the derived relationship goes beyond the single-photon regime and is valid for any photon-flux rate generated. We report experimental results in the low photon-flux regime that confirm the validity of the derived complementarity relationship. | 翻訳日:2024-07-24 05:26:51 公開日:2024-07-20 |
# EvaSurf: モバイルデバイス上での効率的なビュー・アウェア・インシデント・テクスチャ・サーフェス・コンストラクション
EvaSurf: Efficient View-Aware Implicit Textured Surface Reconstruction on Mobile Devices ( http://arxiv.org/abs/2311.09806v3 ) ライセンス: Link先を確認 | Jingnan Gao, Zhuo Chen, Yichao Yan, Bowen Pan, Zhe Wang, Jiangjing Lyu, Xiaokang Yang, | (参考訳) 現実世界の3Dオブジェクトの再構成は、仮想現実、ビデオゲーム、アニメーションなどのコンピュータビジョンに多くの応用がある。
理想的には、3次元再構成法はリアルタイムに3次元整合性のある高忠実度な結果を生成するべきである。
従来の方法では、写真一貫性の制約や学習した特徴を使って画像間のピクセルをマッチングするが、Neural Radiance Fields (NeRF)のような微分可能なレンダリング手法では、高忠実なシーンを生成するために、可変ボリュームレンダリングや表面ベースの表現を使用する。
しかし、これらの方法はレンダリングに過剰なランタイムを必要とするため、日々のアプリケーションでは実用的ではない。
これらの課題に対処するため、モバイルデバイス上で$\textbf{EvaSurf}$, a $\textbf{E}$fficient $\textbf{V}$iew-$\textbf{A}$ware implicit textured $\textbf{Surf}$ace reconstruction methodを提示する。
提案手法では,まず,マルチビュー監視モジュールを用いた効率的な表面モデルを用いて,正確なメッシュ再構築を実現する。
高忠実度レンダリングを可能にするために,ガウスローブの集合に埋め込まれた暗黙のテクスチャを学習し,ビュー依存情報をキャプチャする。
さらに、明示的な幾何学と暗黙的なテクスチャにより、計算コストを削減し、一般的なモバイルデバイスでのリアルタイムレンダリングをさらにサポートするために、軽量なニューラルシェーダを使用することができる。
大規模な実験により,本手法は,合成データセットと実世界のデータセットの両方において,高品質な外観と正確なメッシュを再構築可能であることが示された。
さらに、1つのGPUで1~2時間でトレーニングし、40FPS(Frames Per Second)以上のモバイルデバイス上で動作させることも可能で、最終的なパッケージは40~50MBのレンダリングに必要である。
Reconstructing real-world 3D objects has numerous applications in computer vision, such as virtual reality, video games, and animations. Ideally, 3D reconstruction methods should generate high-fidelity results with 3D consistency in real-time. Traditional methods match pixels between images using photo-consistency constraints or learned features, while differentiable rendering methods like Neural Radiance Fields (NeRF) use differentiable volume rendering or surface-based representation to generate high-fidelity scenes. However, these methods require excessive runtime for rendering, making them impractical for daily applications. To address these challenges, we present $\textbf{EvaSurf}$, an $\textbf{E}$fficient $\textbf{V}$iew-$\textbf{A}$ware implicit textured $\textbf{Surf}$ace reconstruction method on mobile devices. In our method, we first employ an efficient surface-based model with a multi-view supervision module to ensure accurate mesh reconstruction. To enable high-fidelity rendering, we learn an implicit texture embedded with a set of Gaussian lobes to capture view-dependent information. Furthermore, with the explicit geometry and the implicit texture, we can employ a lightweight neural shader to reduce the expense of computation and further support real-time rendering on common mobile devices. Extensive experiments demonstrate that our method can reconstruct high-quality appearance and accurate mesh on both synthetic and real-world datasets. Moreover, our method can be trained in just 1-2 hours using a single GPU and run on mobile devices at over 40 FPS (Frames Per Second), with a final package required for rendering taking up only 40-50 MB. | 翻訳日:2024-07-24 05:16:55 公開日:2024-07-20 |
# ChatGPTとポストテスト確率
ChatGPT and post-test probability ( http://arxiv.org/abs/2311.12188v5 ) ライセンス: Link先を確認 | Samuel J. Weisenthal, | (参考訳) ChatGPTのような強化学習に基づく大規模言語モデルは、医療を含む多くの分野の人間専門家を支援する可能性があると考えられている。
しかし、ChatGPTが医療において重要なタスクを遂行する能力についてはほとんど研究されていない。
このタイプの推論は、例えば、テスト前確率をテスト後確率に更新するために使用される。
本研究では,ChatGPTのタスク実行能力について検討する。
特に、ChatGPTにベイズ規則の医学的診断の使い方を例示するよう依頼する。
我々のプロンプトは、純粋確率(例えば、与えられたBとCの後続確率の要求)から用語を使用するクエリ(例えば、テスト結果が与えられたCovidの後続確率の要求)まで様々です。
医療変数名の導入は,ChatGPTが犯す誤りの数の増加につながることを示す。
また,この結果から,ChatGPTがエラーを部分的に回避する上で,プロンプトエンジニアリングをどのように利用できるかを示す。
感度と特異性に関する最近の解説を踏まえて,本研究の結果について論じる。
また、我々の研究成果が大規模言語モデルの新たな研究方向性にどう影響するかについても論じる。
Reinforcement learning-based large language models, such as ChatGPT, are believed to have potential to aid human experts in many domains, including healthcare. There is, however, little work on ChatGPT's ability to perform a key task in healthcare: formal, probabilistic medical diagnostic reasoning. This type of reasoning is used, for example, to update a pre-test probability to a post-test probability. In this work, we probe ChatGPT's ability to perform this task. In particular, we ask ChatGPT to give examples of how to use Bayes rule for medical diagnosis. Our prompts range from queries that use terminology from pure probability (e.g., requests for a posterior of A given B and C) to queries that use terminology from medical diagnosis (e.g., requests for a posterior probability of Covid given a test result and cough). We show how the introduction of medical variable names leads to an increase in the number of errors that ChatGPT makes. Given our results, we also show how one can use prompt engineering to facilitate ChatGPT's partial avoidance of these errors. We discuss our results in light of recent commentaries on sensitivity and specificity. We also discuss how our results might inform new research directions for large language models. | 翻訳日:2024-07-24 05:16:55 公開日:2024-07-20 |
# 映像の局所的インストラクション生成のための効果的な事前学習
Efficient Pre-training for Localized Instruction Generation of Videos ( http://arxiv.org/abs/2311.15964v4 ) ライセンス: Link先を確認 | Anil Batra, Davide Moltisanti, Laura Sevilla-Lara, Marcus Rohrbach, Frank Keller, | (参考訳) レシピのデモで例示された手続き的なビデオは、ステップバイステップの指示を伝えるのに役立ちます。
しかし、ステップの正確な位置化やテキスト命令の生成など、そのようなビデオを理解することは困難である。
手作業による注釈付けと命令の記述はコストがかかり、現在のデータセットのサイズが制限され、効果的な学習を妨げる。
大規模だがノイズの多いビデオ書き起こしデータセットを事前トレーニングに活用することで、パフォーマンスが向上するが、かなりの計算資源を必要とする。
さらに、写本には無関係な内容が含まれており、人書きの指示と様式が異なる。
これらの問題を緩和するために、レシピ領域の高品質なトレーニングデータを自動的に生成する新しい手法、Sieve-&-Swapを提案する。
i) Sieve:無関係な転写文をフィルタリングし、
(ii)Swap: テキストのみのレシピデータセットから手書きの命令に書き起こしを置き換え,高品質なテキストを取得する。
得られたデータセットは、現在のWebスケールデータセットよりも3桁小さいが、大規模モデルの効率的なトレーニングを可能にする。
Sieve-&Swap とともに,プロシージャ・トランスフォーマー (ProcX) を提案する。
キュレートされたデータセットで事前トレーニングを行うと、このモデルはトレーニングデータの一部を使用しながら、YouCook2とTastyの最先端のパフォーマンスを達成する。
コードとデータセットをリリースしました。
Procedural videos, exemplified by recipe demonstrations, are instrumental in conveying step-by-step instructions. However, understanding such videos is challenging as it involves the precise localization of steps and the generation of textual instructions. Manually annotating steps and writing instructions is costly, which limits the size of current datasets and hinders effective learning. Leveraging large but noisy video-transcript datasets for pre-training can boost performance but demands significant computational resources. Furthermore, transcripts contain irrelevant content and differ in style from human-written instructions. To mitigate these issues, we propose a novel technique, Sieve-&-Swap, to automatically generate high-quality training data for the recipe domain: (i) Sieve: filters irrelevant transcripts and (ii) Swap: acquires high-quality text by replacing transcripts with human-written instruction from a text-only recipe dataset. The resulting dataset is three orders of magnitude smaller than current web-scale datasets but enables efficient training of large-scale models. Alongside Sieve-&-Swap, we propose Procedure Transformer (ProcX), a model for end-to-end step localization and instruction generation for procedural videos. When pre-trained on our curated dataset, this model achieves state-of-the-art performance on YouCook2 and Tasty while using a fraction of the training data. We have released code and dataset. | 翻訳日:2024-07-24 05:16:55 公開日:2024-07-20 |
# Reason2Drive: 自律運転のための解釈型および連鎖型推論を目指して
Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving ( http://arxiv.org/abs/2312.03661v3 ) ライセンス: Link先を確認 | Ming Nie, Renyuan Peng, Chunwei Wang, Xinyue Cai, Jianhua Han, Hang Xu, Li Zhang, | (参考訳) 大規模視覚言語モデル(VLM)は、自動運転車の振る舞いに不可欠な複雑な推論タスクにおける高度な能力のため、自動運転分野への関心が高まっている。
その可能性にもかかわらず、自律システムの研究は、運転における意思決定プロセスを説明する注釈付き推論チェーンを持つデータセットの欠如によって妨げられている。
このギャップを埋めるために、複雑な運転環境における解釈可能な推論の研究を容易にすることを目的として、600万以上のビデオテキストペアを備えたベンチマークデータセットであるReason2Driveを紹介した。
我々は、自律運転過程を知覚、予測、推論ステップの逐次組み合わせとして特徴付け、質問と回答のペアは、nuScenes、Waymo、ONCEを含む様々なオープンソース屋外運転データセットから自動的に収集される。
さらに,自律システムにおけるチェーンベースの推論性能を評価するために,BLEUやCIDErといった既存のメトリクスのセマンティックアンビグスに対処する新たなアグリゲーション評価指標を導入する。
提案したベンチマークに基づいて,既存のVLMの評価実験を行い,その推論能力に関する知見を明らかにした。
さらに,VLMに特徴抽出と予測の両方においてオブジェクトレベルの知覚的要素を活用するための効率的なアプローチを開発し,その推論精度をさらに高める。
コードとデータセットがリリースされる。
Large vision-language models (VLMs) have garnered increasing interest in autonomous driving areas, due to their advanced capabilities in complex reasoning tasks essential for highly autonomous vehicle behavior. Despite their potential, research in autonomous systems is hindered by the lack of datasets with annotated reasoning chains that explain the decision-making processes in driving. To bridge this gap, we present Reason2Drive, a benchmark dataset with over 600K video-text pairs, aimed at facilitating the study of interpretable reasoning in complex driving environments. We distinctly characterize the autonomous driving process as a sequential combination of perception, prediction, and reasoning steps, and the question-answer pairs are automatically collected from a diverse range of open-source outdoor driving datasets, including nuScenes, Waymo and ONCE. Moreover, we introduce a novel aggregated evaluation metric to assess chain-based reasoning performance in autonomous systems, addressing the semantic ambiguities of existing metrics such as BLEU and CIDEr. Based on the proposed benchmark, we conduct experiments to assess various existing VLMs, revealing insights into their reasoning capabilities. Additionally, we develop an efficient approach to empower VLMs to leverage object-level perceptual elements in both feature extraction and prediction, further enhancing their reasoning accuracy. The code and dataset will be released. | 翻訳日:2024-07-24 05:16:55 公開日:2024-07-20 |
# DPI: 無限データストリーミングのための厳密な微分プライバシーを保証する
DPI: Ensuring Strict Differential Privacy for Infinite Data Streaming ( http://arxiv.org/abs/2312.04738v2 ) ライセンス: Link先を確認 | Shuya Feng, Meisam Mohammady, Han Wang, Xiaochen Li, Zhan Qin, Yuan Hong, | (参考訳) クラウドソーシング分析、行動研究、リアルタイム監視といったアプリケーションにとって重要なデータストリーミングは、個人にリンクされた大規模で多様なデータのために、プライバシー上の重大なリスクに直面している。
特に、データストリームをリリースするための最近の取り組みでは、厳格なプライバシー概念である差分プライバシー(DP)を使用して、無制限のプライバシー漏洩の問題に直面している。
この課題は、ユーザのすべてのレコードではなく、イベント('event'または$w$-event DP'')を保護するための、限られた時間スロット('finite data stream'')や緩和に限定する。
永続的な課題は、ユーザが多くのアクティビティに貢献し、データ分散が時間とともに進化する状況において、インプットに対する出力の感度を管理することである。
本稿では、無限のデータストリームにおいて、各ユーザのプライバシー漏洩を効果的に束縛し、正確なデータ収集と分析を可能にする、Infinite Disclosure (DPI)上での微分プライベートデータストリーミングのための新しい手法を提案する。
さらに, DPIの精度も, 新規なブースティング機構により最大化する。
最後に、さまざまなストリーミングアプリケーションと実際のデータセット(例えば、COVID-19、ネットワークトラフィック、USDA Production)にわたる広範な実験により、DPIは多様な設定で無限のデータストリームに対して高いユーティリティを維持していることが示された。
DPIのコードはhttps://github.com/ShuyaFeng/DPIで公開されている。
Streaming data, crucial for applications like crowdsourcing analytics, behavior studies, and real-time monitoring, faces significant privacy risks due to the large and diverse data linked to individuals. In particular, recent efforts to release data streams, using the rigorous privacy notion of differential privacy (DP), have encountered issues with unbounded privacy leakage. This challenge limits their applicability to only a finite number of time slots (''finite data stream'') or relaxation to protecting the events (''event or $w$-event DP'') rather than all the records of users. A persistent challenge is managing the sensitivity of outputs to inputs in situations where users contribute many activities and data distributions evolve over time. In this paper, we present a novel technique for Differentially Private data streaming over Infinite disclosure (DPI) that effectively bounds the total privacy leakage of each user in infinite data streams while enabling accurate data collection and analysis. Furthermore, we also maximize the accuracy of DPI via a novel boosting mechanism. Finally, extensive experiments across various streaming applications and real datasets (e.g., COVID-19, Network Traffic, and USDA Production), show that DPI maintains high utility for infinite data streams in diverse settings. Code for DPI is available at https://github.com/ShuyaFeng/DPI. | 翻訳日:2024-07-24 05:16:54 公開日:2024-07-20 |
# 逆タンパク質フォールディングのための進歩的多モード学習
Progressive Multi-Modality Learning for Inverse Protein Folding ( http://arxiv.org/abs/2312.06297v2 ) ライセンス: Link先を確認 | Jiangbin Zheng, Stan Z. Li, | (参考訳) 深層生成モデルは、データから直接逆タンパク質を折り畳むことを学習することを約束する一方で、公開可能な構造配列ペアリングの欠如は、その一般化を制限している。
このボトルネックを克服するためのこれまでの改善とデータ強化努力は不十分だった。
この課題をさらに解決するために,マルチモーダルトランスファー学習を利用したMMDesignという新しいタンパク質設計パラダイムを提案する。
我々の知る限り、MMDesignは、事前訓練された構造モジュールと事前訓練されたコンテキストモジュールを結合する最初のフレームワークである。
実験結果は、小さなデータセットでのみトレーニングした結果、MMDesignが様々な公開ベンチマークのベースラインを一貫して上回っていることを示している。
生物学的妥当性をさらに評価するために,タンパク質設計の法則を解明し,解釈性を提供する系統的定量的解析手法を提案する。
While deep generative models show promise for learning inverse protein folding directly from data, the lack of publicly available structure-sequence pairings limits their generalization. Previous improvements and data augmentation efforts to overcome this bottleneck have been insufficient. To further address this challenge, we propose a novel protein design paradigm called MMDesign, which leverages multi-modality transfer learning. To our knowledge, MMDesign is the first framework that combines a pretrained structural module with a pretrained contextual module, using an auto-encoder (AE) based language model to incorporate prior protein semantic knowledge. Experimental results, only training with the small dataset, demonstrate that MMDesign consistently outperforms baselines on various public benchmarks. To further assess the biological plausibility, we present systematic quantitative analysis techniques that provide interpretability and reveal more about the laws of protein design. | 翻訳日:2024-07-24 05:07:10 公開日:2024-07-20 |
# 結合振動子モデルにおけるトモグラフィエンタングルメントインジケータ
Tomographic entanglement indicators in a coupled oscillator model ( http://arxiv.org/abs/2312.08750v2 ) ライセンス: Link先を確認 | Sreelekshmi Pillai, S. Ramanan, V. Balakrishnan, S. Lakshmibala, | (参考訳) 我々は、同じ自然周波数の2つの結合線形高調波発振器からなる単純なモデルにおける絡み合いについて検討した。
この系は質量(COM)の中心で分離可能であり、相対座標は周波数$\omega_c$と$\omega_r$の2つの振動子に分離される。
我々は、周波数比 $\eta = \omega_c/\omega_r$ の関数として、標準エンタングルメント測度(サブシステム線形エントロピーとサブシステムフォン・ノイマンエントロピー)と、いくつかのトモグラフィエンタングルメント測度(バッタリア距離、クルバック・リーブラー分散、逆参加比)を計算し、COM発振器を基底状態に保つ。
全体として、絡み合いの指標は標準尺度の変動を忠実に反映していることを示す。
絡み合いは$\eta = 1$で最小であり、$\eta \to 0$または$\infty$として最大である。
We study entanglement in a simple model comprising two coupled linear harmonic oscillators of the same natural frequency. The system is separable in the center of mass (COM) and relative coordinates into two oscillators of frequency $\omega_c$ and $\omega_r$. We compute standard entanglement measures (subsystem linear entropy and subsystem von Neumann entropy) as well as several tomographic entanglement indicators (Bhattacharyya distance, Kullback-Leibler divergence and inverse participation ratio) as functions of the frequency ratio $\eta = \omega_c/\omega_r$, keeping the COM oscillator in the ground state. We demonstrate that, overall, the entanglement indicators reflect quite faithfully the variations in the standard measures. The entanglement is shown to be minimum at $\eta = 1$ and maximum as $\eta \to 0$ or $\infty$. | 翻訳日:2024-07-24 05:07:10 公開日:2024-07-20 |
# 投資決定のための解釈可能なAIモデルによる収益性と投資家信頼の促進
Enhancing Profitability and Investor Confidence through Interpretable AI Models for Investment Decisions ( http://arxiv.org/abs/2312.16223v2 ) ライセンス: Link先を確認 | Sahar Arshad, Seemab Latif, Ahmad Salman, Rabia Latif, | (参考訳) 金融予測は、金融利害関係者、特に株式市場において、情報的な決定を行う上で重要な役割を担っている。
従来の状況では、投資家は市場洞察と投資レコメンデーションに関する貴重なレポートを、通常株式調査部門に頼っている。
しかし、株式調査部門は、市場ダイナミクスの本質的に不安定な性質を分析するために必要な認知的努力の要求に対して、意思決定を効果的に行う上での課題に直面している。
さらに、アナリストが採用する金融予測システムは、解釈可能性や利害関係者の信頼を得るという観点から潜在的リスクを生じさせる。
本稿では、SHAPに基づく説明可能性技術を利用して投資提案を予測するための解釈可能な意思決定モデルを提案する。
提案されたソリューションは、予測されたレコメンデーションに影響を与える要因に関する貴重な洞察を提供するだけでなく、日々の投資機会や短期投資機会に関心のある投資家など、さまざまなタイプの投資家にも影響を及ぼす。
提案モデルの有効性を確認するため,取引戦略を用いて,投資家のポートフォリオ価値の顕著な向上を示すケーススタディを考案した。
この結果は、利害関係者の信頼を高め、株式取引領域における透明性を高めるために、予測モデルに解釈可能性を導入することの重要性を強調している。
Financial forecasting plays an important role in making informed decisions for financial stakeholders, specifically in the stock exchange market. In a traditional setting, investors commonly rely on the equity research department for valuable reports on market insights and investment recommendations. The equity research department, however, faces challenges in effectuating decision-making do to the demanding cognitive effort required for analyzing the inherently volatile nature of market dynamics. Furthermore, financial forecasting systems employed by analysts pose potential risks in terms of interpretability and gaining the trust of all stakeholders. This paper presents an interpretable decision-making model leveraging the SHAP-based explainability technique to forecast investment recommendations. The proposed solution not only provides valuable insights into the factors that influence forecasted recommendations but also caters the investors of varying types, including those interested in daily and short-term investment opportunities. To ascertain the efficacy of the proposed model, a case study is devised that demonstrates a notable enhancement in investor's portfolio value, employing our trading strategies. The results highlight the significance of incorporating interpretability in forecasting models to boost stakeholders' confidence and foster transparency in the stock exchange domain. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-20 |
# ニュースレポーティングにおけるチェリーピッキングの文脈認識検出について
On Context-aware Detection of Cherry-picking in News Reporting ( http://arxiv.org/abs/2401.05650v2 ) ライセンス: Link先を確認 | Israa Jaradat, Haiqi Zhang, Chengkai Li, | (参考訳) チェリーピッキング(Cherry-picking)とは、特定の視点を好んだ証拠や事実を意図的に選別し、反対の視点を支持する証拠を無視したり歪んだりすることを指す。
ニュース記事のチェリーピックされた文を手動で識別することは難しい。
本研究では,他のニュースソースの言語モデルと文脈情報を用いて,対象とするニュースストーリーにおける重要文の欠落を識別し,サクラの抽出文を検出する手法を提案する。
さらに,サクラ検出モデルの訓練と評価に特化して設計された新しいデータセットを提案する。
評価モデルでは,F-1スコアが89%,重要な文が検出された。
さらに,論文の重要度を評価する際に,他の物語から外部知識を取り入れることの有効性が示唆された。
Cherry-picking refers to the deliberate selection of evidence or facts that favor a particular viewpoint while ignoring or distorting evidence that supports an opposing perspective. Manually identifying cherry-picked statements in news stories can be challenging. In this study, we introduce a novel approach to detecting cherry-picked statements by identifying missing important statements in a target news story using language models and contextual information from other news sources. Furthermore, this research introduces a novel dataset specifically designed for training and evaluating cherry-picking detection models. Our best performing model achieves an F-1 score of about 89% in detecting important statements. Moreover, results show the effectiveness of incorporating external knowledge from alternative narratives when assessing statement importance. | 翻訳日:2024-07-24 03:12:35 公開日:2024-07-20 |
# 低リソース言語における機械翻訳のためのコントラストアライメント命令付きLLMのチューニング
Tuning LLMs with Contrastive Alignment Instructions for Machine Translation in Unseen, Low-resource Languages ( http://arxiv.org/abs/2401.05811v2 ) ライセンス: Link先を確認 | Zhuoyuan Mao, Yen Yu, | (参考訳) 本稿では,大規模言語モデル(LLM)における機械翻訳(MT)の2つの課題に対処するために,コントラッシブアライメント命令(AlignInstruct)を紹介する。
ひとつは、サポート対象の言語を、これまで見つからなかった言語に拡張することです。
2つ目は、低リソース言語におけるデータの欠如に関するものだ。
MT命令(MT Instruct)によるモデル微調整は、最初の課題に対する簡単なアプローチである。
しかし、MTInstructは第2チャレンジに固有の弱い言語間信号によって制限される。
AlignInstructは、統計的単語アライメントを用いて構築された言語間識別器による言語間監督を強調している。
その結果, BLOOMZ モデル (1b1, 3b, 7b1) を最大24の未知言語で微調整した結果, 1) LLM は MTInstruct を用いて効果的に未確認言語を翻訳できる, (2) AlignInstruct は英語を含む48の翻訳方向の翻訳品質を一貫した改善を実現し, 3) 識別器に基づく指示は, 生成言語を言語間命令として優れ, (4) AlignInstruct は30のゼロショット指示で性能を向上した。
This article introduces contrastive alignment instructions (AlignInstruct) to address two challenges in machine translation (MT) on large language models (LLMs). One is the expansion of supported languages to previously unseen ones. The second relates to the lack of data in low-resource languages. Model fine-tuning through MT instructions (MTInstruct) is a straightforward approach to the first challenge. However, MTInstruct is limited by weak cross-lingual signals inherent in the second challenge. AlignInstruct emphasizes cross-lingual supervision via a cross-lingual discriminator built using statistical word alignments. Our results based on fine-tuning the BLOOMZ models (1b1, 3b, and 7b1) in up to 24 unseen languages showed that: (1) LLMs can effectively translate unseen languages using MTInstruct; (2) AlignInstruct led to consistent improvements in translation quality across 48 translation directions involving English; (3) Discriminator-based instructions outperformed their generative counterparts as cross-lingual instructions; (4) AlignInstruct improved performance in 30 zero-shot directions. | 翻訳日:2024-07-24 03:02:44 公開日:2024-07-20 |
# 任意の繰り返しデータサンプリングによる確率最適化
Stochastic optimization with arbitrary recurrent data sampling ( http://arxiv.org/abs/2401.07694v2 ) ライセンス: Link先を確認 | William G. Powell, Hanbaek Lyu, | (参考訳) 確率的最適化のための最適一階収束保証を得るためには、十分な頻度で全てのデータポイントをサンプリングする反復データサンプリングアルゴリズムを用いる必要がある。
最もよく使われるデータサンプリングアルゴリズム(例えば、MCMC、ランダムリシャッフル)は、実際は穏やかな仮定の下で繰り返される。
本研究では,特定の確率最適化アルゴリズムに対して,データサンプリングアルゴリズムにおける再帰性以外の特性(独立性,指数混合性,再シャッフル性など)を必要とせず,一階収束の最適性を保証する。
すなわち、インクリメンタルサロゲート最適化(MISO)による最小化の正規化バージョンを用いて、非凸およびおそらく非滑らかな目的関数に対して、期待される最適性ギャップは、一般的な再帰サンプリングスキームの下での最適速度$O(n^{-1/2})$で収束することを示す。
さらに、インプリート定数は、現在の位置上で平均値(「ターゲット時間」)または上限値(「ハイティング時間」)を訪問する所望の時間量によって測定される「再発速度」に明示的に依存する。
我々は,データセットを効果的にカバーするサンプリングアルゴリズムを選択することにより,収束を加速できることを理論的かつ実証的に実証する。
本稿では,分散最適化と分散非負行列分解への一般フレームワークの適用について論じる。
For obtaining optimal first-order convergence guarantee for stochastic optimization, it is necessary to use a recurrent data sampling algorithm that samples every data point with sufficient frequency. Most commonly used data sampling algorithms (e.g., i.i.d., MCMC, random reshuffling) are indeed recurrent under mild assumptions. In this work, we show that for a particular class of stochastic optimization algorithms, we do not need any other property (e.g., independence, exponential mixing, and reshuffling) than recurrence in data sampling algorithms to guarantee the optimal rate of first-order convergence. Namely, using regularized versions of Minimization by Incremental Surrogate Optimization (MISO), we show that for non-convex and possibly non-smooth objective functions, the expected optimality gap converges at an optimal rate $O(n^{-1/2})$ under general recurrent sampling schemes. Furthermore, the implied constant depends explicitly on the `speed of recurrence', measured by the expected amount of time to visit a given data point either averaged (`target time') or supremized (`hitting time') over the current location. We demonstrate theoretically and empirically that convergence can be accelerated by selecting sampling algorithms that cover the data set most effectively. We discuss applications of our general framework to decentralized optimization and distributed non-negative matrix factorization. | 翻訳日:2024-07-24 03:02:44 公開日:2024-07-20 |
# 対向移動性を高めるためのトリックの袋
Bag of Tricks to Boost Adversarial Transferability ( http://arxiv.org/abs/2401.08734v2 ) ライセンス: Link先を確認 | Zeliang Zhang, Wei Yao, Xiaosen Wang, | (参考訳) ディープニューラルネットワークは敵の例に弱いことが広く知られている。
しかしながら、ホワイトボックス設定で生成されたバニラ逆数例は、しばしば異なるモデル間で低い転送可能性を示す。
逆転移性は実用上より深刻な脅威となるため、勾配ベース、入力変換ベース、モデル関連攻撃など、様々なアプローチが提案されている。
本研究では,既存の敵攻撃の微妙な変化が攻撃性能,フェーグ,イテレーション数,ステップサイズに大きく影響することを発見した。
既存の敵攻撃の綿密な研究に基づいて、運動量初期化、スケジュールされたステップサイズ、二重例、スペクトルベースの入力変換、およびいくつかのアンサンブル戦略を含む、敵移動性を高めるためのトリックの袋を提案する。
ImageNetデータセットの大規模な実験により,提案手法の有効性を検証し,それらを組み合わせることで,対向移動性をさらに向上させることができることを示す。
本研究は,現実のアプリケーションに対する攻撃性能向上のためのガイダンスを,簡単な調整により提供する。
Deep neural networks are widely known to be vulnerable to adversarial examples. However, vanilla adversarial examples generated under the white-box setting often exhibit low transferability across different models. Since adversarial transferability poses more severe threats to practical applications, various approaches have been proposed for better transferability, including gradient-based, input transformation-based, and model-related attacks, \etc. In this work, we find that several tiny changes in the existing adversarial attacks can significantly affect the attack performance, \eg, the number of iterations and step size. Based on careful studies of existing adversarial attacks, we propose a bag of tricks to enhance adversarial transferability, including momentum initialization, scheduled step size, dual example, spectral-based input transformation, and several ensemble strategies. Extensive experiments on the ImageNet dataset validate the high effectiveness of our proposed tricks and show that combining them can further boost adversarial transferability. Our work provides practical insights and techniques to enhance adversarial transferability, and offers guidance to improve the attack performance on the real-world application through simple adjustments. | 翻訳日:2024-07-24 03:02:44 公開日:2024-07-20 |
# 深層学習と低次モデリングを用いた乗法雑音をもつ非分離ハミルトンのベイズ的同定
Bayesian identification of nonseparable Hamiltonians with multiplicative noise using deep learning and reduced-order modeling ( http://arxiv.org/abs/2401.12476v3 ) ライセンス: Link先を確認 | Nicholas Galioto, Harsh Sharma, Boris Kramer, Alex Arkady Gorodetsky, | (参考訳) 本稿では,統計的に依存し,ベクトル値の付加音と乗法的測定音を扱える確率論的力学モデルを用いて,非分離型ハミルトン系を学習するための構造保存ベイズ的手法を提案する。
アプローチは3つのメインセットで構成されている。
まず,ベイズ後部の確率を評価するために必要となる,統計的に依存的,ベクトル値,加法的および乗法的雑音モデルに対するガウスフィルタを導出する。
第2に,高次元システムへのベイズ同定のコスト効率向上のための新しいアルゴリズムを開発した。
第三に、構造保存手法が提案するフレームワークにどのように組み入れられるかを示し、非分離ハミルトニアンを図式システムクラスとして利用する。
単軌道データから推定したモデルの予測精度に基づいて,本手法の性能を評価する。
ベイジアン法を、標準的非分離型ハミルトンモデルと、小さな雑音の多い訓練データセットを持つカオス的二重振り子モデルを用いて、最先端の機械学習手法と比較する。
その結果,ベイズ後部をトレーニング目的として用いると,ハミルトン平均二乗誤差の724倍の改善が得られることがわかった。
最後に,最大20%の乗法ノイズで劣化したデータを含む空間分散非線形シュリンガー方程式の64次元モデルのパラメータ推定に対する新しいアルゴリズムの有用性を実証する。
This paper presents a structure-preserving Bayesian approach for learning nonseparable Hamiltonian systems using stochastic dynamic models allowing for statistically-dependent, vector-valued additive and multiplicative measurement noise. The approach is comprised of three main facets. First, we derive a Gaussian filter for a statistically-dependent, vector-valued, additive and multiplicative noise model that is needed to evaluate the likelihood within the Bayesian posterior. Second, we develop a novel algorithm for cost-effective application of Bayesian system identification to high-dimensional systems. Third, we demonstrate how structure-preserving methods can be incorporated into the proposed framework, using nonseparable Hamiltonians as an illustrative system class. We assess the method's performance based on the forecasting accuracy of a model estimated from single-trajectory data. We compare the Bayesian method to a state-of-the-art machine learning method on a canonical nonseparable Hamiltonian model and a chaotic double pendulum model with small, noisy training datasets. The results show that using the Bayesian posterior as a training objective can yield upwards of 724 times improvement in Hamiltonian mean squared error using training data with up to 10% multiplicative noise compared to a standard training objective. Lastly, we demonstrate the utility of the novel algorithm for parameter estimation of a 64-dimensional model of the spatially-discretized nonlinear Schr\"odinger equation with data corrupted by up to 20% multiplicative noise. | 翻訳日:2024-07-24 03:02:44 公開日:2024-07-20 |
# 大規模言語モデルを用いた因果グラフの効率的な探索
Efficient Causal Graph Discovery Using Large Language Models ( http://arxiv.org/abs/2402.01207v4 ) ライセンス: Link先を確認 | Thomas Jiralerspong, Xiaoyin Chen, Yash More, Vedant Shah, Yoshua Bengio, | (参考訳) 完全な因果グラフ発見にLLMを利用する新しいフレームワークを提案する。
従来のLCMベースの手法ではペアワイズクエリ方式が用いられてきたが、より大規模な因果グラフではすぐに非現実的になるようなクエリの二次的な数を必要とする。
対照的に、提案フレームワークは、線形数のクエリしか使用できないような、幅優先探索(BFS)アプローチを採用している。
また,提案手法は観測データを容易に組み込むことができ,性能を向上できることを示す。
提案フレームワークは,時間とデータ効率の向上に加えて,様々なサイズの実世界の因果グラフに対して,最先端の結果を達成している。
その結果,提案手法の因果関係の発見における有効性と有効性を示し,各領域にまたがる因果グラフ発見タスクに適用可能性を示した。
We propose a novel framework that leverages LLMs for full causal graph discovery. While previous LLM-based methods have used a pairwise query approach, this requires a quadratic number of queries which quickly becomes impractical for larger causal graphs. In contrast, the proposed framework uses a breadth-first search (BFS) approach which allows it to use only a linear number of queries. We also show that the proposed method can easily incorporate observational data when available, to improve performance. In addition to being more time and data-efficient, the proposed framework achieves state-of-the-art results on real-world causal graphs of varying sizes. The results demonstrate the effectiveness and efficiency of the proposed method in discovering causal relationships, showcasing its potential for broad applicability in causal graph discovery tasks across different domains. | 翻訳日:2024-07-24 02:50:43 公開日:2024-07-20 |
# MLLMはテキスト・ツー・イメージ・インテクスト・ラーニングを実現できるか?
Can MLLMs Perform Text-to-Image In-Context Learning? ( http://arxiv.org/abs/2402.01293v3 ) ライセンス: Link先を確認 | Yuchen Zeng, Wonjun Kang, Yicong Chen, Hyung Il Koo, Kangwook Lee, | (参考訳) LLM(Large Language Models)からMLLM(Multimodal Large Language Models)への進化は、ICL(In-Context Learning)をマルチモーダルに拡張する研究を刺激している。
既存の研究は主に画像からテキストへのICLに焦点を当てている。
しかし、T2I-ICL(Text-to-Image ICL)の特長と潜在的な用途は未定である。
このギャップに対処するため、我々はT2I-ICLのタスクを正式に定義し、10タスクを含む最初のT2I-ICLベンチマークデータセットであるCoBSATを提示する。
T2I-ICLを解く上でMLLMが遭遇するかなりの困難を、我々のデータセットを用いて6つの最先端MLLMをベンチマークした。
我々は、主な課題を、マルチモーダルと画像生成の固有の複雑さとして認識し、微調整や結束といった戦略がこれらの困難を緩和し、パフォーマンスの顕著な改善につながっていることを示す。
私たちのコードとデータセットはhttps://github.com/UW-Madison-Lee-Lab/CoBSAT.comで公開されています。
The evolution from Large Language Models (LLMs) to Multimodal Large Language Models (MLLMs) has spurred research into extending In-Context Learning (ICL) to its multimodal counterpart. Existing such studies have primarily concentrated on image-to-text ICL. However, the Text-to-Image ICL (T2I-ICL), with its unique characteristics and potential applications, remains underexplored. To address this gap, we formally define the task of T2I-ICL and present CoBSAT, the first T2I-ICL benchmark dataset, encompassing ten tasks. Utilizing our dataset to benchmark six state-of-the-art MLLMs, we uncover considerable difficulties MLLMs encounter in solving T2I-ICL. We identify the primary challenges as the inherent complexity of multimodality and image generation, and show that strategies such as fine-tuning and Chain-of-Thought prompting help to mitigate these difficulties, leading to notable improvements in performance. Our code and dataset are available at https://github.com/UW-Madison-Lee-Lab/CoBSAT. | 翻訳日:2024-07-24 02:50:43 公開日:2024-07-20 |
# 静電気サイドチャネル攻撃に対する軽量対策
Lightweight Countermeasures Against Static Power Side-Channel Attacks ( http://arxiv.org/abs/2402.03196v2 ) ライセンス: Link先を確認 | Jitendra Bhandari, Mohammed Nabeel, Likhitha Mankali, Ozgur Sinanoglu, Ramesh Karri, Johann Knechtel, | (参考訳) 本稿では,静的電力サイドチャネル攻撃(PSCA)に対する新たな防御戦略を提案する。
本手法は,(1)合成中の高Vthと低Vthのセル選択を注意深く調整し,セキュリティとタイミングの影響を考慮し,(2)実行時にこれらのセル間の操作をランダムに切り替えることに基づく。
このアプローチは静的PSCAの中心にある、非常に曖昧な静的パワーパターンに役立ちます。
商業用28nmノードを用いた実験の結果,攻撃に要する労力は96倍に増加した。
これまでの対策と比較すると、コストは少なく、軽量な防御手段となっている。
This paper presents a novel defense strategy against static power side-channel attacks (PSCAs), a critical threat to cryptographic security. Our method is based on (1) carefully tuning high-Vth versus low-Vth cell selection during synthesis, accounting for both security and timing impact, and (2), at runtime, randomly switching the operation between these cells. This approach serves to significantly obscure static power patterns, which are at the heart of static PSCAs. Our experimental results on a commercial 28nm node show a drastic increase in the effort required for a successful attack, namely up to 96 times more traces. When compared to prior countermeasures, ours incurs little cost, making it a lightweight defense. | 翻訳日:2024-07-24 02:50:43 公開日:2024-07-20 |
# 2つのトレードはバッフルされない:グラフを合理的なグラディエントマッチングで凝縮する
Two Trades is not Baffled: Condensing Graph via Crafting Rational Gradient Matching ( http://arxiv.org/abs/2402.04924v4 ) ライセンス: Link先を確認 | Tianle Zhang, Yuchen Zhang, Kun Wang, Kai Wang, Beining Yang, Kaipeng Zhang, Wenqi Shao, Ping Liu, Joey Tianyi Zhou, Yang You, | (参考訳) 大規模グラフの学習はグラフ表現学習において顕著な成果を上げてきたが、そのコストと記憶力の増大が懸念されている。
最も有望な方向の1つとして、グラフ凝縮法は勾配マッチングを用いてこれらの問題に対処し、全グラフをより簡潔で情報に富んだ合成集合に凝縮することを目的としている。
これらの戦略は励まされるが、主に勾配の一致方向を強調し、訓練軌道のずれにつながる。
このような偏差は、凝縮と評価相の違いによってさらに拡大され、凝縮グラフの性能に有害な累積誤差が決定される。
そこで本研究では,従来のデータセットの特徴分布に近い最適化された出発点と,勾配マッチングのためのより洗練された戦略を提供する,新しいグラフ凝縮法である \textbf{C}raf\textbf{T}ing \textbf{R}ationa\textbf{L} トラジェクトリ(\textbf{CTRL})を提案する。
理論的には、CTRLは凝縮グラフの性能に対する累積誤差の影響を効果的に中和することができる。
我々は、CTRLの有効性をサポートするために、様々なグラフデータセットと下流タスクについて広範な実験を行った。
コードはhttps://github.com/NUS-HPC-AI-Lab/CTRLで公開されている。
Training on large-scale graphs has achieved remarkable results in graph representation learning, but its cost and storage have raised growing concerns. As one of the most promising directions, graph condensation methods address these issues by employing gradient matching, aiming to condense the full graph into a more concise yet information-rich synthetic set. Though encouraging, these strategies primarily emphasize matching directions of the gradients, which leads to deviations in the training trajectories. Such deviations are further magnified by the differences between the condensation and evaluation phases, culminating in accumulated errors, which detrimentally affect the performance of the condensed graphs. In light of this, we propose a novel graph condensation method named \textbf{C}raf\textbf{T}ing \textbf{R}ationa\textbf{L} trajectory (\textbf{CTRL}), which offers an optimized starting point closer to the original dataset's feature distribution and a more refined strategy for gradient matching. Theoretically, CTRL can effectively neutralize the impact of accumulated errors on the performance of condensed graphs. We provide extensive experiments on various graph datasets and downstream tasks to support the effectiveness of CTRL. Code is released at https://github.com/NUS-HPC-AI-Lab/CTRL. | 翻訳日:2024-07-24 02:50:43 公開日:2024-07-20 |
# 逆転破壊に対するロバストモデルに基づく強化学習に向けて
Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption ( http://arxiv.org/abs/2402.08991v3 ) ライセンス: Link先を確認 | Chenlu Ye, Jiafan He, Quanquan Gu, Tong Zhang, | (参考訳) 本研究では, モデルベース強化学習(RL)において, 対向的破壊の課題に対処する。
汚損RLに関する既存の研究は、主にモデルのないRLの設定に焦点を当てており、ロバストな最小二乗回帰が値関数の推定にしばしば用いられる。
しかし、これらの手法はモデルベースRLに直接適用することはできない。
本稿では,モデルに基づくRLに着目し,最大推定(MLE)アプローチを用いて遷移モデルを学習する。
私たちの作業には、オンラインとオフラインの両方の設定が含まれています。
オンライン環境では、全変量(TV)に基づく情報比をMLEの不確実量として活用する、汚損楽観的なMLE (CR-OMLE) というアルゴリズムを導入する。
CR-OMLE が $\tilde{\mathcal{O}}(\sqrt{T} + C)$ の後悔を達成したことを証明します。
また、$C$に対する加法依存が最適であることを示す境界も低く証明する。
我々は、重み付け手法をオフライン設定に拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
均一なカバレッジ条件下では、CR-PMLEは$\mathcal{O}(C/n)$によって悪化し、下界とほぼ一致する。
我々の知る限りでは、確証のあるモデルに基づくRLアルゴリズムに関する最初の研究である。
This study tackles the challenges of adversarial corruption in model-based reinforcement learning (RL), where the transition dynamics can be corrupted by an adversary. Existing studies on corruption-robust RL mostly focus on the setting of model-free RL, where robust least-square regression is often employed for value function estimation. However, these techniques cannot be directly applied to model-based RL. In this paper, we focus on model-based RL and take the maximum likelihood estimation (MLE) approach to learn transition model. Our work encompasses both online and offline settings. In the online setting, we introduce an algorithm called corruption-robust optimistic MLE (CR-OMLE), which leverages total-variation (TV)-based information ratios as uncertainty weights for MLE. We prove that CR-OMLE achieves a regret of $\tilde{\mathcal{O}}(\sqrt{T} + C)$, where $C$ denotes the cumulative corruption level after $T$ episodes. We also prove a lower bound to show that the additive dependence on $C$ is optimal. We extend our weighting technique to the offline setting, and propose an algorithm named corruption-robust pessimistic MLE (CR-PMLE). Under a uniform coverage condition, CR-PMLE exhibits suboptimality worsened by $\mathcal{O}(C/n)$, nearly matching the lower bound. To the best of our knowledge, this is the first work on corruption-robust model-based RL algorithms with provable guarantees. | 翻訳日:2024-07-24 02:40:58 公開日:2024-07-20 |
# 長期参照効果を考慮した動的価格設定と学習
Dynamic Pricing and Learning with Long-term Reference Effects ( http://arxiv.org/abs/2402.12562v2 ) ライセンス: Link先を確認 | Shipra Agrawal, Wei Tang, | (参考訳) 我々は、現在の価格に対する顧客の反応が顧客の価格予想、いわゆる参照価格に影響されるような動的価格問題を考える。
本研究では,販売者が提示した過去の価格の基準価格が平均値となる,シンプルで斬新な参照価格メカニズムについて検討する。
一般に研究されている指数的円滑化メカニズムとは対照的に、当社の参照価格メカニズムでは、売り手が提供する価格が将来の顧客の期待に長期的な影響を与える。
このメカニズムの下では,モデルパラメータに関係なく,マークダウンポリシがほぼ最適であることを示す。
これは、売り手が高い価格から始めて値下げし、通常より高価な商品で取引をしているように感じることで、売り手の方が良いという一般的な直感と一致する。
また、線形需要モデルに対しては、最適に近いマークダウンポリシーの詳細な特徴付けと効率的な計算方法も提供する。
次に、需要モデルパラメータが不明であり、売り手は、提示された価格に対する顧客の反応からオンラインで学習し、同時に収益を最適化する必要がある、より困難な動的価格と学習の問題を考える。
目的は、過激な最適政策と比較して、後悔、すなわちT$ラウンドの収益損失を最小化することである。
このタスクは基本的に、時間変量マルコフ決定過程(MDP)における非定常最適ポリシーの学習に相当する。
線形需要モデルに対して、最適$\tilde{O}(\sqrt{T})$ regret upper bound を持つ効率的な学習アルゴリズムを提供する。
We consider a dynamic pricing problem where customer response to the current price is impacted by the customer price expectation, aka reference price. We study a simple and novel reference price mechanism where reference price is the average of the past prices offered by the seller. As opposed to the more commonly studied exponential smoothing mechanism, in our reference price mechanism the prices offered by seller have a longer term effect on the future customer expectations. We show that under this mechanism, a markdown policy is near-optimal irrespective of the parameters of the model. This matches the common intuition that a seller may be better off by starting with a higher price and then decreasing it, as the customers feel like they are getting bargains on items that are ordinarily more expensive. For linear demand models, we also provide a detailed characterization of the near-optimal markdown policy along with an efficient way of computing it. We then consider a more challenging dynamic pricing and learning problem, where the demand model parameters are apriori unknown, and the seller needs to learn them online from the customers' responses to the offered prices while simultaneously optimizing revenue. The objective is to minimize regret, i.e., the $T$-round revenue loss compared to a clairvoyant optimal policy. This task essentially amounts to learning a non-stationary optimal policy in a time-variant Markov Decision Process (MDP). For linear demand models, we provide an efficient learning algorithm with an optimal $\tilde{O}(\sqrt{T})$ regret upper bound. | 翻訳日:2024-07-24 02:40:58 公開日:2024-07-20 |
# ノード分類とリンク予測のための超次元計算
Hyperdimensional Computing for Node Classification and Link Prediction ( http://arxiv.org/abs/2402.17073v2 ) ライセンス: Link先を確認 | Abhishek Dalvi, Vasant Honavar, | (参考訳) 超次元表現を用いたグラフ上のトランスダクティブ学習法を提案する。
提案手法は, ランダムプロジェクションを用いたデータサンプルを高次元空間(超次元空間, 略してHD空間)に符号化する。
ディープラーニングの手法が必要とするような、高価な反復的なトレーニングは不要である。
具体的には,超次元グラフ学習(HDGL)アルゴリズムを提案する。
HDGLは、グラフニューラルネットワーク(GNN)ファミリーのノード表現のemph{injectivity}特性を利用して、ノードの特徴をHD空間にマッピングし、各ノードの局所的な近傍から情報を集約するためにバンドルやバインディングなどのHD演算子を使用する。
結果として生じる潜在ノード表現は、典型的なディープラーニング手法とは異なり、ノード分類とリンク予測タスクの両方をサポートする。
本稿では, ノード分類タスクにおいて, HDGLがSOTA GNN法と競合し, 計算コストを大幅に削減することを示すために, 広く使用されているベンチマークデータセットを用いた実験結果について報告する。
さらに、HDGLは、クラスの増進学習に適しており、モデルの学習は、クラス数の増加を効果的に区別する必要がある。
また,HDGLで構築したHD表現は,計算コストのかかる反復学習に依存するSOTAグラフニューラルネットワーク(GNN)手法を欠いているものの,DeepWalkと同等の精度でリンク予測をサポートすることを示した。
特に,クラス増分学習を要求される設定や,SOTA GNNよりも計算コストと学習時間を大幅に低減した高精度モデルを必要とするアプリケーションにおいて,HDGLはノード分類のためのグラフニューラルネットワークに代わる計算効率のよい代替手段である,と結論付けている。
We introduce a novel method for transductive learning on graphs using hyperdimensional representations. The proposed approach encodes data samples using random projections into a very high-dimensional space (hyperdimensional or HD space for short). It obviates the need for expensive iterative training of the sort required by deep learning methods. Specifically, we propose a Hyperdimensional Graph Learning (HDGL) algorithm. HDGL leverages the \emph{injectivity} property of node representations of a family of Graph Neural Networks (GNNs) to map node features to the HD space and then uses HD operators such as bundling and binding to aggregate information from the local neighborhood of each node. The resulting latent node representations support both node classification and link prediction tasks, unlike typical deep learning methods, which often require separate models for these tasks. We report results of experiments using widely used benchmark datasets which demonstrate that, on the node classification task, HDGL is competitive with the SOTA GNN methods with respect to accuracy, at substantially reduced computational cost. Furthermore, HDGL is well-suited for class incremental learning where the model has to learn to effectively discriminate between a growing number of classes. Our experiments also show that the HD representation constructed by HDGL supports link prediction at accuracies comparable to that of DeepWalk and related methods, although it falls short of SOTA Graph Neural Network (GNN) methods that rely on computationally expensive iterative training. We conclude that HDGL offers a computationally efficient alternative to graph neural networks for node classification, especially in settings that call for class-incremental learning or in applications that demand high accuracy models at significantly lower computational cost and learning time than possible with the SOTA GNNs. | 翻訳日:2024-07-24 02:40:58 公開日:2024-07-20 |
# TrustRate: ハイジャックな匿名レビューのための分散プラットフォーム
TrustRate: A Decentralized Platform for Hijack-Resistant Anonymous Reviews ( http://arxiv.org/abs/2402.18386v3 ) ライセンス: Link先を確認 | Rohit Dwivedula, Sriram Sridhar, Sambhav Satija, Muthian Sivathanu, Nishanth Chandran, Divya Gupta, Satya Lokam, | (参考訳) ユーザによるレビューや評価は、今日では広く使われているいくつかの製品(製品レビュー、オンラインコンテンツのレーティングなど)において中心的な要素となっているが、今日のレビューを管理するプラットフォームは、ボットによる偽レビューや、動機付けられた有給労働者による偽レビューによって、様々なタイプの改ざんやハイジャックに対してアドホックで脆弱である。
このようなレビュープラットフォームに対して、'hijack-resistance'と呼ばれる新しいメトリクスを定義し、続いて、真正、匿名、改ざん防止のレビューのための、エンドツーエンドの分散されたハイジャック耐性プラットフォームであるTrustRateを紹介します。
数千のノード規模のプロトタイプの実装と評価により、我々は、レビューを管理する単一の組織を信頼することなく、エンドユーザーによる信頼されたレビューに基づく製品開発のための新しいパラダイムに向けて、プラットフォームの有効性と性能を実証する。
Reviews and ratings by users form a central component in several widely used products today (e.g., product reviews, ratings of online content, etc.), but today's platforms for managing such reviews are ad-hoc and vulnerable to various forms of tampering and hijack by fake reviews either by bots or motivated paid workers. We define a new metric called 'hijack-resistance' for such review platforms, and then present TrustRate, an end-to-end decentralized, hijack-resistant platform for authentic, anonymous, tamper-proof reviews. With a prototype implementation and evaluation at the scale of thousands of nodes, we demonstrate the efficacy and performance of our platform, towards a new paradigm for building products based on trusted reviews by end users without having to trust a single organization that manages the reviews. | 翻訳日:2024-07-24 02:30:51 公開日:2024-07-20 |
# 集積非線形量子光学のシミュレーション:非線形干渉計から時間的ウォークオフ補償器へ
Simulation of integrated nonlinear quantum optics: from nonlinear interferometer to temporal walk-off compensator ( http://arxiv.org/abs/2402.19317v3 ) ライセンス: Link先を確認 | Seonghun Kim, Youngbin Kim, Young-Do Yoon, Seongjin Jeon, Woo-Joo Kim, Young-Ik Sohn, | (参考訳) 非線形量子フォトニクスは、普遍量子コンピューティングや量子通信のようなフォトニック量子技術の基盤となる。
統合フォトニクスプラットフォームの出現は、大規模製造の利点を提供するだけでなく、様々な工学的手法も提供する。
統合フォトニクス工学の複雑さを考えると、プラットフォームの可能性を完全に活用するためには、包括的なシミュレーションフレームワークが不可欠である。
本稿では, 非線形量子フォトニクスシミュレーションフレームワークを導入し, 断熱導波路, 材料異方性, 線形光学部品, 光子損失, 検出器などの様々な特徴を正確にモデル化する。
さらに,このフレームワークを利用して,様々な量子情報処理タスクに有用なチップスケールの時間的ウォークオフ補償装置を開発した。
シミュレーション・フレームワークを用いて,提案手法により, ポンプパワーを必要とせずに, 光子対光源のスクイーズパラメータと量子周波数変換器の変換効率を向上させることができることを示す。
Nonlinear quantum photonics serves as a cornerstone in photonic quantum technologies, such as universal quantum computing and quantum communications. The emergence of integrated photonics platform not only offers the advantage of large-scale manufacturing but also provides a variety of engineering methods. Given the complexity of integrated photonics engineering, a comprehensive simulation framework is essential to fully harness the potential of the platform. In this context, we introduce a nonlinear quantum photonics simulation framework which can accurately model a variety of features such as adiabatic waveguide, material anisotropy, linear optics components, photon losses, and detectors. Furthermore, utilizing the framework, we have developed a device scheme, chip-scale temporal walk-off compensation, that is useful for various quantum information processing tasks. Applying the simulation framework, we show that the proposed device scheme can enhance the squeezing parameter of photon-pair sources and the conversion efficiency of quantum frequency converters without relying on higher pump power. | 翻訳日:2024-07-24 02:30:51 公開日:2024-07-20 |
# 対人スパース教師 : 対人例を用いた蒸留モデルステアリング攻撃に対する防御
Adversarial Sparse Teacher: Defense Against Distillation-Based Model Stealing Attacks Using Adversarial Examples ( http://arxiv.org/abs/2403.05181v2 ) ライセンス: Link先を確認 | Eda Yilmaz, Hacer Yalim Keles, | (参考訳) 本稿では,蒸留モデル盗難攻撃に対する堅牢な防御手法であるAdversarial Sparse Teacher (AST)を紹介する。
提案手法は,逆例を用いて教師モデルを訓練し,スパースロジット応答を生成し,出力分布のエントロピーを増大させる。
通常、モデルはその予測に対応する出力のピークを生成する。
敵対的な例を活用することで、ASTは教師モデルのオリジナルの応答を修正し、いくつかの変更されたロジットを出力に埋め込むと同時に、プライマリレスポンスをわずかに高く保つ。
同時に、残りの全てのロジットは、出力分布のエントロピーをさらに高めるために高められる。
これらの複雑な操作は、提案したEPD(Exponential Predictive Divergence)損失関数を用いた最適化関数を用いて行われる。
EPDは従来のKL分岐よりも高いエントロピーレベルを維持し、攻撃者を効果的に混乱させます。
CIFAR-10とCIFAR-100データセットの実験では、ASTは最先端の手法よりも優れており、高い精度を維持しながらモデル盗難に対する効果的な防御を提供する。
ソースコードはまもなく公開される予定だ。
We introduce Adversarial Sparse Teacher (AST), a robust defense method against distillation-based model stealing attacks. Our approach trains a teacher model using adversarial examples to produce sparse logit responses and increase the entropy of the output distribution. Typically, a model generates a peak in its output corresponding to its prediction. By leveraging adversarial examples, AST modifies the teacher model's original response, embedding a few altered logits into the output while keeping the primary response slightly higher. Concurrently, all remaining logits are elevated to further increase the output distribution's entropy. All these complex manipulations are performed using an optimization function with our proposed Exponential Predictive Divergence (EPD) loss function. EPD allows us to maintain higher entropy levels compared to traditional KL divergence, effectively confusing attackers. Experiments on CIFAR-10 and CIFAR-100 datasets demonstrate that AST outperforms state-of-the-art methods, providing effective defense against model stealing while preserving high accuracy. The source codes will be made publicly available here soon. | 翻訳日:2024-07-24 02:21:06 公開日:2024-07-20 |
# データの構造: セマンティックグラフのカウンターファクトへ
Structure Your Data: Towards Semantic Graph Counterfactuals ( http://arxiv.org/abs/2403.06514v2 ) ライセンス: Link先を確認 | Angeliki Dimitriou, Maria Lymperaiou, Giorgos Filandrianos, Konstantinos Thomas, Giorgos Stamou, | (参考訳) 概念に基づく対実的説明(CE)は、特定のモデル予測にどの高度な意味的特徴が寄与するかを理解するための代替シナリオを考える説明である。
本研究では,入力データに付随する意味グラフに基づくCEを提案する。
最新技術(SoTA)の概念的試みに基づいて,モデルに依存しない編集アプローチを採用し,グラフ編集距離(GED)の効率的な計算にGNNを活用する。
視覚領域に焦点をあてて、画像をシーングラフとして表現し、そのGNN埋め込みを取得し、全ての入力ペアに対するNP-ハードグラフ類似性問題を回避し、CE計算プロセスの不可欠な部分となる。
提案手法は,セマンティックアノテーションの難易度と可用性の異なる実世界のデータセットのベンチマークに応用する。
多様な分類器を試験したところ、CEは、概念的およびピクセルレベルのアプローチだけでなく、ホワイトボックスとブラックボックスの両方を含むセマンティクスに基づく従来のSoTA説明モデルよりも優れていることがわかった。
彼らの優位性は定量的かつ質的に証明され、人間によって検証され、複雑な関係の存在下で意味的エッジを活用することの重要性を強調している。
我々のモデルに依存しないグラフベースのアプローチは、広く適用可能で容易に拡張可能であり、異なる文脈で実行可能な説明を生み出します。
Counterfactual explanations (CEs) based on concepts are explanations that consider alternative scenarios to understand which high-level semantic features contributed to particular model predictions. In this work, we propose CEs based on the semantic graphs accompanying input data to achieve more descriptive, accurate, and human-aligned explanations. Building upon state-of-the-art (SoTA) conceptual attempts, we adopt a model-agnostic edit-based approach and introduce leveraging GNNs for efficient Graph Edit Distance (GED) computation. With a focus on the visual domain, we represent images as scene graphs and obtain their GNN embeddings to bypass solving the NP-hard graph similarity problem for all input pairs, an integral part of the CE computation process. We apply our method to benchmark and real-world datasets with varying difficulty and availability of semantic annotations. Testing on diverse classifiers, we find that our CEs outperform previous SoTA explanation models based on semantics, including both white and black-box as well as conceptual and pixel-level approaches. Their superiority is proven quantitatively and qualitatively, as validated by human subjects, highlighting the significance of leveraging semantic edges in the presence of intricate relationships. Our model-agnostic graph-based approach is widely applicable and easily extensible, producing actionable explanations across different contexts. | 翻訳日:2024-07-24 02:21:06 公開日:2024-07-20 |
# Action Diffusion: 授業映像におけるプロシージャ計画のための行動認識拡散モデル
ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning in Instructional Videos ( http://arxiv.org/abs/2403.08591v2 ) ライセンス: Link先を確認 | Lei Shi, Paul Bürkner, Andreas Bulling, | (参考訳) 本稿では,プロシージャプランニングのための拡散モデルとして,プロシージャプランニングのための新しい拡散モデルであるActionDiffusionを提案する。
このアプローチは、アクションを実行する特定の順序で利用可能な豊富な情報コンテンツを活用できない既存の方法とは対照的である。
本手法は,ノイズ空間に動作情報を投影することにより,行動間の時間的依存関係の学習と拡散過程における行動計画の認知を統一する。
これは達成される
1)ノイズ付加相におけるノイズマスクにアクション埋め込みを加えることにより、
2) ノイズ予測ネットワークに注意機構を導入し, 異なる動作ステップ間の相関関係を学習する。
提案手法はCrossTask,Coin,NIVの3つのビデオベンチマークデータセット(CrossTask,Coin,NIV)について広範な実験を行い,CrossTaskおよびNIVのすべてのメトリクスおよびCoinデータセットの精度以外のすべてのメトリクスにおいて,従来の最先端手法よりも優れていたことを示す。
ノイズマスクにアクション埋め込みを追加することで、拡散モデルにより、アクションの時間依存性を学習し、プロシージャ計画におけるパフォーマンスを向上させることができることを示す。
We present ActionDiffusion -- a novel diffusion model for procedure planning in instructional videos that is the first to take temporal inter-dependencies between actions into account in a diffusion model for procedure planning. This approach is in stark contrast to existing methods that fail to exploit the rich information content available in the particular order in which actions are performed. Our method unifies the learning of temporal dependencies between actions and denoising of the action plan in the diffusion process by projecting the action information into the noise space. This is achieved 1) by adding action embeddings in the noise masks in the noise-adding phase and 2) by introducing an attention mechanism in the noise prediction network to learn the correlations between different action steps. We report extensive experiments on three instructional video benchmark datasets (CrossTask, Coin, and NIV) and show that our method outperforms previous state-of-the-art methods on all metrics on CrossTask and NIV and all metrics except accuracy on Coin dataset. We show that by adding action embeddings into the noise mask the diffusion model can better learn action temporal dependencies and increase the performances on procedure planning. | 翻訳日:2024-07-24 02:21:06 公開日:2024-07-20 |
# OMG:拡散モデルにおけるオクルージョンフレンドリーなパーソナライズされたマルチコンセプト生成
OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models ( http://arxiv.org/abs/2403.10983v2 ) ライセンス: Link先を確認 | Zhe Kong, Yong Zhang, Tianyu Yang, Tao Wang, Kaihao Zhang, Bizhu Wu, Guanying Chen, Wei Liu, Wenhan Luo, | (参考訳) パーソナライゼーションはテキスト・ツー・イメージ生成において重要なトピックであり、特に難解なマルチコンセプトパーソナライゼーションである。
現在のマルチコンセプト手法は, 身元確認, 閉塞, 前景と背景の調和に苦慮している。
そこで本研究では,複数の概念をシームレスに1つの画像に統合するオクルージョン・フレンドリなパーソナライズド・ジェネレーション・フレームワークOMGを提案する。
本稿では,新しい2段階サンプリング法を提案する。
第1段階は、オクルージョンを扱うためのレイアウト生成と視覚的理解情報収集を担当する。
2つ目は、取得した視覚的理解情報と設計したノイズブレンディングを利用して、オクルージョンを考慮しつつ複数の概念を統合することである。
また、ノイズブレンディングの開始時刻がアイデンティティの保存とレイアウトの鍵となることも観察した。
さらに本手法は,LoRAやInstantIDなどの単一概念モデルと組み合わせることができる。
特にcivitai.comのLoRAモデルは直接利用することができる。
OMGは多概念パーソナライゼーションにおいて優れた性能を示した。
Personalization is an important topic in text-to-image generation, especially the challenging multi-concept personalization. Current multi-concept methods are struggling with identity preservation, occlusion, and the harmony between foreground and background. In this work, we propose OMG, an occlusion-friendly personalized generation framework designed to seamlessly integrate multiple concepts within a single image. We propose a novel two-stage sampling solution. The first stage takes charge of layout generation and visual comprehension information collection for handling occlusions. The second one utilizes the acquired visual comprehension information and the designed noise blending to integrate multiple concepts while considering occlusions. We also observe that the initiation denoising timestep for noise blending is the key to identity preservation and layout. Moreover, our method can be combined with various single-concept models, such as LoRA and InstantID without additional tuning. Especially, LoRA models on civitai.com can be exploited directly. Extensive experiments demonstrate that OMG exhibits superior performance in multi-concept personalization. | 翻訳日:2024-07-24 02:21:06 公開日:2024-07-20 |
# 不均一周流性ニューラル演算子:デジタル画像相関測定による生体組織と構成法則の解明
Heterogeneous Peridynamic Neural Operators: Discover Biotissue Constitutive Law and Microstructure From Digital Image Correlation Measurements ( http://arxiv.org/abs/2403.18597v2 ) ライセンス: Link先を確認 | Siavash Jafarzadeh, Stewart Silling, Lu Zhang, Colton Ross, Chung-Hao Lee, S. M. Rakibur Rahman, Shuodao Wang, Yue Yu, | (参考訳) ヒト組織は高度に組織化された構造であり、コラーゲン繊維の配列は点ごとに異なる。
組織の異方性は繊維の自然な配向から生じ、位置依存的な異方性をもたらす。
異種性は組織機能にも重要な役割を担っている。
したがって、デジタル画像相関(DIC)データのような実験的な機械的測定から繊維配向の分布を発見し、理解することが重要である。
この目的のために,不均一異方性材料のデータ駆動構成モデリングのためのヘテロPNO(Heterogeneous Peridynamic Neural Operator)手法を提案する。
我々の目標は、負荷変位場の測定から、非局所構成法則と材料微細構造を異種繊維配向場として学習することである。
本稿では,二相学習手法を提案する。
まず、ニューラルネットワークに基づくカーネル関数と非局所結合力という形で同質構成則を学習し、データから複雑な同質材料応答を捉える。
次に、第2フェーズにおいて学習結合力とカーネル関数を再起動し、各材料点に対する繊維配向場と共にトレーニングする。
ヘテロPNOを学習した物質モデルでは, 状態に基づく周辺構造から, 線形運動量と角運動量のバランスが保証されている。
さらに、不均一性と非線形構成関係の影響をそれぞれ核関数と結合力によって捉え、物理的解釈性を実現する。
その結果、ヘテロPNOアーキテクチャーは、大きな変形状態にある異方性ヘテロジニアス反応を持つ生体組織の構成モデルを学ぶことができる。
さらに、このフレームワークは、新しい、目に見えないローディングインスタンスに対して、変位と応力場予測を提供することができる。
Human tissues are highly organized structures with collagen fiber arrangements varying from point to point. Anisotropy of the tissue arises from the natural orientation of the fibers, resulting in location-dependent anisotropy. Heterogeneity also plays an important role in tissue function. It is therefore critical to discover and understand the distribution of fiber orientations from experimental mechanical measurements such as digital image correlation (DIC) data. To this end, we introduce the Heterogeneous Peridynamic Neural Operator (HeteroPNO) approach for data-driven constitutive modeling of heterogeneous anisotropic materials. Our goal is to learn a nonlocal constitutive law together with the material microstructure, in the form of a heterogeneous fiber orientation field, from load-displacement field measurements. We propose a two-phase learning approach. Firstly, we learn a homogeneous constitutive law in the form of a neural network-based kernel function and a nonlocal bond force, to capture complex homogeneous material responses from data. Then, in the second phase we reinitialize the learnt bond force and the kernel function, and training them together with a fiber orientation field for each material point. Owing to the state-based peridynamic skeleton, our HeteroPNO-learned material models are objective and have the balance of linear and angular momentum guaranteed. Moreover, the effects from heterogeneity and nonlinear constitutive relationship are captured by the kernel function and the bond force respectively, enabling physical interpretability. As a result, our HeteroPNO architecture can learn a constitutive model for a biological tissue with anisotropic heterogeneous response undergoing large deformation regime. Moreover, the framework is capable to provide displacement and stress field predictions for new and unseen loading instances. | 翻訳日:2024-07-24 02:11:12 公開日:2024-07-20 |
# Diff-Reg v1: 登録問題に対する拡散マッチングモデル
Diff-Reg v1: Diffusion Matching Model for Registration Problem ( http://arxiv.org/abs/2403.19919v3 ) ライセンス: Link先を確認 | Qianliang Wu, Haobo Jiang, Lei Luo, Jun Li, Yaqing Ding, Jin Xie, Jian Yang, | (参考訳) 3Dや2D3Dの登録のような登録タスクには、信頼できる対応を確立することが不可欠である。
既存の手法では、幾何学的あるいは意味的な特徴を利用して潜在的な対応を生成する。
しかし、これらの特徴は大きな変形、スケールの不整合、曖昧なマッチング問題(例えば対称性)といった課題に直面している可能性がある。
さらに、シングルパス予測に依存する多くの従来の手法は、複雑なシナリオにおいて局所ミニマと競合する可能性がある。
これらの課題を軽減するために,ロバスト対応構築のための拡散マッチングモデルを提案する。
提案手法は, 2次確率行列空間内の共振拡散過程として対応し, 2次確率マッチング行列を2次確率マッチング行列から2次確率マッチング行列に分解し,高品質な対応推定を行う。
これは、ガウス雑音を基底の真理マッチング行列に徐々に導入する前方拡散過程と、雑音マッチング行列を反復的に洗練する逆復調過程を含む。
特に、バックボーンからの特徴抽出は推論フェーズ中に1回だけ発生する。
我々の軽量デノナイジングモジュールは、各逆サンプリングステップで同じ機能を利用する。
3次元および2次元の登録タスクにおける本手法の有効性を検証した。
コードはhttps://github.com/wuqianliang/Diff-Reg.comで公開されている。
Establishing reliable correspondences is essential for registration tasks such as 3D and 2D3D registration. Existing methods commonly leverage geometric or semantic point features to generate potential correspondences. However, these features may face challenges such as large deformation, scale inconsistency, and ambiguous matching problems (e.g., symmetry). Additionally, many previous methods, which rely on single-pass prediction, may struggle with local minima in complex scenarios. To mitigate these challenges, we introduce a diffusion matching model for robust correspondence construction. Our approach treats correspondence estimation as a denoising diffusion process within the doubly stochastic matrix space, which gradually denoises (refines) a doubly stochastic matching matrix to the ground-truth one for high-quality correspondence estimation. It involves a forward diffusion process that gradually introduces Gaussian noise into the ground truth matching matrix and a reverse denoising process that iteratively refines the noisy matching matrix. In particular, the feature extraction from the backbone occurs only once during the inference phase. Our lightweight denoising module utilizes the same feature at each reverse sampling step. Evaluation of our method on both 3D and 2D3D registration tasks confirms its effectiveness. The code is available at https://github.com/wuqianliang/Diff-Reg. | 翻訳日:2024-07-24 02:11:12 公開日:2024-07-20 |
# テンソル化RVEAを用いたGPUによる進化的多目的最適化
GPU-accelerated Evolutionary Multiobjective Optimization Using Tensorized RVEA ( http://arxiv.org/abs/2404.01159v4 ) ライセンス: Link先を確認 | Zhenyu Liang, Tao Jiang, Kebin Sun, Ran Cheng, | (参考訳) 進化的多目的最適化は過去数十年で顕著な進歩をみせた。
しかし、既存のアルゴリズムはしばしば、ハードウェアアクセラレーションの欠如に起因する大規模なシナリオで計算上の問題に遭遇する。
そこで本研究では,GPUアクセラレーションの進歩を生かしたTensorized Reference Vector Guided Evolutionary Algorithm(TensorRVEA)を提案する。
TensorRVEAでは、主要なデータ構造と演算子は、GPUベースの並列コンピューティングを活用するためのテンソル形式に完全に変換される。
大規模人口と問題次元を含む数値ベンチマークテストでは、TensorRVEAは一貫して高い計算性能を示し、1000$\times$スピードアップを達成している。
そして、ロボット制御タスクにおける複雑な課題に対処するために、TensorRVEAを多目的神経進化の領域に適用した。
さらに,数個のテンソル化再生演算子を変化させることで,TensorRVEAの拡張性を評価した。
実験結果は、TensorRVEAの有望なスケーラビリティと堅牢性を示している。
ソースコードは \url{https://github.com/EMI-Group/tensorrvea} で入手できる。
Evolutionary multiobjective optimization has witnessed remarkable progress during the past decades. However, existing algorithms often encounter computational challenges in large-scale scenarios, primarily attributed to the absence of hardware acceleration. In response, we introduce a Tensorized Reference Vector Guided Evolutionary Algorithm (TensorRVEA) for harnessing the advancements of GPU acceleration. In TensorRVEA, the key data structures and operators are fully transformed into tensor forms for leveraging GPU-based parallel computing. In numerical benchmark tests involving large-scale populations and problem dimensions, TensorRVEA consistently demonstrates high computational performance, achieving up to over 1000$\times$ speedups. Then, we applied TensorRVEA to the domain of multiobjective neuroevolution for addressing complex challenges in robotic control tasks. Furthermore, we assessed TensorRVEA's extensibility by altering several tensorized reproduction operators. Experimental results demonstrate promising scalability and robustness of TensorRVEA. Source codes are available at \url{https://github.com/EMI-Group/tensorrvea}. | 翻訳日:2024-07-24 02:11:12 公開日:2024-07-20 |
# RAVE:CLIP誘導バックライト画像強調のための残留ベクトル埋め込み
RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement ( http://arxiv.org/abs/2404.01889v3 ) ライセンス: Link先を確認 | Tatiana Gaintseva, Martin Benning, Gregory Slabaugh, | (参考訳) 本稿では,教師なしバックライト画像強調作業のためのコントラスト言語画像事前訓練(CLIP)の新たな修正を提案する。
この手法は,CLIP埋め込み空間内のプロンプト(負・正のサンプル)と対応する画像(バックライト画像/ウェルリット画像)とのテキストイメージの類似性を制約することにより,プロンプトペアを学習する。
学習したプロンプトは、画像拡張ネットワークをガイドする。
CLIP-LITフレームワークに基づいて,CLIP誘導のための2つの新しい手法を提案する。
まず、テキスト埋め込みの空間において、プロンプトをチューニングする代わりに、その埋め込みを直接、品質を損なうことなく調整できることを示す。
これにより、トレーニングが加速し、テキストエンコーダを持たない追加のエンコーダの使用が可能になる。
第2に,即時チューニングを必要としない新しい手法を提案する。
代わりに、トレーニングデータからのバックライト画像とバックライト画像のCLIP埋め込みに基づいて、埋め込み空間における残差ベクトルを、バックライト画像とバックライト画像の平均埋め込みとの単純な差として計算する。
このベクターはトレーニング中にエンハンスメントネットワークを誘導し、バックライトイメージを明るい画像の空間にプッシュする。
このアプローチはトレーニング時間を劇的に短縮し、トレーニングを安定化し、教師なしのトレーニング体制と教師なしのトレーニング体制の両方において、アーティファクトなしで高品質な画像を生成する。
さらに、残差ベクトルを解釈し、トレーニングデータのバイアスを明らかにし、潜在的なバイアス補正を可能にすることを示す。
In this paper we propose a novel modification of Contrastive Language-Image Pre-Training (CLIP) guidance for the task of unsupervised backlit image enhancement. Our work builds on the state-of-the-art CLIP-LIT approach, which learns a prompt pair by constraining the text-image similarity between a prompt (negative/positive sample) and a corresponding image (backlit image/well-lit image) in the CLIP embedding space. Learned prompts then guide an image enhancement network. Based on the CLIP-LIT framework, we propose two novel methods for CLIP guidance. First, we show that instead of tuning prompts in the space of text embeddings, it is possible to directly tune their embeddings in the latent space without any loss in quality. This accelerates training and potentially enables the use of additional encoders that do not have a text encoder. Second, we propose a novel approach that does not require any prompt tuning. Instead, based on CLIP embeddings of backlit and well-lit images from training data, we compute the residual vector in the embedding space as a simple difference between the mean embeddings of the well-lit and backlit images. This vector then guides the enhancement network during training, pushing a backlit image towards the space of well-lit images. This approach further dramatically reduces training time, stabilizes training and produces high quality enhanced images without artifacts, both in supervised and unsupervised training regimes. Additionally, we show that residual vectors can be interpreted, revealing biases in training data, and thereby enabling potential bias correction. | 翻訳日:2024-07-24 02:01:16 公開日:2024-07-20 |
# LongVLM: 大規模言語モデルによる効率的なロングビデオ理解
LongVLM: Efficient Long Video Understanding via Large Language Models ( http://arxiv.org/abs/2404.03384v3 ) ライセンス: Link先を確認 | Yuetian Weng, Mingfei Han, Haoyu He, Xiaojun Chang, Bohan Zhuang, | (参考訳) ビデオLLM(Large Language Models, LLM)を応用し, ビデオLLM(ビデオLLM)の最近の進歩により, 映像理解タスクの進歩が加速した。
これらのモデルは、膨大な数のビジュアルトークンにプールやクエリアグリゲーションを通じてビデオ表現をエンコードし、計算とメモリのコストを安くする。
ビデオコンテンツの全体的な理解を成功させたにもかかわらず、既存のビデオLLMは、長期的なビデオでローカル情報を見渡すことによる詳細な理解の達成において、依然として課題に直面している。
この課題に対処するために、LongVLMは、ビデオ理解のためのシンプルだが強力なビデオLLMであり、長いビデオは、しばしばシーケンシャルなキーイベント、複雑なアクション、カメラの動きで構成されている、という観測に基づいて構築されている。
提案手法では,長い動画を複数の短期セグメントに分割し,階層的なトークンマージモジュールを通じて各セグメントの局所的特徴を符号化する。
これらの特徴は、逐次的な短期セグメント間のストーリーラインを維持するために、時間順に連結される。
さらに,グローバルなセマンティクスを各ローカル機能に統合し,コンテキスト理解を強化することを提案する。
このようにして、ローカル情報とグローバル情報の両方を包含した映像表現を符号化し、LLMが長期ビデオに対して包括的な応答を生成できるようにする。
VideoChatGPTベンチマークとゼロショットビデオ質問応答データセットによる実験結果から,従来の最先端手法に比べて,我々のモデルが優れていることを示す。
定性的な例は、我々のモデルが長いビデオ理解のためにより正確な応答を生成することを示している。
コードはhttps://github.com/ziplab/LongVLMで公開されている。
Empowered by Large Language Models (LLMs), recent advancements in Video-based LLMs (VideoLLMs) have driven progress in various video understanding tasks. These models encode video representations through pooling or query aggregation over a vast number of visual tokens, making computational and memory costs affordable. Despite successfully providing an overall comprehension of video content, existing VideoLLMs still face challenges in achieving detailed understanding due to overlooking local information in long-term videos. To tackle this challenge, we introduce LongVLM, a simple yet powerful VideoLLM for long video understanding, building upon the observation that long videos often consist of sequential key events, complex actions, and camera movements. Our approach proposes to decompose long videos into multiple short-term segments and encode local features for each segment via a hierarchical token merging module. These features are concatenated in temporal order to maintain the storyline across sequential short-term segments. Additionally, we propose to integrate global semantics into each local feature to enhance context understanding. In this way, we encode video representations that incorporate both local and global information, enabling the LLM to generate comprehensive responses for long-term videos. Experimental results on the VideoChatGPT benchmark and zero-shot video question-answering datasets demonstrate the superior capabilities of our model over the previous state-of-the-art methods. Qualitative examples show that our model produces more precise responses for long video understanding. Code is available at https://github.com/ziplab/LongVLM. | 翻訳日:2024-07-24 02:01:16 公開日:2024-07-20 |
# JaFIn:日本の金融インストラクションデータセット
JaFIn: Japanese Financial Instruction Dataset ( http://arxiv.org/abs/2404.09260v2 ) ライセンス: Link先を確認 | Kota Tanabe, Masahiro Suzuki, Hiroki Sakaji, Itsuki Noda, | (参考訳) 本研究では,日本語金融分野における大規模言語モデル(LLM)の指導データセットを構築した。
LLMを含む言語モデルのドメイン適応は、言語モデルの人気が高まるにつれて、より注目を集めている。
本研究は,命令チューニングによる領域適応の有効性を実証する。
そこで本研究では,日本金融インストラクション・データセットであるJaFInを日本語で指導する。
JaFInは、日本政府のWebサイトを含む複数のデータソースに基づいて手動で構築され、豊富な財務知識を提供する。
次に、 JaFIn を用いて、複数の LLM に対して命令チューニングを適用し、金融に特化したモデルが元のモデルよりもドメイン適応性が高いことを示す。
得られた財務特化LDMは,定量的な日本の財務指標と質的応答比較を用いて評価され,原案よりも性能が向上した。
We construct an instruction dataset for the large language model (LLM) in the Japanese finance domain. Domain adaptation of language models, including LLMs, is receiving more attention as language models become more popular. This study demonstrates the effectiveness of domain adaptation through instruction tuning. To achieve this, we propose an instruction tuning data in Japanese called JaFIn, the Japanese Financial Instruction Dataset. JaFIn is manually constructed based on multiple data sources, including Japanese government websites, which provide extensive financial knowledge. We then utilize JaFIn to apply instruction tuning for several LLMs, demonstrating that our models specialized in finance have better domain adaptability than the original models. The financial-specialized LLMs created were evaluated using a quantitative Japanese financial benchmark and qualitative response comparisons, showing improved performance over the originals. | 翻訳日:2024-07-24 02:01:16 公開日:2024-07-20 |
# FINEMATCH:アスペクトベースのきめ細かい画像とテキストミスマッチ検出と補正
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction ( http://arxiv.org/abs/2404.14715v2 ) ライセンス: Link先を確認 | Hang Hua, Jing Shi, Kushal Kafle, Simon Jenni, Daoan Zhang, John Collomosse, Scott Cohen, Jiebo Luo, | (参考訳) 大規模事前学習の最近の進歩は、マルチモーダルコンテンツを解釈・生成する能力に優れた高度な視覚言語モデル(VLM)の開発につながっている。
VLMの複雑な推論を行うという印象的な能力にもかかわらず、現在のモデルは画像とテキストの両方の合成情報を効果的に正確に捉えるのに苦労することが多い。
そこで本研究では,テキストと画像のミスマッチ検出と修正に焦点をあて,アスペクトベースの細粒度テキストと画像マッチングベンチマークであるFineMatchを提案する。
このベンチマークでは、アスペクトベースのきめ細かいテキストと画像マッチングのためのVLMの構成性を向上し評価するための新しいタスクを導入する。
このタスクでは、キャプション内のミスマッチしたアスペクトフレーズを識別し、アスペクトのクラスを決定し、0から3のミスマッチを含む可能性のある画像テキストペアの修正を提案する必要がある。
本研究は,本課題におけるモデルの性能を評価するために,IMM-IoUと呼ばれる新しい評価指標を提案する。
さらに,本研究では,教師付き学習とコンテキスト内学習設定を含む,既存の主流VLMの総合的な実験分析も提供する。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力が向上していることが判明した。
さらに、マルチモーダルなインコンテキスト学習を行う強力な能力を持つモデル(例えば、GPT-4V、Gemini Pro Vision)は、きめ細かい合成画像やテキストマッチング解析では熟練していない。
FineMatchにより、テキストから画像生成の幻覚検出と修正のためのシステムを構築することができる。
Recent progress in large-scale pre-training has led to the development of advanced vision-language models (VLMs) with remarkable proficiency in comprehending and generating multimodal content. Despite the impressive ability to perform complex reasoning for VLMs, current models often struggle to effectively and precisely capture the compositional information on both the image and text sides. To address this, we propose FineMatch, a new aspect-based fine-grained text and image matching benchmark, focusing on text and image mismatch detection and correction. This benchmark introduces a novel task for boosting and evaluating the VLMs' compositionality for aspect-based fine-grained text and image matching. In this task, models are required to identify mismatched aspect phrases within a caption, determine the aspect's class, and propose corrections for an image-text pair that may contain between 0 and 3 mismatches. To evaluate the models' performance on this new task, we propose a new evaluation metric named ITM-IoU for which our experiments show a high correlation to human evaluation. In addition, we also provide a comprehensive experimental analysis of existing mainstream VLMs, including fully supervised learning and in-context learning settings. We have found that models trained on FineMatch demonstrate enhanced proficiency in detecting fine-grained text and image mismatches. Moreover, models (e.g., GPT-4V, Gemini Pro Vision) with strong abilities to perform multimodal in-context learning are not as skilled at fine-grained compositional image and text matching analysis. With FineMatch, we are able to build a system for text-to-image generation hallucination detection and correction. | 翻訳日:2024-07-24 01:51:11 公開日:2024-07-20 |
# クリニカルエージェント:大規模言語モデルに基づく推論を用いた治験マルチエージェントシステム
ClinicalAgent: Clinical Trial Multi-Agent System with Large Language Model-based Reasoning ( http://arxiv.org/abs/2404.14777v2 ) ライセンス: Link先を確認 | Ling Yue, Sixue Xing, Jintai Chen, Tianfan Fu, | (参考訳) 大規模言語モデル(LLM)とマルチエージェントシステムは、自然言語処理において顕著な能力を示してきたが、主に外部知識へのアクセスが限られているため、臨床試験では課題に直面している。
最新の医療データに基づいて集計・予測する先進的な臨床試験ツールの可能性を認識し,アクセシビリティと有用性を高める統合ソリューションを提案する。
GPT-4, 多エージェントアーキテクチャ, LEAST-TO-MOST, ReAct推論技術を活用した臨床用多エージェントシステムClinicalAgentを紹介する。
この統合は、臨床の文脈でLLMのパフォーマンスを高めるだけでなく、新しい機能も導入する。
提案手法は臨床試験結果予測(0.7908 PR-AUC)における競合予測性能を実現し,標準プロンプト法よりも0.3326改善した。
公開されているコードはhttps://anonymous.4open.science/r/ClinicalAgent-6671にある。
Large Language Models (LLMs) and multi-agent systems have shown impressive capabilities in natural language tasks but face challenges in clinical trial applications, primarily due to limited access to external knowledge. Recognizing the potential of advanced clinical trial tools that aggregate and predict based on the latest medical data, we propose an integrated solution to enhance their accessibility and utility. We introduce Clinical Agent System (ClinicalAgent), a clinical multi-agent system designed for clinical trial tasks, leveraging GPT-4, multi-agent architectures, LEAST-TO-MOST, and ReAct reasoning technology. This integration not only boosts LLM performance in clinical contexts but also introduces novel functionalities. The proposed method achieves competitive predictive performance in clinical trial outcome prediction (0.7908 PR-AUC), obtaining a 0.3326 improvement over the standard prompt Method. Publicly available code can be found at https://anonymous.4open.science/r/ClinicalAgent-6671. | 翻訳日:2024-07-24 01:51:11 公開日:2024-07-20 |
# MixLoRA: LoRAベースのエキスパート混在による大規模言語モデルの微調整
MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts ( http://arxiv.org/abs/2404.15159v3 ) ライセンス: Link先を確認 | Dengchun Li, Yingzi Ma, Naizheng Wang, Zhengmao Ye, Zhiyuan Cheng, Yinghao Tang, Yan Zhang, Lei Duan, Jie Zuo, Cal Yang, Mingjie Tang, | (参考訳) 微調整大型言語モデル(LLM)は、特定のアプリケーションに事前訓練されたモデルを適用するための一般的なプラクティスである。
LoRAのようなメソッドは、微調整中にGPUメモリの制約に効果的に対処しているが、特にマルチタスクシナリオではパフォーマンスが低下することが多い。
対照的に、Mixtral 8x7BのようなMixture-of-Expert(MoE)モデルは、パラメータ数を削減しつつマルチタスク学習シナリオにおいて顕著な性能を示す。
しかし、特に24GB未満のコンシューマグレードのGPUでは、これらのMoEのリソース要件は依然として困難である。
これらの課題に対処するため,資源効率の低いMoEモデルを構築する手法であるMixLoRAを提案する。
MixLoRAは、凍結事前訓練された高密度モデルのフィードフォワードネットワークブロック内に複数のLoRAベースのエキスパートを挿入し、一般的に使用されるトップkルータを使用する。
他のLoRAベースのMoE法とは異なり、MixLoRAは独立した注意層型LoRAアダプタを利用することでモデル性能を向上させる。
また、ルータの不均衡問題に対処するために補助負荷バランス損失を用いる。
評価の結果,MixLoRAはマルチタスク学習シナリオにおける最先端PEFT法と比較して約9%精度が向上していることがわかった。
また,MOEモデルのトレーニングおよび推論において,計算およびメモリボトルネックを軽減するための新しい高スループットフレームワークを提案する。
このフレームワークは、トレーニングと推論の両方でGPUメモリの消費を40%削減し、トークン計算のレイテンシを30%削減する。
Fine-tuning Large Language Models (LLMs) is a common practice to adapt pre-trained models for specific applications. While methods like LoRA have effectively addressed GPU memory constraints during fine-tuning, their performance often falls short, especially in multi-task scenarios. In contrast, Mixture-of-Expert (MoE) models, such as Mixtral 8x7B, demonstrate remarkable performance in multi-task learning scenarios while maintaining a reduced parameter count. However, the resource requirements of these MoEs remain challenging, particularly for consumer-grade GPUs with less than 24GB memory. To tackle these challenges, we propose MixLoRA, an approach to construct a resource-efficient sparse MoE model based on LoRA. MixLoRA inserts multiple LoRA-based experts within the feed-forward network block of a frozen pre-trained dense model and employs a commonly used top-k router. Unlike other LoRA-based MoE methods, MixLoRA enhances model performance by utilizing independent attention-layer LoRA adapters. Additionally, an auxiliary load balance loss is employed to address the imbalance problem of the router. Our evaluations show that MixLoRA improves about 9% accuracy compared to state-of-the-art PEFT methods in multi-task learning scenarios. We also propose a new high-throughput framework to alleviate the computation and memory bottlenecks during the training and inference of MOE models. This framework reduces GPU memory consumption by 40% and token computation latency by 30% during both training and inference. | 翻訳日:2024-07-24 01:51:11 公開日:2024-07-20 |
# セキュアコード生成のための制約付きデコード
Constrained Decoding for Secure Code Generation ( http://arxiv.org/abs/2405.00218v3 ) ライセンス: Link先を確認 | Yanjun Fu, Ethan Baker, Yu Ding, Yizheng Chen, | (参考訳) Code Large Language Models (Code LLMs) は、開発者の生産性向上にますます利用されているが、脆弱性のあるコードを生成することが多い。
したがって、コードLLMが生成するコードが正確でセキュアであることを確実にする必要がある。
これまでの研究は主にセキュアなコードを生成することに焦点を当ててきた。
この監視はセキュリティの誤った感覚につながる可能性がある。
現在、コミュニティにはこの分野における実際の進捗を測定する方法がなく、コード生成のセキュリティと正確性の両方に対処するソリューションが必要です。
本稿では、コードLLMがセキュアかつ正確なコードを生成する能力を測定するために、新しいベンチマークであるCodeGuard+と2つの新しいメトリクスを紹介する。
新たな評価手法を用いることで,現在最先端の防御技術であるプレフィックスチューニングは,セキュアなコードを生成するが機能的正当性を犠牲にしているため,従来考えられていたほど強力ではない可能性が示唆された。
また,異なる復号法がコードLLMのセキュリティに著しく影響を及ぼすことを示す。
さらに、セキュアなコード生成のための制約付き復号化という、新たな防御方向についても検討する。
セキュアなコードを生成するための制約付き復号法を提案する。
この結果から,制約付き復号化は,特別なトレーニングデータセットを必要とせずに,コードLLMのセキュリティを改善するためにプレフィックスチューニングよりも効果的であることが判明した。
さらに,8つの最先端のコードLLMに対する評価の結果,制約付きデコーディングはコードLLMのセキュリティ向上に優れた性能を示し,GPT-4よりも優れていた。
Code Large Language Models (Code LLMs) have been increasingly used by developers to boost productivity, but they often generate vulnerable code. Thus, there is an urgent need to ensure that code generated by Code LLMs is correct and secure. Previous research has primarily focused on generating secure code, overlooking the fact that secure code also needs to be correct. This oversight can lead to a false sense of security. Currently, the community lacks a method to measure actual progress in this area, and we need solutions that address both security and correctness of code generation. This paper introduces a new benchmark, CodeGuard+, along with two new metrics, to measure Code LLMs' ability to generate both secure and correct code. Using our new evaluation methods, we show that the state-of-the-art defense technique, prefix tuning, may not be as strong as previously believed, since it generates secure code but sacrifices functional correctness. We also demonstrate that different decoding methods significantly affect the security of Code LLMs. Furthermore, we explore a new defense direction: constrained decoding for secure code generation. We propose new constrained decoding techniques to generate secure code. Our results reveal that constrained decoding is more effective than prefix tuning to improve the security of Code LLMs, without requiring a specialized training dataset. Moreover, our evaluations over eight state-of-the-art Code LLMs show that constrained decoding has strong performance to improve the security of Code LLMs, and our technique outperforms GPT-4. | 翻訳日:2024-07-24 01:41:25 公開日:2024-07-20 |
# Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models
Mapping the Unseen: Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models ( http://arxiv.org/abs/2405.02162v2 ) ライセンス: Link先を確認 | Mohamad Al Mdfaa, Raghad Salameh, Sergey Zagoruyko, Gonzalo Ferrer, | (参考訳) ロボット工学とコンピュータビジョンの分野では、複雑な環境を理解し、相互作用できるインテリジェントマシンの需要が高まっているため、効率的で正確なセマンティックマッピングは依然として大きな課題である。
しかし、従来のパノプティックマッピング手法は定義済みのセマンティッククラスによって制限されているため、新しいオブジェクトや予期せぬオブジェクトを扱うのに効果がない。
この制限に対応するために、UPPM法(Unified Promptable Panoptic Mapping)を導入する。
UPPMは、ファンデーションモデルの最近の進歩を利用して、自然言語プロンプトを使用してリアルタイムのオンデマンドラベル生成を可能にする。
従来のパン光学マッピング技術に動的ラベリング戦略を取り入れることで、UPPMは、マップ再構成における高い性能レベルを維持しながら、適応性と汎用性を大幅に改善する。
実世界およびシミュレートされたデータセットに対する我々のアプローチを実証する。
その結果,UPPMはシーンやセグメントオブジェクトを正確に再構成し,自然言語の相互作用によってリッチなセマンティックラベルを生成することができることがわかった。
一連のアブレーション実験は、固定ラベル集合に対する基礎モデルに基づくラベル付けの利点を検証した。
In the field of robotics and computer vision, efficient and accurate semantic mapping remains a significant challenge due to the growing demand for intelligent machines that can comprehend and interact with complex environments. Conventional panoptic mapping methods, however, are limited by predefined semantic classes, thus making them ineffective for handling novel or unforeseen objects. In response to this limitation, we introduce the Unified Promptable Panoptic Mapping (UPPM) method. UPPM utilizes recent advances in foundation models to enable real-time, on-demand label generation using natural language prompts. By incorporating a dynamic labeling strategy into traditional panoptic mapping techniques, UPPM provides significant improvements in adaptability and versatility while maintaining high performance levels in map reconstruction. We demonstrate our approach on real-world and simulated datasets. Results show that UPPM can accurately reconstruct scenes and segment objects while generating rich semantic labels through natural language interactions. A series of ablation experiments validated the advantages of foundation model-based labeling over fixed label sets. | 翻訳日:2024-07-24 01:41:25 公開日:2024-07-20 |
# チャネルと空間的特徴を融合した変圧器を用いたRGB-T追跡
Transformer-based RGB-T Tracking with Channel and Spatial Feature Fusion ( http://arxiv.org/abs/2405.03177v2 ) ライセンス: Link先を確認 | Yunfeng Li, Bo Wang, Ye Li, Zhiwen Yu, Liang Wang, | (参考訳) クロスモーダルな機能をうまく融合させるには、RGB-Tトラッキングのコアとなる課題がある。
従来の手法では、RGBとTIRの機能の融合が不十分であったり、両方のモダリティからの情報を含む仲介業者に依存していたりした。
前者は、チャネルと空間的特徴融合のためにテンプレートや検索領域のRGBおよびTIR情報のみを使用する可能性を十分に活用していないが、後者はテンプレートと検索領域間の直接的な相互作用が欠如しており、両方のモダリティのオリジナルのセマンティック情報を完全に活用する能力が制限されている。
これらの制約を緩和するために,クロスモーダルチャネルと空間的特徴を直接融合させることにより,視覚変換器の性能を向上させる方法について検討し,CSTNetを提案する。
CSTNet は ViT をバックボーンとして使用し、RGB と TIR の直接通信のために、クロスモーダルチャネル機能融合モジュール (CFM) とクロスモーダル空間機能融合モジュール (SFM) を挿入する。
CFMは、RGBおよびTIR特徴の並列ジョイントチャネル拡張とジョイントマルチレベル空間特徴モデリングを行い、特徴を総和し、元の特徴と総和特徴をグローバルに統合する。
SFMは、クロスアテンションを用いて、クロスモーダル特徴の空間的関係をモデル化し、マルチモーダル特徴の共用空間およびチャネル統合のための畳み込みフィードフォワードネットワークを導入する。
CFM と SFM を除去したモデルにおいて,CSNet を事前学習重量として再訓練し,パラメータの 36% 削減と Flop の 24% 削減を実現し,性能を 1-2% 低下させる CSTNet-small を提案する。
総合的な実験により、CSTNetは3つの公開RGB-T追跡ベンチマークで最先端のパフォーマンスを達成した。
コードはhttps://github.com/LiYunfengLYF/CSTNetで入手できる。
How to better fuse cross-modal features is the core issue of RGB-T tracking. Some previous methods either insufficiently fuse RGB and TIR features, or depend on intermediaries containing information from both modalities to achieve cross-modal information interaction. The former does not fully exploit the potential of using only RGB and TIR information of the template or search region for channel and spatial feature fusion, and the latter lacks direct interaction between the template and search area, which limits the model's ability to fully exploit the original semantic information of both modalities. To alleviate these limitations, we explore how to improve the performance of a visual Transformer by using direct fusion of cross-modal channels and spatial features, and propose CSTNet. CSTNet uses ViT as a backbone and inserts cross-modal channel feature fusion modules (CFM) and cross-modal spatial feature fusion modules (SFM) for direct interaction between RGB and TIR features. The CFM performs parallel joint channel enhancement and joint multilevel spatial feature modeling of RGB and TIR features and sums the features, and then globally integrates the sum feature with the original features. The SFM uses cross-attention to model the spatial relationship of cross-modal features and then introduces a convolutional feedforward network for joint spatial and channel integration of multimodal features. We retrain the model with CSNet as the pre-training weights in the model with CFM and SFM removed, and propose CSTNet-small, which achieves 36% reduction in parameters and 24% reduction in Flops, and 50% speedup with a 1-2% performance decrease. Comprehensive experiments show that CSTNet achieves state-of-the-art performance on three public RGB-T tracking benchmarks. Code is available at https://github.com/LiYunfengLYF/CSTNet. | 翻訳日:2024-07-24 01:41:25 公開日:2024-07-20 |
# 大規模言語モデルのベイジアン低ランク適応のためのガウス確率重み平均化
Gaussian Stochastic Weight Averaging for Bayesian Low-Rank Adaptation of Large Language Models ( http://arxiv.org/abs/2405.03425v2 ) ライセンス: Link先を確認 | Emre Onal, Klemens Flöge, Emma Caldwell, Arsen Sheverdin, Vincent Fortuin, | (参考訳) 微調整された大規模言語モデル(LLM)は、特に小さなデータセットで微調整された場合、過信とキャリブレーションに悩まされることが多い。
これらの課題に対処するために,Low-Rank Adaptation (LoRA) と Gaussian Stochastic Weight Averaging (SWAG) を組み合わせた簡単な組み合わせを提案する。
複数の自然言語処理(NLP)ベンチマークの広範なテストを通じて、我々の単純で効率的なアプローチはモデル一般化とキャリブレーションをLLMにおけるベイズ推論に匹敵する、より洗練された手法と競合的に改善することを示した。
さらに,本手法は分布シフトに対するロバスト性が向上し,分布外タスクの性能が向上することが示唆された。
Fine-tuned Large Language Models (LLMs) often suffer from overconfidence and poor calibration, particularly when fine-tuned on small datasets. To address these challenges, we propose a simple combination of Low-Rank Adaptation (LoRA) with Gaussian Stochastic Weight Averaging (SWAG), facilitating approximate Bayesian inference in LLMs. Through extensive testing across several Natural Language Processing (NLP) benchmarks, we demonstrate that our straightforward and computationally efficient approach improves model generalization and calibration competitively with comparable, more sophisticated methods for Bayesian inference in LLMs. We further show that our method exhibits greater robustness against distribution shift, as reflected in its improved performance on out-of-distribution tasks. | 翻訳日:2024-07-24 01:41:25 公開日:2024-07-20 |
# LLMC:Versatile Compression Toolkitによる大規模言語モデルの量子化のベンチマーク
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit ( http://arxiv.org/abs/2405.06001v2 ) ライセンス: Link先を確認 | Ruihao Gong, Yang Yong, Shiqiao Gu, Yushi Huang, Chentao Lv, Yunchen Zhang, Xianglong Liu, Dacheng Tao, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、目覚ましい創発的能力と推論能力を備えた汎用人工知能への私たちを推進している。
しかし、計算とメモリの要求は広く採用されるのを制限している。
鍵圧縮技術である量子化は、LLMを圧縮・加速することでこれらの要求を効果的に軽減することができる。
多くの研究は量子化に伴う精度損失を最小限にすることを目的としている。
しかし、それらの量子化構成は互いに異なっており、かなり比較できない。
本稿では,プラグイン・アンド・プレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に調査する。
LLMCは数十のアルゴリズム、モデル、ハードウェアを統合し、整数から浮動小数点量子化、LLMから視覚言語(VLM)モデル、固定ビットから混合精度、量子化からスパーシフィケーションまで、高い拡張性を提供する。
この汎用ツールキットによって、我々のベンチマークは、キャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーし、新しい洞察と詳細な分析を提供し、ユーザーにさらなる研究と実践的なガイダンスを提供する。
我々のツールキットは \href{LLMC}{https://github.com/ModelTC/llmc} で利用可能です。
Recent advancements in large language models (LLMs) are propelling us toward artificial general intelligence with their remarkable emergent abilities and reasoning capabilities. However, the substantial computational and memory requirements limit the widespread adoption. Quantization, a key compression technique, can effectively mitigate these demands by compressing and accelerating LLMs, albeit with potential risks to accuracy. Numerous studies have aimed to minimize the accuracy loss associated with quantization. However, their quantization configurations vary from each other and cannot be fairly compared. In this paper, we present LLMC, a plug-and-play compression toolkit, to fairly and systematically explore the impact of quantization. LLMC integrates dozens of algorithms, models, and hardwares, offering high extensibility from integer to floating-point quantization, from LLM to vision-language (VLM) model, from fixed-bit to mixed precision, and from quantization to sparsification. Powered by this versatile toolkit, our benchmark covers three key aspects: calibration data, algorithms (three strategies), and data formats, providing novel insights and detailed analyses for further research and practical guidance for users. Our toolkit is available at \href{LLMC}{https://github.com/ModelTC/llmc}. | 翻訳日:2024-07-24 01:41:25 公開日:2024-07-20 |
# HRNet:人間の移動データ合成のための個人的階層的・多解ネットワーク
HRNet: Differentially Private Hierarchical and Multi-Resolution Network for Human Mobility Data Synthesization ( http://arxiv.org/abs/2405.08043v2 ) ライセンス: Link先を確認 | Shun Takagi, Li Xiong, Fumiyuki Kato, Yang Cao, Masatoshi Yoshikawa, | (参考訳) 人間のモビリティデータは、都市計画やパンデミック対応など、多くのアプリケーションに貴重な洞察を提供するが、その使用はプライバシーの懸念も引き起こす。
本稿では, 現実的な人間の移動データを合成し, 差分プライバシーを確保しつつ, より深い生成モデルである階層・多解ネットワーク(HRNet)を紹介する。
まず、差分プライバシーの下で人間の移動データを学習する際の重要な困難を識別する。
これらの課題に対応するため、HRNetは、階層的なロケーションエンコーディング機構、複数の解像度にわたるマルチタスク学習、プライベート事前トレーニングの3つのコンポーネントを統合している。
これらの要素は、差分プライバシーの制約の下で、モデルの能力をまとめて強化する。
実世界のデータセットを使用した広範な比較実験を通じて、HRNetは、ユーティリティとプライバシのトレードオフのバランスをとる上で、既存の方法よりも顕著に改善されていることを実証している。
Human mobility data offers valuable insights for many applications such as urban planning and pandemic response, but its use also raises privacy concerns. In this paper, we introduce the Hierarchical and Multi-Resolution Network (HRNet), a novel deep generative model specifically designed to synthesize realistic human mobility data while guaranteeing differential privacy. We first identify the key difficulties inherent in learning human mobility data under differential privacy. In response to these challenges, HRNet integrates three components: a hierarchical location encoding mechanism, multi-task learning across multiple resolutions, and private pre-training. These elements collectively enhance the model's ability under the constraints of differential privacy. Through extensive comparative experiments utilizing a real-world dataset, HRNet demonstrates a marked improvement over existing methods in balancing the utility-privacy trade-off. | 翻訳日:2024-07-24 01:31:23 公開日:2024-07-20 |
# 電波が睡眠について教えてくれるもの
What Radio Waves Tell Us about Sleep ( http://arxiv.org/abs/2405.11739v2 ) ライセンス: Link先を確認 | Hao He, Chao Li, Wolfgang Ganglberger, Kaileigh Gallagher, Rumen Hristov, Michail Ouroutzoglou, Haoqi Sun, Jimeng Sun, Brandon Westover, Dina Katabi, | (参考訳) 自宅で睡眠を評価したり、睡眠段階を捉えたり、睡眠中に身体から跳ね返る電波を分析するだけで無呼吸症の発生を検知する能力は非常に強力である。
このような能力は、患者の家庭における経時的データ収集を可能にし、睡眠の理解と様々な疾患との相互作用、および臨床治験と定期治療の両方における治療反応を知らせる。
本稿では、睡眠中の人から反射される電波から睡眠と夜間呼吸を受動的にモニタリングする高度な機械学習アルゴリズムを開発する。
金の標準値(ポリソノグラフィー)と比較すると、このモデルが睡眠催眠グラム(ウェイク、ライト睡眠、ディープ睡眠またはREMに分類される30秒エポックの精度が81%)を捉え、睡眠時無呼吸(AUROC = 0.88)を検出し、患者の無呼吸指数(ICC=0.95; 95% CI = [0.93, 0.97])を測定することが示されている。
特に、このモデルは人種、性別、年齢にわたって同等のパフォーマンスを示す。
さらに、このモデルは睡眠段階と、神経、精神医学、循環器、免疫疾患を含む様々な疾患の間の情報的相互作用を明らかにする。
これらの知見は,臨床および介入臨床試験の約束を果たすだけでなく,各種疾患の理解と管理の基本的な要素としての睡眠の重要性も浮き彫りにした。
The ability to assess sleep at home, capture sleep stages, and detect the occurrence of apnea (without on-body sensors) simply by analyzing the radio waves bouncing off people's bodies while they sleep is quite powerful. Such a capability would allow for longitudinal data collection in patients' homes, informing our understanding of sleep and its interaction with various diseases and their therapeutic responses, both in clinical trials and routine care. In this article, we develop an advanced machine learning algorithm for passively monitoring sleep and nocturnal breathing from radio waves reflected off people while asleep. Validation results in comparison with the gold standard (i.e., polysomnography) (n=849) demonstrate that the model captures the sleep hypnogram (with an accuracy of 81% for 30-second epochs categorized into Wake, Light Sleep, Deep Sleep, or REM), detects sleep apnea (AUROC = 0.88), and measures the patient's Apnea-Hypopnea Index (ICC=0.95; 95% CI = [0.93, 0.97]). Notably, the model exhibits equitable performance across race, sex, and age. Moreover, the model uncovers informative interactions between sleep stages and a range of diseases including neurological, psychiatric, cardiovascular, and immunological disorders. These findings not only hold promise for clinical practice and interventional trials but also underscore the significance of sleep as a fundamental component in understanding and managing various diseases. | 翻訳日:2024-07-24 01:31:23 公開日:2024-07-20 |
# 人間ラベルを使わずにサステナブル・マリン・デブリのクリーンアップ・フレームワークを設計する
Designing A Sustainable Marine Debris Clean-up Framework without Human Labels ( http://arxiv.org/abs/2405.14815v2 ) ライセンス: Link先を確認 | Raymond Wang, Nicholas R. Record, D. Whitney King, Tahiya Chowdhury, | (参考訳) 海洋の破片は、鳥類、魚、その他の動物の生命に重大な生態学的脅威をもたらす。
伝統的に残骸の堆積を評価する方法には、労働集約的かつ高価な手作業による調査が含まれる。
本研究では,ドローンが捉えた空中画像を利用して遠隔地ゴミ調査を行うフレームワークを提案する。
コンピュータビジョン技術を活用して, 海洋破片の分布を検出し, 分類し, マッピングする。
このフレームワークは、トランスフォーマーベースのゼロショットオブジェクト検出器であるGrounding DINOと、ゼロショットオブジェクト分類のための視覚言語モデルであるCLIPを使用しており、ラベルをトレーニングすることなく、素材タイプに基づいたデブリオブジェクトの検出と分類を可能にしている。
同じオブジェクトの異なるビューによるオーバーカウントを軽減するため、局所的なオブジェクト特徴を用いた重複マッチングにはスケール不変特徴変換(SIFT)が使用される。
さらに, 対象物の検出, 分類, 可視化など, ドローン画像のエンドツーエンド解析を容易にするユーザフレンドリーなWebアプリケーションを開発し, クリーンアップ作業を支援する。
本手法は,ラベル付きデータを持たない7つのデブリオブジェクトクラスに対して,検出(0.69平均IoU)と分類(0.74F1スコア)の競合性能を実現する。
このフレームワークは、自動化されたゴミサンプリングサーベイを合理化し、効率的で持続可能なコミュニティ主導のクリーンアップイニシアチブを育成する可能性がある。
Marine debris poses a significant ecological threat to birds, fish, and other animal life. Traditional methods for assessing debris accumulation involve labor-intensive and costly manual surveys. This study introduces a framework that utilizes aerial imagery captured by drones to conduct remote trash surveys. Leveraging computer vision techniques, our approach detects, classifies, and maps marine debris distributions. The framework uses Grounding DINO, a transformer-based zero-shot object detector, and CLIP, a vision-language model for zero-shot object classification, enabling the detection and classification of debris objects based on material type without the need for training labels. To mitigate over-counting due to different views of the same object, Scale-Invariant Feature Transform (SIFT) is employed for duplicate matching using local object features. Additionally, we have developed a user-friendly web application that facilitates end-to-end analysis of drone images, including object detection, classification, and visualization on a map to support cleanup efforts. Our method achieves competitive performance in detection (0.69 mean IoU) and classification (0.74 F1 score) across seven debris object classes without labeled data, comparable to state-of-the-art supervised methods. This framework has the potential to streamline automated trash sampling surveys, fostering efficient and sustainable community-led cleanup initiatives. | 翻訳日:2024-07-24 01:31:23 公開日:2024-07-20 |
# クラス分布推定のためのフリードマン法に関するコメント
Comments on Friedman's Method for Class Distribution Estimation ( http://arxiv.org/abs/2405.16666v2 ) ライセンス: Link先を確認 | Dirk Tasche, | (参考訳) クラス分布推定(量化とも呼ばれる)の目的は、クラスラベルの観測を伴わないテストデータセットにおいて、事前クラス確率の値を決定することである。
それらの多くは、トレーニングとテストデータの分布が事前確率シフト(ラベルシフトとも呼ばれる)を通して関連しているという仮定に基づいている。
これらの方法のうち、フリードマンの手法は、最近二項量子化と多項量子化の両方に対して比較的よく機能することが判明した。
クラス分布推定のための線形方程式系を設計するための一般的な枠組みの文脈において、フリードマンの手法の特性と、Friedman(文献ではDeBias法と呼ばれる)によって言及された別のアプローチについて論じる。
The purpose of class distribution estimation (also known as quantification) is to determine the values of the prior class probabilities in a test dataset without class label observations. A variety of methods to achieve this have been proposed in the literature, most of them based on the assumption that the distributions of the training and test data are related through prior probability shift (also known as label shift). Among these methods, Friedman's method has recently been found to perform relatively well both for binary and multi-class quantification. We discuss the properties of Friedman's method and another approach mentioned by Friedman (called DeBias method in the literature) in the context of a general framework for designing linear equation systems for class distribution estimation. | 翻訳日:2024-07-24 01:21:37 公開日:2024-07-20 |
# 言葉から行動へ: LLM駆動自律システムの理論的基盤を明らかにする
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems ( http://arxiv.org/abs/2405.19883v2 ) ライセンス: Link先を確認 | Jianliang He, Siyu Chen, Fengzhuo Zhang, Zhuoran Yang, | (参考訳) 本研究では,理論レンズを用いて,大規模言語モデル(LLM)が物理世界の意思決定問題を解くことができる理由を理解することを目的とする。
この目的のために、LLMプランナーとアクターがそれぞれ高レベルなタスク計画と低レベルな実行を行う階層的強化学習(RL)モデルを考える。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
事前学習データに対する適切な仮定の下で,事前学習した LLM Planner が,文脈内学習を通じてベイズ集合模倣学習(Bayesian aggregated mimicion Learning, BAIL)を効果的に行うことを証明した。
さらに, BAILから派生したサブゴールを超える探索の必要性を強調し, LLMが返却したサブゴールを経口的に実行することで, 線形後悔につながることを証明した。
治療としてBAILに$\epsilon$-greedyの探索戦略を導入する。
最後に、LLMプランナーが環境の遷移モデルとマルチエージェント設定を推論する世界モデルとして機能し、複数のアクター間の協調を可能にするシナリオを含むように理論フレームワークを拡張した。
In this work, from a theoretical lens, we aim to understand why large language model (LLM) empowered agents are able to solve decision-making problems in the physical world. To this end, consider a hierarchical reinforcement learning (RL) model where the LLM Planner and the Actor perform high-level task planning and low-level execution, respectively. Under this model, the LLM Planner navigates a partially observable Markov decision process (POMDP) by iteratively generating language-based subgoals via prompting. Under proper assumptions on the pretraining data, we prove that the pretrained LLM Planner effectively performs Bayesian aggregated imitation learning (BAIL) through in-context learning. Additionally, we highlight the necessity for exploration beyond the subgoals derived from BAIL by proving that naively executing the subgoals returned by LLM leads to a linear regret. As a remedy, we introduce an $\epsilon$-greedy exploration strategy to BAIL, which is proven to incur sublinear regret when the pretraining error is small. Finally, we extend our theoretical framework to include scenarios where the LLM Planner serves as a world model for inferring the transition model of the environment and to multi-agent settings, enabling coordination among multiple Actors. | 翻訳日:2024-07-24 01:21:37 公開日:2024-07-20 |
# カーネルの性質から派生したSHAPの代替手法:理論的解析について
Alternative Methods to SHAP Derived from Properties of Kernels: A Note on Theoretical Analysis ( http://arxiv.org/abs/2406.00371v3 ) ライセンス: Link先を確認 | Kazuhiro Hiraki, Shinichi Ishihara, Junnosuke Shino, | (参考訳) 本稿ではまず,LIME(Local Interpretable Model-Agnostic Explanations)のカーネルにおけるAFA(Additive Feature Attribution)の一般的および分析的表現を導出する。
次に、カーネルの適切な性質を持つ新しいAFAや、協調ゲーム理論におけるLS前核と一致するAFAを提案する。
また、SHAP(SHapley Additive exPlanations)などの既存のAFAを再検討し、カーネルの特性を再検討する。
This study first derives a general and analytical expression of AFA (Additive Feature Attribution) in terms of the kernel in LIME (Local Interpretable Model-agnostic Explanations). Then, we propose some new AFAs that have appropriate properties of kernels or that coincide with the LS prenucleolus in cooperative game theory. We also revisit existing AFAs such as SHAP (SHapley Additive exPlanations) and re-examine the properties of their kernels. | 翻訳日:2024-07-24 01:21:37 公開日:2024-07-20 |
# インセプションV1の欠損曲線検出器:インセプションV1早期ビジョンへのスパースオートエンコーダの適用
The Missing Curve Detectors of InceptionV1: Applying Sparse Autoencoders to InceptionV1 Early Vision ( http://arxiv.org/abs/2406.03662v2 ) ライセンス: Link先を確認 | Liv Gorton, | (参考訳) スパースオートエンコーダ(SAE)に関する最近の研究は、ニューラルネットワークから解釈可能な特徴を抽出し、重ね合わせによって引き起こされる多節性ニューロンの課題に対処することを約束している。
本稿では、よく研究された畳み込みニューラルネットワークであるInceptionV1の初期の視覚層にSAEを適用し、曲線検出器に焦点をあてる。
以上の結果から、SAEは個々のニューロンから明らかでない新しい解釈可能な特徴を発見できることが示された。
また、SAEはいくつかの多節性ニューロンをより単節性成分に分解することができる。
これらの結果は、SAEはインセプションV1や畳み込みニューラルネットワークをより一般的に理解するための貴重なツールであることを示している。
Recent work on sparse autoencoders (SAEs) has shown promise in extracting interpretable features from neural networks and addressing challenges with polysemantic neurons caused by superposition. In this paper, we apply SAEs to the early vision layers of InceptionV1, a well-studied convolutional neural network, with a focus on curve detectors. Our results demonstrate that SAEs can uncover new interpretable features not apparent from examining individual neurons, including additional curve detectors that fill in previous gaps. We also find that SAEs can decompose some polysemantic neurons into more monosemantic constituent features. These findings suggest SAEs are a valuable tool for understanding InceptionV1, and convolutional neural networks more generally. | 翻訳日:2024-07-24 01:11:44 公開日:2024-07-20 |
# PANDA:Width-Aware メッセージの転送がリワイドを超えて拡大
PANDA: Expanded Width-Aware Message Passing Beyond Rewiring ( http://arxiv.org/abs/2406.03671v2 ) ライセンス: Link先を確認 | Jeongwhan Choi, Sumin Park, Hyowon Wi, Sung-Bae Cho, Noseong Park, | (参考訳) グラフニューラルネットワーク(GNN)の分野における最近の研究は、長距離情報の伝播を妨げるグラフ構造のボトルネック現象に起因する「オーバー・スクアッシング(over-squashing)」と呼ばれる重要な問題を特定している。
先行研究では、信号伝達を促進するためにグラフの空間的特性やスペクトル特性を最適化することを目的とした様々なグラフ書き換えの概念が提案されている。
しかし、そのようなアプローチは必然的に元のグラフトポロジーを悪化させ、情報フローの歪みを引き起こす可能性がある。
これを解決するために,拡張ワイド・アウェア(PANDA)メッセージパッシング(panDA)メッセージパッシング(panDA)メッセージパッシング(panDA)メッセージパッシング)を導入し,高い中央性を持つノードを選択的に拡張し,遠隔ノードからの信号の流入をカプセル化する。
実験の結果,提案手法は既存のリワイアリング法よりも優れており,ノードの隠れ状態を選択的に拡張することが,オーバーカッシングに対処するためのグラフリワイアリングの代替となる可能性が示唆された。
Recent research in the field of graph neural network (GNN) has identified a critical issue known as "over-squashing," resulting from the bottleneck phenomenon in graph structures, which impedes the propagation of long-range information. Prior works have proposed a variety of graph rewiring concepts that aim at optimizing the spatial or spectral properties of graphs to promote the signal propagation. However, such approaches inevitably deteriorate the original graph topology, which may lead to a distortion of information flow. To address this, we introduce an expanded width-aware (PANDA) message passing, a new message passing paradigm where nodes with high centrality, a potential source of over-squashing, are selectively expanded in width to encapsulate the growing influx of signals from distant nodes. Experimental results show that our method outperforms existing rewiring methods, suggesting that selectively expanding the hidden state of nodes can be a compelling alternative to graph rewiring for addressing the over-squashing. | 翻訳日:2024-07-24 01:11:44 公開日:2024-07-20 |
# Perturb-and-Project:差分的にプライベートな類似点とマージナル
Perturb-and-Project: Differentially Private Similarities and Marginals ( http://arxiv.org/abs/2406.04868v2 ) ライセンス: Link先を確認 | Vincent Cohen-Addad, Tommaso d'Orsi, Alessandro Epasto, Vahab Mirrokni, Peilin Zhong, | (参考訳) A\in \mathcal{S}$にノイズが付加され、その結果が許容可能なデータセットの空間に投影される、差分プライバシーのための入力摂動フレームワークを再検討する。
このフレームワークを通じて、ペアワイズ・コサイン類似性をプライベートにリリースする、新しい効率的なアルゴリズムを最初に設計する。
第二に、$k$の辺縁クエリを$n$の機能に対して計算する新しいアルゴリズムを導出する。
以前の作業で同等の保証は$k$ evenでしか得られなかった。
さらに、我々のアルゴリズムは、$t\le n^{5/6}/\log n\,
最後に、なぜ textit{fast} 入力摂動アルゴリズムが実際にうまく機能するのかに関する理論的見解を提供する。
結果の背後にある重要な技術的要素は、解の集合のガウス的複雑さを上限とする2乗証明の厳密な和である。
We revisit the input perturbations framework for differential privacy where noise is added to the input $A\in \mathcal{S}$ and the result is then projected back to the space of admissible datasets $\mathcal{S}$. Through this framework, we first design novel efficient algorithms to privately release pair-wise cosine similarities. Second, we derive a novel algorithm to compute $k$-way marginal queries over $n$ features. Prior work could achieve comparable guarantees only for $k$ even. Furthermore, we extend our results to $t$-sparse datasets, where our efficient algorithms yields novel, stronger guarantees whenever $t\le n^{5/6}/\log n\,.$ Finally, we provide a theoretical perspective on why \textit{fast} input perturbation algorithms works well in practice. The key technical ingredients behind our results are tight sum-of-squares certificates upper bounding the Gaussian complexity of sets of solutions. | 翻訳日:2024-07-24 01:11:44 公開日:2024-07-20 |
# 多段階音声分類の最適化:自動評価における効率的なパラメータ削減のためのウィスパーエンコーダの活用
Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper's Encoder for Efficient Parameter Reduction in Automated Assessment ( http://arxiv.org/abs/2406.05784v3 ) ライセンス: Link先を確認 | Huma Ameer, Seemab Latif, Iram Tariq Bhatti, Rabia Latif, | (参考訳) 発声音声の自動分類は、言語病理学者に支援を提供するタイムリーアセスメントに重要な意味を持つ。
この分野の顕著な進歩にもかかわらず、発話中に複数の不一致が発生した場合、注意が必要である。
我々は、このギャップを埋めるために、より効率的にマルチスタッタ音声を分類することで、進歩的なアプローチをとってきた。
この問題は、まず、オープンソースのデータセットであるSEP-28kオーディオクリップから、マルチスタッタ分散のデータセットをキュレートすることで解決されている。
第二に、最先端の音声認識モデルであるWhisperを用いて、エンコーダを用いて問題をマルチラベル分類する。
第3に、6エンコーダ層Whisperを用いて様々な層凍結戦略を実験し、そのモデルの計算効率の良い構成を同定した。
提案された構成は、外部テストデータセット、すなわち Fluency-Bank に基づいて、マイクロ、マクロ、重み付けされたF1スコアの0.88、0.85、0.87を達成した。
さらに、層の凍結戦略を通じて、上記の結果を達成するために、単一のエンコーダ層を微調整し、モデルのトレーニング可能なパラメータを2027万から329万に減らした。
本研究では,最後のエンコーダ層が発声音声における不一致の同定に寄与していることを明らかにする。
その結果、計算効率が良く、訓練のためのパラメータが83.7%少なくなり、提案されたアプローチは様々な方言や言語に適応できるようになった。
The automated classification of stuttered speech has significant implications for timely assessments providing assistance to speech language pathologists. Despite notable advancements in the field, the cases in which multiple disfluencies occur in speech require attention. We have taken a progressive approach to fill this gap by classifying multi-stuttered speech more efficiently. The problem has been addressed by firstly curating a dataset of multi-stuttered disfluencies from open source dataset SEP-28k audio clips. Secondly, employing Whisper, a state-of-the-art speech recognition model has been leveraged by using its encoder and taking the problem as multi label classification. Thirdly, using a 6 encoder layer Whisper and experimenting with various layer freezing strategies, a computationally efficient configuration of the model was identified. The proposed configuration achieved micro, macro, and weighted F1-scores of 0.88, 0.85, and 0.87, correspondingly on an external test dataset i.e. Fluency-Bank. In addition, through layer freezing strategies, we were able to achieve the aforementioned results by fine-tuning a single encoder layer, consequently, reducing the model's trainable parameters from 20.27 million to 3.29 million. This research study unveils the contribution of the last encoder layer in the identification of disfluencies in stuttered speech. Consequently, it has led to a computationally efficient approach, 83.7% less parameters to train, making the proposed approach more adaptable for various dialects and languages. | 翻訳日:2024-07-24 01:11:44 公開日:2024-07-20 |
# ProcessPainter: シーケンスデータからペイントプロセスを学ぶ
ProcessPainter: Learn Painting Process from Sequence Data ( http://arxiv.org/abs/2406.06062v2 ) ライセンス: Link先を確認 | Yiren Song, Shijie Huang, Chen Yao, Xiaojun Ye, Hai Ci, Jiaming Liu, Yuxuan Zhang, Mike Zheng Shou, | (参考訳) 画家の絵画の過程は本質的に段階的に変化しており、異なる画家や様式によって大きく異なる。
詳細なステップ・バイ・ステップの絵画プロセスの生成は、美術教育や研究には不可欠であるが、ほとんど未調査のままである。
従来のストロークベースのレンダリング手法は、画像をブラシストロークのシーケンスに分解するが、基本的なブラシストロークの修正に制限があるため、アーティストの真のプロセスの複製には不足している。
拡散過程を利用したテキスト・ツー・イメージ・モデルは反復的デノゲーションを通じて画像を生成するが、アーティストの絵画プロセスとは大きく異なる。
これらの課題に対処するために、私たちは、最初に合成データに基づいて事前訓練され、その後、LoRAモデルを使用してアーティストの絵画シーケンスのセットで微調整されたテキスト・ビデオモデルであるProcessPainterを紹介した。
このアプローチは、テキストプロンプトから描画過程を初めて生成する。
さらに,任意のフレーム入力を受理可能なArtwork Replication Networkを導入し,絵のプロセスの制御,絵のシーケンスへの分解,半完成品の完成などを行う。
本稿では,芸術教育と画像生成技術の進歩に向けた新たな視点とツールを提供する。
The painting process of artists is inherently stepwise and varies significantly among different painters and styles. Generating detailed, step-by-step painting processes is essential for art education and research, yet remains largely underexplored. Traditional stroke-based rendering methods break down images into sequences of brushstrokes, yet they fall short of replicating the authentic processes of artists, with limitations confined to basic brushstroke modifications. Text-to-image models utilizing diffusion processes generate images through iterative denoising, also diverge substantially from artists' painting process. To address these challenges, we introduce ProcessPainter, a text-to-video model that is initially pre-trained on synthetic data and subsequently fine-tuned with a select set of artists' painting sequences using the LoRA model. This approach successfully generates painting processes from text prompts for the first time. Furthermore, we introduce an Artwork Replication Network capable of accepting arbitrary-frame input, which facilitates the controlled generation of painting processes, decomposing images into painting sequences, and completing semi-finished artworks. This paper offers new perspectives and tools for advancing art education and image generation technology. | 翻訳日:2024-07-24 01:11:44 公開日:2024-07-20 |
# SU(1,1)干渉計内における数保存動作による位相推定
Phase estimation via number-conserving operation inside the SU(1,1) interferometer ( http://arxiv.org/abs/2406.06528v2 ) ライセンス: Link先を確認 | Qingqian Kang, Zekun Zhao, Teng Zhao, Cunjin Liu, Liyun Hu, | (参考訳) 非線形素子を用いることで、SU(1,1)干渉計は受動干渉計よりも優れた位相感度を示す。
しかし、精度は光子損失、特に内部損失に大きく影響している。
本稿では,SU(1,1)干渉計内に数保存演算(PA-then-PS,PS-then-PA)を入力状態として実装することにより,ホモダイン検出による位相測定の精度を向上させる理論的手法を提案する。
本稿では,数保存操作が位相感度,量子フィッシャー情報,量子クレーマー・ラオ境界に与える影響を,理想的・光子損失の両方のシナリオで解析する。
その結果, 内部の非ガウス演算は位相感度と量子フィッシャー情報を高め, 内部光子損失に対するSU(1,1)干渉計の堅牢性を向上させることができることがわかった。
特にPS-then-PA方式は、位相感度の点で理想と光子損失の双方において優れた改善を示す。
さらに、理想的な場合、PA-then-PSスキームは、量子フィッシャー情報と量子クレーマー-ラオの観点からPS-then-PAスキームをわずかに上回る。
しかし、光子損失の存在下では、PS-then-PAスキームの方が有利である。
Utilizing nonlinear elements, SU(1,1) interferometers demonstrate superior phase sensitivity compared to passive interferometers. However, the precision is significantly impacted by photon losses, particularly internal losses. We propose a theoretical scheme to improve the precision of phase measurement using homodyne detection by implementing number-conserving operations (PA-then-PS and PS-then-PA) within the SU(1,1) interferometer, with the coherent state and the vacuum state as the input states. We analyze the effects of number-conserving operations on the phase sensitivity, the quantum Fisher information, and the quantum Cramer-Rao bound under both ideal and photon losses scenarios. Our findings reveal that the internal non-Gaussian operations can enhance the phase sensitivity and the quantum Fisher information, and effectively improve the robustness of the SU(1,1) interferometer against internal photon losses. Notably, the PS-then-PA scheme exhibits superior improvement in both ideal and photon losses cases in terms of phase sensitivity. Moreover, in the ideal case, PA-then-PS scheme slightly outperforms PS-then-PA scheme in terms of the quantum Fisher information and the Quantum Cramer-Rao. However, in the presence of photon losses, PS-then-PA scheme demonstrates a greater advantage. | 翻訳日:2024-07-24 01:11:44 公開日:2024-07-20 |
# 脳疾患とMRIモダリティの異なるクライアントデータベースからのフェデレーション学習の可能性
Feasibility of Federated Learning from Client Databases with Different Brain Diseases and MRI Modalities ( http://arxiv.org/abs/2406.11636v2 ) ライセンス: Link先を確認 | Felix Wagner, Wentian Xu, Pramit Saha, Ziyun Liang, Daniel Whitehouse, David Menon, Virginia Newcombe, Natalie Voets, J. Alison Noble, Konstantinos Kamnitsas, | (参考訳) MRIにおける脳病変のセグメンテーションモデルは通常、特定の疾患のために開発され、MRIモダリティのセットで予め定義されたデータに基づいて訓練される。
それぞれのモデルでは、MRIの異なるデータを使って疾患を分類することはできないし、他の種類の疾患も分類できない。
さらに、このトレーニングパラダイムでは、さまざまな種類の脳病理やMRIの様々なセットのスキャンやセグメンテーションラベルを含む、異種データベースからの学習の恩恵を受けることができない。
さらに、患者データの感度は、中央集権的なデータ収集を防ぎ、分散化されたアプローチを必要とすることが多い。
FL(Federated Learning)を使用して、異なる脳病理のスキャンやラベル、さまざまなMRIモダリティを含む、単一のモデルをクライアントデータベース上でトレーニングすることは可能か?
モデルとトレーニング戦略に対する適切な,シンプルな,実践的な修正を組み合わせることで,有望な結果を実証する: クライアント間で利用可能なモダリティの集合全体を網羅する入力チャネルを備えたモデルの設計,ランダムなモダリティドロップによるトレーニング,特徴正規化手法の効果を探る。
5つの異なる疾患を持つ7つの脳MRIデータベースの評価は、そのようなFLフレームワークが、トレーニング中に見られるすべての疾患の分類において非常に有望な単一のモデルをトレーニングできることを示している。
重要なのは、これらの病気をトレーニングクライアントとは異なるモダリティのセットを含む新しいデータベースに分類することができることだ。
これらの結果は、フェデレートラーニング(Federated Learning)を用いて、多様な脳疾患とMRIモダリティを持つ分散データ上で、単一の3Dセグメンテーションモデルをトレーニングする可能性と効果を初めて示した。
コードは、https://github.com/FelixWag/FL-MultiDisease-MRIで利用可能になる。
Segmentation models for brain lesions in MRI are commonly developed for a specific disease and trained on data with a predefined set of MRI modalities. Each such model cannot segment the disease using data with a different set of MRI modalities, nor can it segment any other type of disease. Moreover, this training paradigm does not allow a model to benefit from learning from heterogeneous databases that may contain scans and segmentation labels for different types of brain pathologies and diverse sets of MRI modalities. Additionally, the sensitivity of patient data often prevents centrally aggregating data, necessitating a decentralized approach. Is it feasible to use Federated Learning (FL) to train a single model on client databases that contain scans and labels of different brain pathologies and diverse sets of MRI modalities? We demonstrate promising results by combining appropriate, simple, and practical modifications to the model and training strategy: Designing a model with input channels that cover the whole set of modalities available across clients, training with random modality drop, and exploring the effects of feature normalization methods. Evaluation on 7 brain MRI databases with 5 different diseases shows that such FL framework can train a single model that is shown to be very promising in segmenting all disease types seen during training. Importantly, it is able to segment these diseases in new databases that contain sets of modalities different from those in training clients. These results demonstrate, for the first time, the feasibility and effectiveness of using Federated Learning to train a single 3D segmentation model on decentralised data with diverse brain diseases and MRI modalities, a necessary step towards leveraging heterogeneous real-world databases. Code will be made available at: https://github.com/FelixWag/FL-MultiDisease-MRI | 翻訳日:2024-07-24 01:01:51 公開日:2024-07-20 |
# PruningBench: 構造的プルーニングの総合ベンチマーク
PruningBench: A Comprehensive Benchmark of Structural Pruning ( http://arxiv.org/abs/2406.12315v3 ) ライセンス: Link先を確認 | Haoling Li, Changhao Li, Mengqi Xue, Gongfan Fang, Sheng Zhou, Zunlei Feng, Huiqiong Wang, Yong Wang, Lechao Cheng, Mingli Song, Jie Song, | (参考訳) より効率的なモデルを作成するための有望なアプローチとして、構造的プルーニングが登場している。
それでも、コミュニティは標準化されたベンチマークとメトリクスの欠如に悩まされており、この分野の進歩は完全には理解されていない。
このギャップを埋めるために、構造的プルーニングのための最初の包括的なベンチマークである「textit{PruningBench}」を提示する。
PruningBench氏は以下の3つの特徴を紹介している。
1)PruningBenchは、多様な構造的プルーニング手法の有効性を評価するために、統一的で一貫した枠組みを採用している。
2)PruningBenchは、16の既存プルーニング手法を体系的に評価し、幅広いモデル(例えば、CNN、ViT)とタスク(例えば、分類と検出)を包含する。
3) PruningBenchは、将来のプルーニングメソッドの実装を容易にするための、実装が容易なインターフェースを提供する。
オンラインプルーニングプラットフォーム http://pruning.vipazoo.cn で、プルーニングタスクをカスタマイズし、すべての結果をこの論文で再現する。
コードはhttps://github.com/HollyLee2000/PruningBench.comで公開される。
Structural pruning has emerged as a promising approach for producing more efficient models. Nevertheless, the community suffers from a lack of standardized benchmarks and metrics, leaving the progress in this area not fully comprehended. To fill this gap, we present the first comprehensive benchmark, termed \textit{PruningBench}, for structural pruning. PruningBench showcases the following three characteristics: 1) PruningBench employs a unified and consistent framework for evaluating the effectiveness of diverse structural pruning techniques; 2) PruningBench systematically evaluates 16 existing pruning methods, encompassing a wide array of models (e.g., CNNs and ViTs) and tasks (e.g., classification and detection); 3) PruningBench provides easily implementable interfaces to facilitate the implementation of future pruning methods, and enables the subsequent researchers to incorporate their work into our leaderboards. We provide an online pruning platform http://pruning.vipazoo.cn for customizing pruning tasks and reproducing all results in this paper. Codes will be made publicly on https://github.com/HollyLee2000/PruningBench. | 翻訳日:2024-07-24 01:01:51 公開日:2024-07-20 |
# RepNeXt: 構造的再パラメータ化を用いた高速マルチスケールCNN
RepNeXt: A Fast Multi-Scale CNN using Structural Reparameterization ( http://arxiv.org/abs/2406.16004v2 ) ライセンス: Link先を確認 | Mingshu Zhao, Yi Luo, Yong Ouyang, | (参考訳) リソース制約のあるモバイルビジョンタスクの領域では、効率とパフォーマンスの追求が、軽量な畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)のイノベーションを継続的に推進している。
ViTは自己アテンションメカニズムによるグローバルなコンテキストのキャプチャに優れていますが、リソース制限された環境へのデプロイメントは、計算の複雑さとレイテンシによって妨げられます。
逆に、軽量CNNはパラメータ効率と低レイテンシが好ましい。
本研究では,資源拘束型アプリケーションに適した多目的視覚バックボーンを開発するために,CNNとViTの相補的な利点について検討する。
本稿では,マルチスケール特徴表現を統合した新しいモデルシリーズRepNeXtを紹介する。
大規模な実験では、RepNeXtが現在のリードライトウェイトなCNNやViTよりも優れていることを示し、様々なビジョンベンチマークで有利なレイテンシを提供する。
RepNeXt-M4 は RepViT-M1.5 の 82.3 % の精度で iPhone 12 の 1.5ms 以内の ImageNet と一致し、その AP$^{box} を MS-COCO で 1.3 で上回り、パラメータを 0.7M で減らす。
コードとモデルはhttps://github.com/suous/RepNeXt.comで公開されている。
In the realm of resource-constrained mobile vision tasks, the pursuit of efficiency and performance consistently drives innovation in lightweight Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). While ViTs excel at capturing global context through self-attention mechanisms, their deployment in resource-limited environments is hindered by computational complexity and latency. Conversely, lightweight CNNs are favored for their parameter efficiency and low latency. This study investigates the complementary advantages of CNNs and ViTs to develop a versatile vision backbone tailored for resource-constrained applications. We introduce RepNeXt, a novel model series integrates multi-scale feature representations and incorporates both serial and parallel structural reparameterization (SRP) to enhance network depth and width without compromising inference speed. Extensive experiments demonstrate RepNeXt's superiority over current leading lightweight CNNs and ViTs, providing advantageous latency across various vision benchmarks. RepNeXt-M4 matches RepViT-M1.5's 82.3\% accuracy on ImageNet within 1.5ms on an iPhone 12, outperforms its AP$^{box}$ by 1.3 on MS-COCO, and reduces parameters by 0.7M. Codes and models are available at https://github.com/suous/RepNeXt. | 翻訳日:2024-07-24 00:52:06 公開日:2024-07-20 |
# OTCE:ハイブリッドSSMとエキスパートのクロスドメイン混合によるオブザーバ・シンカー・コンシーバー・エクスプレッサーの構築
OTCE: Hybrid SSM and Attention with Cross Domain Mixture of Experts to construct Observer-Thinker-Conceiver-Expresser ( http://arxiv.org/abs/2406.16495v3 ) ライセンス: Link先を確認 | Jingze Shi, Ting Xie, Bingheng Wu, Chunjun Zheng, Kai Wang, | (参考訳) 近年の研究では、言語モデリングタスクにおいて、MambaとTransformerアーキテクチャを組み合わせることで、MambaやTransformerアーキテクチャを単独で優れた性能を発揮することが示されている。
二次自己アテンション機構は、シーケンス内の任意の要素の長期的な依存関係を扱う際の選択状態空間の欠点を効果的に緩和する。
本稿では、選択状態空間モデルと二次的注意を結びつける位置情報注入法を提案し、これら2つのアーキテクチャをクロスシェアドメインを持つハイブリッド専門家と統合し、両者の利点を享受する。
我々は、よりバイオミメティックなアイデアを持つ新しいアーキテクチャを設計する: Observer-Thinker-Conceiver-Expresser (OTCE)。
Recent research has shown that combining Mamba with Transformer architecture, which has selective state space and quadratic self-attention mechanism, outperforms using Mamba or Transformer architecture alone in language modeling tasks. The quadratic self-attention mechanism effectively alleviates the shortcomings of selective state space in handling long-term dependencies of any element in the sequence. We propose a position information injection method that connects the selective state space model with the quadratic attention, and integrates these two architectures with hybrid experts with cross-sharing domains, so that we can enjoy the advantages of both. We design a new architecture with a more biomimetic idea: Observer-Thinker-Conceiver-Expresser (OTCE), which can compete with well-known medium-scale open-source language models on a small scale in language modeling tasks. | 翻訳日:2024-07-24 00:52:06 公開日:2024-07-20 |
# 弱形式潜在空間力学の同時同定による物理インフォーム型能動学習
Physics-informed active learning with simultaneous weak-form latent space dynamics identification ( http://arxiv.org/abs/2407.00337v2 ) ライセンス: Link先を確認 | Xiaolong He, April Tran, David M. Bortz, Youngsoo Choi, | (参考訳) パラメトリックグリーディ潜在空間力学同定(gLaSDI)フレームワークは、高次元非線形物理系の正確かつ効率的なモデリングに有望な可能性を証明している。
しかし、ノイズの多いデータを扱うことは依然として困難である。
雑音に対するロバスト性を高めるため、非線形力学(WENDy)の弱形式推定をgLaSDIに組み込む。
提案する弱形式gLaSDI(WgLaSDI)フレームワークでは,高次元データの固有非線形潜在空間ダイナミクスを発見するために,オートエンコーダとWENDyを同時に訓練する。
gLaSDIで使用される非線形力学(SINDy)の標準的なスパース同定と比較すると、WENDyは分散低減と頑健な潜在空間探索を可能にし、より正確で効率的な低次モデリングをもたらす。
さらに、WgLaSDIにおけるグリーディ物理インフォームドアクティブラーニングにより、フライでの最適なトレーニングデータの適応サンプリングが可能となり、モデリング精度が向上した。
提案手法の有効性は, 粘度やバーガース方程式, 時間依存性半径対流, プラズマ物理学におけるブラソフ方程式など, 様々な非線形力学問題をモデル化することによって実証される。
5-10%のガウスホワイトノイズを含むデータにより、WgLaSDIはgLaSDIを桁違いに上回り、相対誤差が1-7%に達する。
高忠実度モデルと比較して、WgLaSDIは121から1,779倍のスピードアップを達成する。
The parametric greedy latent space dynamics identification (gLaSDI) framework has demonstrated promising potential for accurate and efficient modeling of high-dimensional nonlinear physical systems. However, it remains challenging to handle noisy data. To enhance robustness against noise, we incorporate the weak-form estimation of nonlinear dynamics (WENDy) into gLaSDI. In the proposed weak-form gLaSDI (WgLaSDI) framework, an autoencoder and WENDy are trained simultaneously to discover intrinsic nonlinear latent-space dynamics of high-dimensional data. Compared to the standard sparse identification of nonlinear dynamics (SINDy) employed in gLaSDI, WENDy enables variance reduction and robust latent space discovery, therefore leading to more accurate and efficient reduced-order modeling. Furthermore, the greedy physics-informed active learning in WgLaSDI enables adaptive sampling of optimal training data on the fly for enhanced modeling accuracy. The effectiveness of the proposed framework is demonstrated by modeling various nonlinear dynamical problems, including viscous and inviscid Burgers' equations, time-dependent radial advection, and the Vlasov equation for plasma physics. With data that contains 5-10% Gaussian white noise, WgLaSDI outperforms gLaSDI by orders of magnitude, achieving 1-7% relative errors. Compared with the high-fidelity models, WgLaSDI achieves 121 to 1,779x speed-up. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-20 |
# コーパスフィルタを用いた不特定機能アライメントによる韓国のアスペクトベース感性分析
Korean Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering ( http://arxiv.org/abs/2407.00342v3 ) ライセンス: Link先を確認 | Kibeom Nam, | (参考訳) 韓国のレストランレビューに対するアスペクトベース感性分析(ABSA)の調査は、既存の文献に特に欠落している。
本研究は,韓国語などの低リソース言語におけるABSAの直感的で効果的な枠組みを提案する。
翻訳されたベンチマークと未ラベルの韓国データを統合することで、予測ラベルを最適化する。
翻訳データに基づいて微調整されたモデルを用いて,実際の韓国のNLI集合を擬似ラベルした。
その後,この擬似NLI集合にLaBSEとMSPに基づくフィルタリングを適用し,追加訓練によりアスペクトカテゴリー検出と極性判定を増強した。
二重フィルタリングを取り入れたこのモデルはデータセットギャップを橋渡しし、最小限のリソースを持つ韓国のABSAで肯定的な結果を得た。
新たなデータ注入パイプラインを通じて,低リソースの言語国において,高リソースのデータを活用し,企業や個人を問わず,コミュニティ内で効果的なモデルを構築することを目的としている。
英語のABSAと比較すると,F1スコアと精度に約3%の差が認められた。
このリンクで、韓国のABSAのためのデータセットとコードをリリースします。
Investigations into Aspect-Based Sentiment Analysis (ABSA) for Korean restaurant reviews are notably lacking in the existing literature. Our research proposes an intuitive and effective framework for ABSA in low-resource languages such as Korean. It optimizes prediction labels by integrating translated benchmark and unlabeled Korean data. Using a model fine-tuned on translated data, we pseudo-labeled the actual Korean NLI set. Subsequently, we applied LaBSE and MSP-based filtering to this pseudo-NLI set as implicit feature, enhancing Aspect Category Detection and Polarity determination through additional training. Incorporating dual filtering, this model bridged dataset gaps, achieving positive results in Korean ABSA with minimal resources. Through additional data injection pipelines, our approach aims to utilize high-resource data and construct effective models within communities, whether corporate or individual, in low-resource language countries. Compared to English ABSA, our framework showed an approximately 3% difference in F1 scores and accuracy. We release the dataset and our code for Korean ABSA, at this link. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-20 |
# ビデオ言語表現学習のためのメタ最適化Angular Marginコントラストフレームワーク
Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning ( http://arxiv.org/abs/2407.03788v2 ) ライセンス: Link先を確認 | Thong Nguyen, Yi Bin, Xiaobao Wu, Xinshuai Dong, Zhiyuan Hu, Khoi Le, Cong-Duy Nguyen, See-Kiong Ng, Luu Anh Tuan, | (参考訳) データ品質は、ビデオ言語表現学習の有効性を決定する最前線にある。
しかし、以前のデータにおけるビデオテキストのペアは通常、完全に一致しないため、ビデオ言語による表現は、正確にはクロスモーダルなセマンティクスを反映しない。
さらに、従来のデータにも概念の不均一な分布があり、不人気な対象に対する下流のパフォーマンスを阻害する。
これらの問題に対処するため, 完全類似性を達成するためのクロスモーダル表現を正規化するために, 減算的角マージンを持つ対照的な目的を提案する。
さらに, 不均一な概念分布に対応するために, 多層パーセプトロン(MLP)パラメータ重み付け関数を提案する。
大規模な視覚言語モデルによって生成されたビデオテキストデータにより、少量の未バイアスメタデータで指導され、強化された訓練により、ビデオ言語表現を改善し、よく使われるビデオ質問応答とテキストビデオ検索データセットにおいて優れたパフォーマンスを達成する。
Data quality stands at the forefront of deciding the effectiveness of video-language representation learning. However, video-text pairs in previous data typically do not align perfectly with each other, which might lead to video-language representations that do not accurately reflect cross-modal semantics. Moreover, previous data also possess an uneven distribution of concepts, thereby hampering the downstream performance across unpopular subjects. To address these problems, we propose a contrastive objective with a subtractive angular margin to regularize cross-modal representations in their effort to reach perfect similarity. Furthermore, to adapt to the non-uniform concept distribution, we propose a multi-layer perceptron (MLP)-parameterized weighting function that maps loss values to sample weights which enable dynamic adjustment of the model's focus throughout the training. With the training guided by a small amount of unbiased meta-data and augmented by video-text data generated by large vision-language model, we improve video-language representations and achieve superior performances on commonly used video question answering and text-video retrieval datasets. | 翻訳日:2024-07-24 00:42:21 公開日:2024-07-20 |
# セル無線インタフェースプロトコルによる暗号化アプリケーショントラフィックのキャラクタリゼーション
Characterizing Encrypted Application Traffic through Cellular Radio Interface Protocol ( http://arxiv.org/abs/2407.07361v2 ) ライセンス: Link先を確認 | Md Ruman Islam, Raja Hasnain Anwar, Spyridon Mastorakis, Muhammad Taqi Raza, | (参考訳) 最新のアプリケーションは、データが読み取りや秘密に修正されるのを防ぐためにエンドツーエンド暗号化されている。
5G技術ノロジーは、アプリケーション固有のパフォーマンスとレイテンシの目標を損なうことなく、これらのアプリケーションにユビキタスにアクセスできる。
本稿では,5G無線通信が,ユーザのアプリケーションをリアルタイムに正確に推測するためのサイドチャネルとなることを実証的に示す。
キーとなるアイデアは、アプリケーションの振る舞いを明らかにする5Gの物理層とMAC層の相互作用を時間をかけて観察することだ。
MAC層はアプリケーションからデータを受信し、無線リソースブロックを割り当てるようネットワークに要求する。
ネットワークは、優先度、QoS(Quality of Service)要求、送信するデータの量、バッファサイズなどのアプリケーション要件に従って、無線リソースを割り当てる。
敵は無線リソースを受動的に観察してアプリケーションに指紋を付けることができる。
オンラインショッピング、音声/ビデオ会議、ビデオストリーミング、Over-The-Top(OTT)メディアプラットフォームという4つの異なるカテゴリのアプリケーションについて検討することで、この攻撃を実証的に実証する。
最後に、攻撃者が各カテゴリ内で様々なタイプのアプリケーションをリアルタイムで区別できることを実証した。
Modern applications are end-to-end encrypted to prevent data from being read or secretly modified. 5G tech nology provides ubiquitous access to these applications without compromising the application-specific performance and latency goals. In this paper, we empirically demonstrate that 5G radio communication becomes the side channel to precisely infer the user's applications in real-time. The key idea lies in observing the 5G physical and MAC layer interactions over time that reveal the application's behavior. The MAC layer receives the data from the application and requests the network to assign the radio resource blocks. The network assigns the radio resources as per application requirements, such as priority, Quality of Service (QoS) needs, amount of data to be transmitted, and buffer size. The adversary can passively observe the radio resources to fingerprint the applications. We empirically demonstrate this attack by considering four different categories of applications: online shopping, voice/video conferencing, video streaming, and Over-The-Top (OTT) media platforms. Finally, we have also demonstrated that an attacker can differentiate various types of applications in real-time within each category. | 翻訳日:2024-07-24 00:31:58 公開日:2024-07-20 |
# 連続時間動的グラフモデルのための潜在条件拡散に基づくデータ拡張
Latent Conditional Diffusion-based Data Augmentation for Continuous-Time Dynamic Graph Model ( http://arxiv.org/abs/2407.08500v2 ) ライセンス: Link先を確認 | Yuxing Tian, Yiyan Qi, Aiwen Jiang, Qi Huang, Jian Guo, | (参考訳) 連続時間動的グラフ(CTDG)は、実世界の関係の進化を正確にモデル化し、学術や産業における動的グラフ学習への関心を高めている。
しかし、既存のCTDGモデルは、ノイズと限られた歴史的データに起因する課題に直面している。
グラフデータ拡張(GDA)は重要なソリューションとして現れるが、現在のアプローチは静的グラフに重点を置いており、CTDGに固有のダイナミックスに効果的に取り組むのに苦労している。
さらに、これらの手法はパラメータチューニングにかなりの専門知識を必要とすることが多く、拡張効果の理論的保証が欠如している。
このような問題に対処するために,CTDGに適した新しい潜伏拡散型GDA法であるCondaを提案する。
Condaは、変分オートエンコーダ(VAE)と条件拡散モデルを組み合わせたサンドイッチのようなアーキテクチャを特徴としている。
事前学習によってグラフ全体に訓練された従来の拡散モデルとは異なり、コンダはトレーニングのためにターゲットノードの歴史的隣接配列の埋め込みを必要とするため、よりターゲット拡大が容易である。
我々はCTDGモデルにCondaを統合し、パフォーマンスを最適化するための交互トレーニング戦略を採用する。
広範に使用されている6つの実世界のデータセットに対する大規模な実験は、特に履歴データに制限のあるシナリオにおいて、我々のアプローチの一貫性のあるパフォーマンス改善を示す。
Continuous-Time Dynamic Graph (CTDG) precisely models evolving real-world relationships, drawing heightened interest in dynamic graph learning across academia and industry. However, existing CTDG models encounter challenges stemming from noise and limited historical data. Graph Data Augmentation (GDA) emerges as a critical solution, yet current approaches primarily focus on static graphs and struggle to effectively address the dynamics inherent in CTDGs. Moreover, these methods often demand substantial domain expertise for parameter tuning and lack theoretical guarantees for augmentation efficacy. To address these issues, we propose Conda, a novel latent diffusion-based GDA method tailored for CTDGs. Conda features a sandwich-like architecture, incorporating a Variational Auto-Encoder (VAE) and a conditional diffusion model, aimed at generating enhanced historical neighbor embeddings for target nodes. Unlike conventional diffusion models trained on entire graphs via pre-training, Conda requires historical neighbor sequence embeddings of target nodes for training, thus facilitating more targeted augmentation. We integrate Conda into the CTDG model and adopt an alternating training strategy to optimize performance. Extensive experimentation across six widely used real-world datasets showcases the consistent performance improvement of our approach, particularly in scenarios with limited historical data. | 翻訳日:2024-07-24 00:22:12 公開日:2024-07-20 |
# ビデオフレーム補間のための一般化可能なインシシタント・モーション・モデリング
Generalizable Implicit Motion Modeling for Video Frame Interpolation ( http://arxiv.org/abs/2407.08680v2 ) ライセンス: Link先を確認 | Zujin Guo, Wei Li, Chen Change Loy, | (参考訳) モーションモデリングは、フローベースのビデオフレーム補間(VFI)において重要である。
既存のパラダイムでは、双方向フローの線形結合を考慮するか、与えられたタイムスタンプの2方向フローを直接予測するが、適切な動きの先行を探索することはできず、現実の動画において時空間力学を効果的にモデル化する能力は欠如している。
この制限に対処するために,本研究では,VFIのための動きモデリングの新しい,効果的なアプローチであるGeneralizable Implicit Motion Modeling (GIMM)を紹介する。
具体的には,GIMMを効果的な動作モデリングパラダイムとして有効にするために,事前学習した流速推定器から抽出した双方向流の時空間運動潜時をモデル化する動き符号化パイプラインを設計し,入力固有の動き先行を効果的に表現する。
そして、適応座標ベースニューラルネットワークを用いて、2つの隣接する入力フレーム内の任意の時間ステップの光フローを暗黙的に予測し、時空間座標と動き潜時を入力とする。
我々のGIMMは、既存のフローベースのVFIワークとスムーズに統合できます。
GIMMは,現在のVFIベンチマークよりも性能がよいことを示す。
Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be smoothly integrated with existing flow-based VFI works without further modifications. We show that GIMM performs better than the current state of the art on the VFI benchmarks. | 翻訳日:2024-07-24 00:22:12 公開日:2024-07-20 |
# SE(3)-bi-equivariant Transformer for Point Cloud Assembly
SE(3)-bi-equivariant Transformers for Point Cloud Assembly ( http://arxiv.org/abs/2407.09167v2 ) ライセンス: Link先を確認 | Ziming Wang, Rebecka Jörnsten, | (参考訳) 一対の点雲が与えられた場合、アセンブリの目標は、一方の点雲ともう一方の点雲を整合させる厳密な変換を回復することである。
このタスクは、点雲がオーバーラップされない可能性があり、任意の初期位置を持つため、難しい。
これらの問題に対処するため,SE(3)-bi-equivariant transformer (BITR, SE(3)-bi-equivariant transformer) という手法を提案する。
その等価性のため、BITRはオーバーラップしないPCを扱えるだけでなく、初期位置に対する堅牢性も保証できる。
具体的には、BITRはまず、新しい$SE(3) \times SE(3)$-transformerを使って入力の特徴を抽出し、学習した特徴をSE(3)を出力として投影する。
さらに, BITR にスワップとスケールの等式を組み込むことにより, インプットのスケーリングおよびスワップにおいて, 安定した性能を保証できることが理論的に示されている。
本研究は,BITRの実践的課題における有効性について実験的に示す。
Given a pair of point clouds, the goal of assembly is to recover a rigid transformation that aligns one point cloud to the other. This task is challenging because the point clouds may be non-overlapped, and they may have arbitrary initial positions. To address these difficulties, we propose a method, called SE(3)-bi-equivariant transformer (BITR), based on the SE(3)-bi-equivariance prior of the task: it guarantees that when the inputs are rigidly perturbed, the output will transform accordingly. Due to its equivariance property, BITR can not only handle non-overlapped PCs, but also guarantee robustness against initial positions. Specifically, BITR first extracts features of the inputs using a novel $SE(3) \times SE(3)$-transformer, and then projects the learned feature to group SE(3) as the output. Moreover, we theoretically show that swap and scale equivariances can be incorporated into BITR, thus it further guarantees stable performance under scaling and swapping the inputs. We experimentally show the effectiveness of BITR in practical tasks. | 翻訳日:2024-07-24 00:22:12 公開日:2024-07-20 |
# DistillSeq: 知識蒸留を用いた大規模言語モデルの安全アライメントテストフレームワーク
DistillSeq: A Framework for Safety Alignment Testing in Large Language Models using Knowledge Distillation ( http://arxiv.org/abs/2407.10106v3 ) ライセンス: Link先を確認 | Mingke Yang, Yuqi Chen, Yi Liu, Ling Shi, | (参考訳) 大きな言語モデル(LLM)は、自然言語の理解、翻訳、さらにはコード生成を含む様々な領域において、その顕著な能力を誇示している。
LLMが有害なコンテンツを生成できる可能性は大きな懸念事項である。
このリスクは、安全で責任ある使用を確保するために、厳密なテストとLLMの包括的な評価を必要とする。
しかし、LLMの広範なテストには相当な計算資源が必要であり、コストがかかる。
したがって、テストフェーズにおけるコスト削減戦略の探求は、リソース可用性の制約と徹底的な評価の必要性のバランスをとるために不可欠である。
そこで本手法は,LLMから小さなモデルにモデレーション知識を移すことから始める。
その後、私たちは、構文木アプローチに基づく悪質なクエリを生成するための2つの戦略をデプロイし、もう1つはLLMベースのメソッドを活用する。
最後に, 本手法では, 有害反応を誘発しやすい検査事例を特定するために, シーケンシャルなフィルタテストプロセスを導入している。
本研究は, GPT-3.5, GPT-4.0, Vicuna-13B, Llama-13Bの4種類のLDMに対するDistillSeqの有効性を検討した。
DistillSeqがなければ、これらのLSMの攻撃成功率は、GPT-3.5が31.5%、GPT-4.0が21.4%、Vicuna-13Bが28.3%、Llama-13Bが30.9%であった。
しかし、DistillSeqの適用により、これらの成功率は58.5%、50.7%、52.5%、54.4%に顕著に増加した。
これは、DistillSeqを使用せずにシナリオと比較した場合、攻撃成功率の平均エスカレーションを93.0%削減した。
このような知見は、LLMを効果的にテストするために必要な時間とリソース投資を減らすという点で、DistillSeqが提供する重要な強化を浮き彫りにしている。
Large Language Models (LLMs) have showcased their remarkable capabilities in diverse domains, encompassing natural language understanding, translation, and even code generation. The potential for LLMs to generate harmful content is a significant concern. This risk necessitates rigorous testing and comprehensive evaluation of LLMs to ensure safe and responsible use. However, extensive testing of LLMs requires substantial computational resources, making it an expensive endeavor. Therefore, exploring cost-saving strategies during the testing phase is crucial to balance the need for thorough evaluation with the constraints of resource availability. To address this, our approach begins by transferring the moderation knowledge from an LLM to a small model. Subsequently, we deploy two distinct strategies for generating malicious queries: one based on a syntax tree approach, and the other leveraging an LLM-based method. Finally, our approach incorporates a sequential filter-test process designed to identify test cases that are prone to eliciting toxic responses. Our research evaluated the efficacy of DistillSeq across four LLMs: GPT-3.5, GPT-4.0, Vicuna-13B, and Llama-13B. In the absence of DistillSeq, the observed attack success rates on these LLMs stood at 31.5% for GPT-3.5, 21.4% for GPT-4.0, 28.3% for Vicuna-13B, and 30.9% for Llama-13B. However, upon the application of DistillSeq, these success rates notably increased to 58.5%, 50.7%, 52.5%, and 54.4%, respectively. This translated to an average escalation in attack success rate by a factor of 93.0% when compared to scenarios without the use of DistillSeq. Such findings highlight the significant enhancement DistillSeq offers in terms of reducing the time and resource investment required for effectively testing LLMs. | 翻訳日:2024-07-24 00:22:12 公開日:2024-07-20 |
# BiasAlert: LLMにおけるソーシャルバイアス検出のためのプラグイン・アンド・プレイツール
BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs ( http://arxiv.org/abs/2407.10241v2 ) ライセンス: Link先を確認 | Zhiting Fan, Ruizhe Chen, Ruiling Xu, Zuozhu Liu, | (参考訳) 大規模言語モデル(LLM)のバイアスを評価することは、その急速な開発においてますます重要になっている。
しかし、既存の評価手法は固定形式の出力に依存しており、LLMの柔軟なオープンテキスト生成シナリオ(例:文補完と質問応答)に適応できない。
そこで本稿では,LLMのオープンテキスト世代における社会的バイアスを検出するためのプラグイン・アンド・プレイツールであるBiasAlertを紹介する。
BiasAlertは外部の人間の知識と固有の推論能力を統合し、バイアスを確実に検出する。
大規模な実験により、BiasAlertはGPT4-as-A-Judgeのような最先端の手法でバイアスを検出するのに優れていた。
さらに、アプリケーション研究を通じて、様々なシナリオにおける信頼性LLMバイアス評価とバイアス緩和におけるBiasAlertの有用性を実証する。
モデルとコードは公開されます。
Evaluating the bias in Large Language Models (LLMs) becomes increasingly crucial with their rapid development. However, existing evaluation methods rely on fixed-form outputs and cannot adapt to the flexible open-text generation scenarios of LLMs (e.g., sentence completion and question answering). To address this, we introduce BiasAlert, a plug-and-play tool designed to detect social bias in open-text generations of LLMs. BiasAlert integrates external human knowledge with inherent reasoning capabilities to detect bias reliably. Extensive experiments demonstrate that BiasAlert significantly outperforms existing state-of-the-art methods like GPT4-as-A-Judge in detecting bias. Furthermore, through application studies, we demonstrate the utility of BiasAlert in reliable LLM bias evaluation and bias mitigation across various scenarios. Model and code will be publicly released. | 翻訳日:2024-07-24 00:12:27 公開日:2024-07-20 |
# CourseAssist:コンピュータサイエンス教育のためのAIチューター
CourseAssist: Pedagogically Appropriate AI Tutor for Computer Science Education ( http://arxiv.org/abs/2407.10246v2 ) ライセンス: Link先を確認 | Ty Feng, Sa Liu, Dipak Ghosal, | (参考訳) コンピュータサイエンスコースへの入学の増加とクラスサイズの増大は、学生の学習を適切に支援するために、スケーラブルで自動化されたチューリングソリューションを必要とする。
GPT-4のようなLarge Language Models(LLMs)は、質問回答を通じて学生を支援する可能性を示しているが、教育者は、学生の過信、生成されたコードの誤理解、そして不正確な回答のリスクについて懸念を表明している。
これらのツールを全面的に禁止するのではなく、潜在的なリスクを軽減しつつ、AIの能力を活用する建設的なアプローチを提唱します。
このポスターでは、コンピュータサイエンス教育用に作られた新しいLLMベースのチューターシステムであるCourseAssistを紹介している。
一般的なLLMシステムとは異なり、CourseAssistは検索強化生成、ユーザ意図分類、質問分解を使用して、AI応答を特定のコース材料や学習目的と整合させ、教育環境におけるLLMの教育的適切性を確保する。
GPT-4のベースラインに対するCourseAssistの評価を,50組の質問応答対のデータセットを用いて行い,有用性,正確性,教育的適切性の基準に焦点をあてた。
評価の結果,CourseAssistはベースラインを著しく上回り,効果的な学習アシスタントとして機能する可能性が示された。
我々はまた、500人以上の学生にリーチする大公立R1研究大学のコンピュータサイエンス講座にCourseAssistを6つのコンピュータサイエンス講座に展開した。
20人の学生を対象に行ったインタビューでは、コース固有の授業のアクセシビリティを高め、プログラミングの課題に対するフィードバックループを短くすることで、CourseAssistがコンピュータサイエンスの授業を改善することが示されている。
今後の研究には、多くの大学での広範なパイロットテストや、コンピュータサイエンスの学習体験を改善するための学生、教育者、AIとのより良いコラボレーティブな関係の探求が含まれる。
The growing enrollments in computer science courses and increase in class sizes necessitate scalable, automated tutoring solutions to adequately support student learning. While Large Language Models (LLMs) like GPT-4 have demonstrated potential in assisting students through question-answering, educators express concerns over student overreliance, miscomprehension of generated code, and the risk of inaccurate answers. Rather than banning these tools outright, we advocate for a constructive approach that harnesses the capabilities of AI while mitigating potential risks. This poster introduces CourseAssist, a novel LLM-based tutoring system tailored for computer science education. Unlike generic LLM systems, CourseAssist uses retrieval-augmented generation, user intent classification, and question decomposition to align AI responses with specific course materials and learning objectives, thereby ensuring pedagogical appropriateness of LLMs in educational settings. We evaluated CourseAssist against a baseline of GPT-4 using a dataset of 50 question-answer pairs from a programming languages course, focusing on the criteria of usefulness, accuracy, and pedagogical appropriateness. Evaluation results show that CourseAssist significantly outperforms the baseline, demonstrating its potential to serve as an effective learning assistant. We have also deployed CourseAssist in 6 computer science courses at a large public R1 research university reaching over 500 students. Interviews with 20 student users show that CourseAssist improves computer science instruction by increasing the accessibility of course-specific tutoring help and shortening the feedback loop on their programming assignments. Future work will include extensive pilot testing at more universities and exploring better collaborative relationships between students, educators, and AI that improve computer science learning experiences. | 翻訳日:2024-07-24 00:12:27 公開日:2024-07-20 |
# ルールに従う:大規模言語モデルを用いたビデオ異常検出のための推論
Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models ( http://arxiv.org/abs/2407.10299v2 ) ライセンス: Link先を確認 | Yuchen Yang, Kwonjoon Lee, Behzad Dariush, Yinzhi Cao, Shao-Yuan Lo, | (参考訳) ビデオ異常検出(VAD)は、セキュリティ監視や自動運転といったアプリケーションには不可欠である。
しかしながら、既存のVADメソッドは検出の背後にある根拠をほとんど示さず、現実のデプロイメントに対する公衆の信頼を妨げている。
本稿では,VADに推論の枠組みでアプローチする。
LLM(Large Language Models)は革命的推論能力を示しているが、それらの直接的な使用はVADに劣っている。
具体的には、LLMsで事前訓練された暗黙の知識は、一般的な文脈に焦点をあてており、それゆえ、特定の現実世界のVADシナリオに当てはまらないため、柔軟性と不正確性をもたらす。
そこで本研究では,ALD と LLM を組み合わせた新しいルールベース推論フレームワーク AnomalyRuler を提案する。
AnomalyRulerは、誘導と推論の2つの主要なステージから構成される。
誘導段階では、LSMは数発の正常参照サンプルで供給され、その後これらの正常なパターンを要約して、異常を検出するための一連の規則を誘導する。
推論段階は、テストビデオ中の異常フレームを見つけるための誘導規則に従う。
さらに,ルールアグリゲーション,知覚のスムース化,ロバストな推論戦略を設計し,AnomalyRulerのロバスト性をさらに強化する。
AnomalyRulerは、ワンクラスのVADタスクの最初の推論アプローチであり、フルショットのトレーニングを必要とせずに、ほとんどノーマルショットのプロンプトを必要とせず、様々なVADシナリオへの迅速な適応を可能にする。
4つのVADベンチマークの総合的な実験は、AnomalyRulerの最先端検出性能と推論能力を示している。
AnomalyRulerはオープンソースで、https://github.com/Yuchen413/AnomalyRulerで利用可能である。
Video Anomaly Detection (VAD) is crucial for applications such as security surveillance and autonomous driving. However, existing VAD methods provide little rationale behind detection, hindering public trust in real-world deployments. In this paper, we approach VAD with a reasoning framework. Although Large Language Models (LLMs) have shown revolutionary reasoning ability, we find that their direct use falls short of VAD. Specifically, the implicit knowledge pre-trained in LLMs focuses on general context and thus may not apply to every specific real-world VAD scenario, leading to inflexibility and inaccuracy. To address this, we propose AnomalyRuler, a novel rule-based reasoning framework for VAD with LLMs. AnomalyRuler comprises two main stages: induction and deduction. In the induction stage, the LLM is fed with few-shot normal reference samples and then summarizes these normal patterns to induce a set of rules for detecting anomalies. The deduction stage follows the induced rules to spot anomalous frames in test videos. Additionally, we design rule aggregation, perception smoothing, and robust reasoning strategies to further enhance AnomalyRuler's robustness. AnomalyRuler is the first reasoning approach for the one-class VAD task, which requires only few-normal-shot prompting without the need for full-shot training, thereby enabling fast adaption to various VAD scenarios. Comprehensive experiments across four VAD benchmarks demonstrate AnomalyRuler's state-of-the-art detection performance and reasoning ability. AnomalyRuler is open-source and available at: https://github.com/Yuchen413/AnomalyRuler | 翻訳日:2024-07-24 00:12:27 公開日:2024-07-20 |
# リーマン幾何学のレンズによる共分散プールにおける行列関数正規化の理解
Understanding Matrix Function Normalizations in Covariance Pooling through the Lens of Riemannian Geometry ( http://arxiv.org/abs/2407.10484v2 ) ライセンス: Link先を確認 | Ziheng Chen, Yue Song, Xiao-Jun Wu, Gaowen Liu, Nicu Sebe, | (参考訳) グローバル共分散プーリング(GCP)は、高レベルの表現の2階統計を利用して、ディープニューラルネットワーク(DNN)の性能を向上させることが実証されている。
GCPは通常、行列対数やパワーなどの行列関数正規化を適用して共分散行列の分類を行い、次いでユークリッド分類器を用いる。
しかし、共分散行列は本質的にリーマン多様体(Symmetric Positive Definite (SPD) manifold)と呼ばれる)の中に存在する。
現在の文献は、なぜユークリッド分類器が行列パワーの正規化後にリーマン的特徴に直接適用できるのかを十分に説明していない。
このギャップを緩和するために、この論文はリーマン幾何学の観点から行列対数とパワーの包括的かつ統一的な理解を提供する。
GCPにおける行列関数の基本的なメカニズムは、接分類器(接空間上のユークリッド分類器)に基づくものと、リーマン分類器に基づくものである。
細粒度および大規模視覚分類データセットの広範な実験による理論的解析と実証的検証により、行列関数の作用機構は、それらが暗黙的に尊重するリーマン分類器に帰属するべきであると結論づける。
Global Covariance Pooling (GCP) has been demonstrated to improve the performance of Deep Neural Networks (DNNs) by exploiting second-order statistics of high-level representations. GCP typically performs classification of the covariance matrices by applying matrix function normalization, such as matrix logarithm or power, followed by a Euclidean classifier. However, covariance matrices inherently lie in a Riemannian manifold, known as the Symmetric Positive Definite (SPD) manifold. The current literature does not provide a satisfactory explanation of why Euclidean classifiers can be applied directly to Riemannian features after the normalization of the matrix power. To mitigate this gap, this paper provides a comprehensive and unified understanding of the matrix logarithm and power from a Riemannian geometry perspective. The underlying mechanism of matrix functions in GCP is interpreted from two perspectives: one based on tangent classifiers (Euclidean classifiers on the tangent space) and the other based on Riemannian classifiers. Via theoretical analysis and empirical validation through extensive experiments on fine-grained and large-scale visual classification datasets, we conclude that the working mechanism of the matrix functions should be attributed to the Riemannian classifiers they implicitly respect. | 翻訳日:2024-07-24 00:12:27 公開日:2024-07-20 |
# RepVF:マルチタスク3次元知覚のための統一ベクトル場表現
RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception ( http://arxiv.org/abs/2407.10876v2 ) ライセンス: Link先を確認 | Chunliang Li, Wencheng Han, Junbo Yin, Sanyuan Zhao, Jianbing Shen, | (参考訳) 同じ時空間における複数の自律走行3次元認識タスクの同時処理は、特に従来のマルチタスク学習アプローチを使用する場合の計算不効率とタスク間の特徴競合により、大きな課題を生んでいる。
本稿では,3次元物体検出や3次元車線検出などの様々な知覚タスクの表現を調和させる,新しい統一表現RepVFを提案することにより,これらの課題に対処する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、計算冗長性と特徴競合を著しく低減するシングルヘッドマルチタスク学習モデルを実現する。
RepVF上に構築されたRFTRは,タスク間の関係を暗黙的にモデル化するクエリの階層構造を利用して,異なるタスク間の関係を生かしたネットワークである。
このアプローチはタスク固有のヘッダやパラメータの必要性を排除し、従来のマルチタスク学習パラダイムに固有のコンフリクトを根本的に削減する。
当社のアプローチは,OpenLaneデータセットのラベルとWaymo Openデータセットを組み合わせることで検証します。
本研究は、自律運転におけるマルチタスク認識の効率性と有効性において、複数の3次元知覚タスクを同期かつ並列に扱うための新たな視点を提供するものである。
コードは、https://github.com/jbji/RepVF.comで入手できる。
Concurrent processing of multiple autonomous driving 3D perception tasks within the same spatiotemporal scene poses a significant challenge, in particular due to the computational inefficiencies and feature competition between tasks when using traditional multi-task learning approaches. This paper addresses these issues by proposing a novel unified representation, RepVF, which harmonizes the representation of various perception tasks such as 3D object detection and 3D lane detection within a single framework. RepVF characterizes the structure of different targets in the scene through a vector field, enabling a single-head, multi-task learning model that significantly reduces computational redundancy and feature competition. Building upon RepVF, we introduce RFTR, a network designed to exploit the inherent connections between different tasks by utilizing a hierarchical structure of queries that implicitly model the relationships both between and within tasks. This approach eliminates the need for task-specific heads and parameters, fundamentally reducing the conflicts inherent in traditional multi-task learning paradigms. We validate our approach by combining labels from the OpenLane dataset with the Waymo Open dataset. Our work presents a significant advancement in the efficiency and effectiveness of multi-task perception in autonomous driving, offering a new perspective on handling multiple 3D perception tasks synchronously and in parallel. The code will be available at: https://github.com/jbji/RepVF | 翻訳日:2024-07-24 00:12:27 公開日:2024-07-20 |
# Q-Sparse: すべての大規模言語モデルは、完全に疎活性化できる
Q-Sparse: All Large Language Models can be Fully Sparsely-Activated ( http://arxiv.org/abs/2407.10969v2 ) ライセンス: Link先を確認 | Hongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei, | (参考訳) Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
これは、アクティベーションにトップKスペーシングを適用し、トレーニングにストレートスルー推定器を適用することで達成される。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
本研究の主な成果は,(1)Q-Sparse は,(1) ベースライン LLM に比較して,より効率的な推論時間で結果が得られること,(2) 疎活性化 LLM に対する推論-最適スケーリング則を示すこと,(3) Q-Sparse は,Scratch からのトレーニング,オフ・ザ・シェルフ LLM の継続トレーニング,微調整,(4) Q-Sparse は完全精度と1ビット LLM (例: BitNet b1.58) の両方で動作すること,などである。
特に、BitNet b1.58とQ-Sparse(MoEを装備できる)のシナジーは、将来のLCMのコストやエネルギー消費を含む効率を変革するための基盤と明確な経路を提供する。
We introduce, Q-Sparse, a simple yet effective approach to training sparsely-activated large language models (LLMs). Q-Sparse enables full sparsity of activations in LLMs which can bring significant efficiency gains in inference. This is achieved by applying top-K sparsification to the activations and the straight-through-estimator to the training. We also introduce Block Q-Sparse for batch training and inference. The key results from this work are, (1) Q-Sparse can achieve results comparable to those of baseline LLMs while being much more efficient at inference time; (2) We present an inference-optimal scaling law for sparsely-activated LLMs; (3) Q-Sparse is effective in different settings, including training-from-scratch, continue-training of off-the-shelf LLMs, and finetuning; (4) Q-Sparse works for both full-precision and 1-bit LLMs (e.g., BitNet b1.58). Particularly, the synergy of BitNet b1.58 and Q-Sparse (can be equipped with MoE) provides the cornerstone and a clear path to revolutionize the efficiency, including cost and energy consumption, of future LLMs. | 翻訳日:2024-07-24 00:12:27 公開日:2024-07-20 |
# VD3D:3Dカメラ制御のための大容量ビデオ拡散変換器の開発
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control ( http://arxiv.org/abs/2407.12781v2 ) ライセンス: Link先を確認 | Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian, Michael Vasilkovsky, Hsin-Ying Lee, Chaoyang Wang, Jiaxu Zou, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov, | (参考訳) 現代のテキスト・ビデオ合成モデルは、テキスト記述から複雑なビデオのコヒーレントでフォトリアリスティックな生成を示す。
しかし、既存のほとんどのモデルは、カメラの動きをきめ細かな制御に欠けており、コンテンツ作成、視覚効果、および3Dビジョンに関連する下流アプリケーションにとって重要である。
近年,映像を制御可能なカメラで生成する手法が,空間的・時間的生成を明示的に切り離す,事前学習したU-Net拡散モデルを活用することを実証している。
しかし、既存のアプローチでは、空間情報と時間情報を共同で処理する新しいトランスフォーマーベースのビデオ拡散モデルに対して、カメラ制御が可能であることはない。
本稿では,Plucker座標に基づく時空間カメラの埋め込みを組み込んだ制御ネット型コンディショニング機構を用いて,3次元カメラ制御のためのビデオトランスフォーマーを提案する。
このアプローチは、RealEstate10Kデータセットを微調整した後、制御可能なビデオ生成のための最先端性能を示す。
我々の知る限りでは、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初の試みである。
Modern text-to-video synthesis models demonstrate coherent, photorealistic generation of complex videos from a text description. However, most existing models lack fine-grained control over camera movement, which is critical for downstream applications related to content creation, visual effects, and 3D vision. Recently, new methods demonstrate the ability to generate videos with controllable camera poses these techniques leverage pre-trained U-Net-based diffusion models that explicitly disentangle spatial and temporal generation. Still, no existing approach enables camera control for new, transformer-based video diffusion models that process spatial and temporal information jointly. Here, we propose to tame video transformers for 3D camera control using a ControlNet-like conditioning mechanism that incorporates spatiotemporal camera embeddings based on Plucker coordinates. The approach demonstrates state-of-the-art performance for controllable video generation after fine-tuning on the RealEstate10K dataset. To the best of our knowledge, our work is the first to enable camera control for transformer-based video diffusion models. | 翻訳日:2024-07-23 22:03:21 公開日:2024-07-20 |
# 判例判断要約のための大規模言語モデルと生成モデルの適用性
Applicability of Large Language Models and Generative Models for Legal Case Judgement Summarization ( http://arxiv.org/abs/2407.12848v2 ) ライセンス: Link先を確認 | Aniket Deroy, Kripabandhu Ghosh, Saptarshi Ghosh, | (参考訳) 判例判断の自動要約は、長く複雑であることが知られているが、伝統的に抽出的な要約モデルによって試みられている。
近年,抽象的な要約モデルやLarge Language Model (LLM) などの生成モデルが広く普及している。
本稿では,判例判断要約におけるそのようなモデルの適用性について検討する。
我々は,英国最高裁判所とインド最高裁判所の2つの判例判決に対して,ドメイン固有の抽象的要約モデルと一般ドメインLLMの抽出的要約モデルを適用し,生成した要約の質を評価した。
また、米国政府(US)の報告によると、異なるタイプの法律文書の第3のデータセットの実験も行います。
その結果,抽象的な要約モデルやLLMは,要約品質を評価するための従来の指標に比べて,抽出手法よりも優れていた。
しかし、詳細な調査は、生成モデルの出力に矛盾と幻覚が存在することを示し、要約における幻覚と不一致を減らす方法を模索している。
本研究は, 判例判断要約のための抽象モデルとLLMの信頼性を高めるために, さらなる改善が必要であることを示唆している。
現在,提案手法は,生成した要約の不整合を識別する手動チェックを行うのに適している。
Automatic summarization of legal case judgements, which are known to be long and complex, has traditionally been tried via extractive summarization models. In recent years, generative models including abstractive summarization models and Large language models (LLMs) have gained huge popularity. In this paper, we explore the applicability of such models for legal case judgement summarization. We applied various domain specific abstractive summarization models and general domain LLMs as well as extractive summarization models over two sets of legal case judgements from the United Kingdom (UK) Supreme Court and the Indian (IN) Supreme Court and evaluated the quality of the generated summaries. We also perform experiments on a third dataset of legal documents of a different type, Government reports from the United States (US). Results show that abstractive summarization models and LLMs generally perform better than the extractive methods as per traditional metrics for evaluating summary quality. However, detailed investigation shows the presence of inconsistencies and hallucinations in the outputs of the generative models, and we explore ways to reduce the hallucinations and inconsistencies in the summaries. Overall, the investigation suggests that further improvements are needed to enhance the reliability of abstractive models and LLMs for legal case judgement summarization. At present, a human-in-the-loop technique is more suitable for performing manual checks to identify inconsistencies in the generated summaries. | 翻訳日:2024-07-23 22:03:21 公開日:2024-07-20 |
# Civitaiにおける乱用生成AIモデルの利用を探る
Exploring the Use of Abusive Generative AI Models on Civitai ( http://arxiv.org/abs/2407.12876v2 ) ライセンス: Link先を確認 | Yiluo Wei, Yiming Zhu, Pan Hui, Gareth Tyson, | (参考訳) 生成AIの台頭はデジタル画像の風景を変え、オンラインクリエイティブコミュニティに大きな影響を与えている。
これにより、CivitaiのようなAIGC(AI-Generated Content)ソーシャルプラットフォームが誕生した。
これらのユニークなソーシャルプラットフォームにより、ユーザーは独自の生成AIモデルを構築し、共有することができ、それによってより多様な芸術的表現の可能性を高めることができる。
ソーシャルネットワークの中でデザインされた彼らは、アーチストたちに自分たちの創造(モデルから生成される)を披露する手段を提供し、議論を行い、フィードバックを得て、コミュニティの感覚を育む。
しかし、このオープン性は、例えば、偽りのディープフェイクを広めたり、著作権を侵害したりするモデルの使用など、そのようなプラットフォームの悪用に対する懸念も引き起こす。
これを探るため,我々はAIGCソーシャルプラットフォームに関する総合的な実証的研究を行い,乱用コンテンツの生成に利用することに焦点を当てた。
例として、利用可能なAIGCソーシャルプラットフォームとして最大であるCivitaiをカバーする包括的データセットを構築した。
この87Kモデルと2M画像のデータセットに基づいて、コンテンツの特徴を調査し、これらのプラットフォームをよりよく管理するためのモデレーション戦略について議論する。
The rise of generative AI is transforming the landscape of digital imagery, and exerting a significant influence on online creative communities. This has led to the emergence of AI-Generated Content (AIGC) social platforms, such as Civitai. These distinctive social platforms allow users to build and share their own generative AI models, thereby enhancing the potential for more diverse artistic expression. Designed in the vein of social networks, they also provide artists with the means to showcase their creations (generated from the models), engage in discussions, and obtain feedback, thus nurturing a sense of community. Yet, this openness also raises concerns about the abuse of such platforms, e.g., using models to disseminate deceptive deepfakes or infringe upon copyrights. To explore this, we conduct the first comprehensive empirical study of an AIGC social platform, focusing on its use for generating abusive content. As an exemplar, we construct a comprehensive dataset covering Civitai, the largest available AIGC social platform. Based on this dataset of 87K models and 2M images, we explore the characteristics of content and discuss strategies for moderation to better govern these platforms. | 翻訳日:2024-07-23 22:03:21 公開日:2024-07-20 |
# 音響プリミティブによる人体音場のモデル化と駆動
Modeling and Driving Human Body Soundfields through Acoustic Primitives ( http://arxiv.org/abs/2407.13083v2 ) ライセンス: Link先を確認 | Chao Huang, Dejan Markovic, Chenliang Xu, Alexander Richard, | (参考訳) フォトリアリスティックな3D人体モデルのレンダリングとアニメーションは、過去数年間で完成し、印象的な品質に達したが、そのようなフルボディモデルに関連する空間オーディオのモデリングは、これまでほとんど無視されてきた。
本研究では,音声,フットステップ,手動インタラクションなど,人体が生成する全3次元音場をレンダリングすることのできる,高品質な空間オーディオ生成を実現するフレームワークを提案する。
頭部に装着したマイクロホンの3次元ボディポーズとオーディオによる身体の基本的な音響・視覚的表現を考慮し、全音響シーンを3次元空間の任意の地点で効率よく正確にレンダリングできることを実証する。
音の近距離場およびリアルタイムレンダリングを可能にするため,グラフィカル・ニューラル・レンダリングからボリューム・プリミティブのアイデアを借りて音響領域に転送する。
我々の音響プリミティブは、従来の手法に比べて、音場表現が桁違い小さくなり、近接場レンダリングの欠陥を克服する。
While rendering and animation of photorealistic 3D human body models have matured and reached an impressive quality over the past years, modeling the spatial audio associated with such full body models has been largely ignored so far. In this work, we present a framework that allows for high-quality spatial audio generation, capable of rendering the full 3D soundfield generated by a human body, including speech, footsteps, hand-body interactions, and others. Given a basic audio-visual representation of the body in form of 3D body pose and audio from a head-mounted microphone, we demonstrate that we can render the full acoustic scene at any point in 3D space efficiently and accurately. To enable near-field and realtime rendering of sound, we borrow the idea of volumetric primitives from graphical neural rendering and transfer them into the acoustic domain. Our acoustic primitives result in an order of magnitude smaller soundfield representations and overcome deficiencies in near-field rendering compared to previous approaches. | 翻訳日:2024-07-23 22:03:21 公開日:2024-07-20 |
# $\infty$-Brush:無限次元拡散モデルによる制御可能な大画像合成
$\infty$-Brush: Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions ( http://arxiv.org/abs/2407.14709v1 ) ライセンス: Link先を確認 | Minh-Quan Le, Alexandros Graikos, Srikar Yellapragada, Rajarsi Gupta, Joel Saltz, Dimitris Samaras, | (参考訳) 複雑なドメイン固有情報からの高解像度画像の合成は、特にデジタル病理学やリモートセンシングのような大規模領域での応用において、生成モデリングにおいて重要な課題である。
既存の手法では、画素空間や潜時空間における条件拡散モデルは、忠実さを損なわずに訓練された解像度を超えることはできず、より大きな画像サイズに対して計算要求が大幅に増加する。
パッチベースの手法は、計算効率を提供するが、局所情報への過度な依存のため、長距離空間関係を捉えることができない。
本稿では,無限次元の新たな条件拡散モデルである$\infty$-Brushを導入する。
本稿では,関数空間の条件付けを可能にするクロスアテンション型ニューラル演算子を提案する。
我々のモデルは従来の有限次元拡散モデルとパッチベースの手法の制約を克服し、細部を維持しながらグローバルな画像構造を保存するためのスケーラビリティと優れた能力を提供する。
我々の知る限り、$\infty$-Brushは関数空間における最初の条件拡散モデルであり、最大4096\times4096$ピクセルの任意の解像度で画像を制御できる。
コードはhttps://github.com/cvlab-stonybrook/infinity-brush.comで公開されている。
Synthesizing high-resolution images from intricate, domain-specific information remains a significant challenge in generative modeling, particularly for applications in large-image domains such as digital histopathology and remote sensing. Existing methods face critical limitations: conditional diffusion models in pixel or latent space cannot exceed the resolution on which they were trained without losing fidelity, and computational demands increase significantly for larger image sizes. Patch-based methods offer computational efficiency but fail to capture long-range spatial relationships due to their overreliance on local information. In this paper, we introduce a novel conditional diffusion model in infinite dimensions, $\infty$-Brush for controllable large image synthesis. We propose a cross-attention neural operator to enable conditioning in function space. Our model overcomes the constraints of traditional finite-dimensional diffusion models and patch-based methods, offering scalability and superior capability in preserving global image structures while maintaining fine details. To our best knowledge, $\infty$-Brush is the first conditional diffusion model in function space, that can controllably synthesize images at arbitrary resolutions of up to $4096\times4096$ pixels. The code is available at https://github.com/cvlab-stonybrook/infinity-brush. | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# フェデレーション学習における差分プライバシーメカニズムの統一化:正確性と収束性を高める
Universally Harmonizing Differential Privacy Mechanisms for Federated Learning: Boosting Accuracy and Convergence ( http://arxiv.org/abs/2407.14710v1 ) ライセンス: Link先を確認 | Shuya Feng, Meisam Mohammady, Hanbin Hong, Shenao Yan, Ashish Kundu, Binghui Wang, Yuan Hong, | (参考訳) ディファレンシャル・プライベート・フェデレーション・ラーニング(DP-FL)は、クライアントの証明可能なプライバシを確保しつつ、協調的なモデルトレーニングのための有望なテクニックである。
しかし、プライバシーと正確性の間のトレードオフを最適化することは、依然として重要な課題だ。
提案するDP-FLフレームワークは,任意のランダム化機構(例えば最適なもの)をガウスモーメント会計士(DP-SGD)と共通に調和させ,精度と収束性を大幅に向上させるものである。
具体的には、UDP-FLはガウス雑音への依存を軽減し、モデル性能を向上させる。
この変換における主要なメディエータ変数は、プライバシー予算を調和させるために慎重に使用されるR\'enyi差分プライバシーの概念である。
また,モード接続解析に基づいてDP-FL(UDP-FLを含む)の収束を理論的に解析する手法を提案する。
さらに,最新のSOTA(State-of-the-art)手法をベンチマークした広範な実験を通じてUDP-FLを評価し,プライバシ保証とモデル性能の両面において優れた性能を示す。
特にUDP-FLは、異なる推論攻撃に対してかなりの弾力性を示しており、連合学習環境における機密データの保護に大きな進歩を示している。
Differentially private federated learning (DP-FL) is a promising technique for collaborative model training while ensuring provable privacy for clients. However, optimizing the tradeoff between privacy and accuracy remains a critical challenge. To our best knowledge, we propose the first DP-FL framework (namely UDP-FL), which universally harmonizes any randomization mechanism (e.g., an optimal one) with the Gaussian Moments Accountant (viz. DP-SGD) to significantly boost accuracy and convergence. Specifically, UDP-FL demonstrates enhanced model performance by mitigating the reliance on Gaussian noise. The key mediator variable in this transformation is the R\'enyi Differential Privacy notion, which is carefully used to harmonize privacy budgets. We also propose an innovative method to theoretically analyze the convergence for DP-FL (including our UDP-FL ) based on mode connectivity analysis. Moreover, we evaluate our UDP-FL through extensive experiments benchmarked against state-of-the-art (SOTA) methods, demonstrating superior performance on both privacy guarantees and model performance. Notably, UDP-FL exhibits substantial resilience against different inference attacks, indicating a significant advance in safeguarding sensitive data in federated learning environments. | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# 遺伝的プログラミングによる強化学習における意思決定プロセスの展開
Unveiling the Decision-Making Process in Reinforcement Learning with Genetic Programming ( http://arxiv.org/abs/2407.14714v1 ) ライセンス: Link先を確認 | Manuel Eberhardinger, Florian Rupp, Johannes Maucher, Setareh Maghsudi, | (参考訳) 膨大な進歩にもかかわらず、機械学習とディープラーニングはいまだに理解不能な予測に悩まされている。
しかし、予測不能な行動は関係する個人に深刻なダメージを与えるため、現実の世界で(深い)強化学習を使用する選択肢にはなり得ない。
本研究では,プログラムを模倣することで,すでに訓練済みのエージェントの意思決定プロセスの説明を生成する遺伝的プログラミングフレームワークを提案する。
プログラムは解釈可能であり、エージェントが特定のアクションを選択する理由を説明するために実行できる。
さらに,図書館学習によるドメイン固有言語の拡張が,その手法の性能をどう変えるかを検討するアブレーション研究を行った。
この問題に対するこれまでの最先端技術と比較し、我々は性能に匹敵するが、ハードウェアリソースや計算時間をはるかに少なくすることを示した。
Despite tremendous progress, machine learning and deep learning still suffer from incomprehensible predictions. Incomprehensibility, however, is not an option for the use of (deep) reinforcement learning in the real world, as unpredictable actions can seriously harm the involved individuals. In this work, we propose a genetic programming framework to generate explanations for the decision-making process of already trained agents by imitating them with programs. Programs are interpretable and can be executed to generate explanations of why the agent chooses a particular action. Furthermore, we conduct an ablation study that investigates how extending the domain-specific language by using library learning alters the performance of the method. We compare our results with the previous state of the art for this problem and show that we are comparable in performance but require much less hardware resources and computation time. | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# 保護者によるクロスアテンションの差別的プライバシ
Differential Privacy of Cross-Attention with Provable Guarantee ( http://arxiv.org/abs/2407.14717v1 ) ライセンス: Link先を確認 | Jiuxiang Gu, Yingyu Liang, Zhenmei Shi, Zhao Song, Yufa Zhou, | (参考訳) クロスアテンションは、近年、検索強化生成(RAG)、システムプロンプト、ガイド付き安定拡散など、多くの重要な人工知能アプリケーションにおいて、基本的なモジュールとなっている。
キーとバリューの行列には、企業やユーザに関する機密情報が含まれており、その多くは、システムプロンプトまたはRAGデータから利益を得ている。
本研究では,クロスアテンションのプライバシセキュリティに理論的保証を与えるために,新たな差分プライバシ(DP)データ構造を設計する。
詳細は、$n$をシステムプロンプト/RAGデータの入力トークン長、$d$を機能次元、$0 < \alpha \le 1$を相対誤差パラメータ、$R$をクエリとキー行列の最大値、$R_w$を値行列の最大値、$r,s,\epsilon_s$を多項式カーネルメソッドのパラメータとする。
次に、我々のデータ構造は、$\widetilde{O}(ndr^2)$メモリ消費、$\widetilde{O}(nr^2)$初期化時間複雑性、$\widetilde{O}(\alpha^{-1} r^2)$クエリ時間複雑さを必要とする。
さらに、我々のデータ構造は、ユーザクエリが$(\epsilon, \delta)$-DP with $\widetilde{O}(n^{-1} \epsilon^{-1} \alpha^{-1/2} R^{2s} R_w r^2)$ additive error and $n^{-1} (\alpha + \epsilon_s)$ relative error between the output and the true answerを保証します。
さらに,ユーザが意図的にクロスアテンションシステムに攻撃できる適応型クエリに頑健である。
私たちの知る限りでは、DPをクロスアテンションに提供したのはこれが初めてです。
大規模な生成モデル(LGM)において、より多くのプライバシアルゴリズム設計を刺激できると考えています。
Cross-attention has become a fundamental module nowadays in many important artificial intelligence applications, e.g., retrieval-augmented generation (RAG), system prompt, guided stable diffusion, and many so on. Ensuring cross-attention privacy is crucial and urgently needed because its key and value matrices may contain sensitive information about companies and their users, many of which profit solely from their system prompts or RAG data. In this work, we design a novel differential privacy (DP) data structure to address the privacy security of cross-attention with a theoretical guarantee. In detail, let $n$ be the input token length of system prompt/RAG data, $d$ be the feature dimension, $0 < \alpha \le 1$ be the relative error parameter, $R$ be the maximum value of the query and key matrices, $R_w$ be the maximum value of the value matrix, and $r,s,\epsilon_s$ be parameters of polynomial kernel methods. Then, our data structure requires $\widetilde{O}(ndr^2)$ memory consumption with $\widetilde{O}(nr^2)$ initialization time complexity and $\widetilde{O}(\alpha^{-1} r^2)$ query time complexity for a single token query. In addition, our data structure can guarantee that the user query is $(\epsilon, \delta)$-DP with $\widetilde{O}(n^{-1} \epsilon^{-1} \alpha^{-1/2} R^{2s} R_w r^2)$ additive error and $n^{-1} (\alpha + \epsilon_s)$ relative error between our output and the true answer. Furthermore, our result is robust to adaptive queries in which users can intentionally attack the cross-attention system. To our knowledge, this is the first work to provide DP for cross-attention. We believe it can inspire more privacy algorithm design in large generative models (LGMs). | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# データプライバシを用いた領域一般化のためのユニバーサル医療画像モデル
Universal Medical Imaging Model for Domain Generalization with Data Privacy ( http://arxiv.org/abs/2407.14719v1 ) ライセンス: Link先を確認 | Ahmed Radwan, Islam Osman, Mohamed S. Shehata, | (参考訳) 医用画像における領域一般化の達成は、主にこの領域で公開ラベル付きデータセットが限られているため、大きな課題となる。
この制限は、データのプライバシと、データの正確なラベル付けに必要な医療専門知識に関する懸念から生じる。
本稿では,複数のローカルモデルからグローバルモデルに知識を伝達するフェデレート学習手法を提案する。
主な目的は、幅広い医療画像タスクを実行できるグローバルモデルを訓練することである。
これは、これらのモデルのトレーニング中に使用されるプライベートデータセットの機密性を確保しながら行われる。
提案手法の有効性を検証するため, 異なる医用画像アプリケーションに対応する8つのデータセットを用いて広範囲な実験を行った。
我々の実験では、クライアントのデータ分布は、様々なドメインに由来するため、大きく異なる。
この変動にもかかわらず、異なる身体部位と走査型にまたがる多様な事前学習データセット上で、マスク付き画像モデリングを利用した最先端のベースラインに対する統計的に有意な改善を示す。
この改善は、サーバ上のラベル付きデータセットにアクセスすることなく、クライアントから学んだ情報をキュレートすることで達成される。
Achieving domain generalization in medical imaging poses a significant challenge, primarily due to the limited availability of publicly labeled datasets in this domain. This limitation arises from concerns related to data privacy and the necessity for medical expertise to accurately label the data. In this paper, we propose a federated learning approach to transfer knowledge from multiple local models to a global model, eliminating the need for direct access to the local datasets used to train each model. The primary objective is to train a global model capable of performing a wide variety of medical imaging tasks. This is done while ensuring the confidentiality of the private datasets utilized during the training of these models. To validate the effectiveness of our approach, extensive experiments were conducted on eight datasets, each corresponding to a different medical imaging application. The client's data distribution in our experiments varies significantly as they originate from diverse domains. Despite this variation, we demonstrate a statistically significant improvement over a state-of-the-art baseline utilizing masked image modeling over a diverse pre-training dataset that spans different body parts and scanning types. This improvement is achieved by curating information learned from clients without accessing any labeled dataset on the server. | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# アクティブラーニングのためのダウンストリーム・プレテキスト・ドメイン知識トレースバック
Downstream-Pretext Domain Knowledge Traceback for Active Learning ( http://arxiv.org/abs/2407.14720v1 ) ライセンス: Link先を確認 | Beichen Zhang, Liang Li, Zheng-Jun Zha, Jiebo Luo, Qingming Huang, | (参考訳) アクティブラーニング(AL)は、最も情報性の高いサンプルを反復的に選択することで、高品質なラベル付きデータセットを構築するように設計されている。
このようなサンプリングはデータの表現に大きく依存するが、最近の事前学習は堅牢な特徴学習に人気がある。
しかし,事前学習ではアノテーションを欠いた低レベルのプレテキストタスクを利用するため,ALの事前学習表現を直接使用してもサンプリングスコアを決定するには不十分である。
この問題に対処するために、下流知識のデータインタラクションをトレースするダウンストリーム・プレテキスト・ドメイン・ナレッジ・トレーシング(DOKT)手法と、決定境界付近で多種多様なインストラクティブ・サンプルを選択するための事前学習ガイダンスを提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
多様性インジケータは、事前学習した事前テキストモデルとアノテーションからの下流知識に基づいて2つの特徴空間を構築し、プリテキスト空間の下流空間からラベルなしデータの隣人を特定し、サンプルの相互作用を探索する。
この機構により、DOKTは低レベルおよび高レベルの表現のデータ関係を統一し、トレースバックの多様性を推定する。
次に、不確実性推定器において、ドメインミキシングは、プリテキスト空間に類似した視覚的パッチを持つラベルのないサンプルに対して知覚的摂動を強制するように設計されている。
次に、摂動サンプルのばらつきを測定し、領域の不確かさを推定する。
その結果、DOKTはこれらの2つのモジュールに基づいて最も多様で重要なサンプルを選択する。
10個のデータセットで行った実験により、我々のモデルは、他の最先端手法よりも優れており、セマンティックセグメンテーションや画像キャプションといった様々な応用シナリオによく適合していることが示された。
Active learning (AL) is designed to construct a high-quality labeled dataset by iteratively selecting the most informative samples. Such sampling heavily relies on data representation, while recently pre-training is popular for robust feature learning. However, as pre-training utilizes low-level pretext tasks that lack annotation, directly using pre-trained representation in AL is inadequate for determining the sampling score. To address this problem, we propose a downstream-pretext domain knowledge traceback (DOKT) method that traces the data interactions of downstream knowledge and pre-training guidance for selecting diverse and instructive samples near the decision boundary. DOKT consists of a traceback diversity indicator and a domain-based uncertainty estimator. The diversity indicator constructs two feature spaces based on the pre-training pretext model and the downstream knowledge from annotation, by which it locates the neighbors of unlabeled data from the downstream space in the pretext space to explore the interaction of samples. With this mechanism, DOKT unifies the data relations of low-level and high-level representations to estimate traceback diversity. Next, in the uncertainty estimator, domain mixing is designed to enforce perceptual perturbing to unlabeled samples with similar visual patches in the pretext space. Then the divergence of perturbed samples is measured to estimate the domain uncertainty. As a result, DOKT selects the most diverse and important samples based on these two modules. The experiments conducted on ten datasets show that our model outperforms other state-of-the-art methods and generalizes well to various application scenarios such as semantic segmentation and image captioning. | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# CrowdMAC:ロバストな群衆密度予測のためのマスケ群衆密度補完
CrowdMAC: Masked Crowd Density Completion for Robust Crowd Density Forecasting ( http://arxiv.org/abs/2407.14725v1 ) ライセンス: Link先を確認 | Ryo Fujii, Ryo Hachiuma, Hideo Saito, | (参考訳) 群集密度予測タスクは,過去の群集密度マップから今後,群集密度マップがどのように変化するかを予測することを目的としている。
しかし,過去の群集密度マップは,歩行者のミス検出が原因で不完全であり,ミス検出に対して頑健な群集密度予測モデルを開発することが重要である。
本稿では,群衆密度予測(CrowdMAC)のためのMAskedCrowd density Completionフレームワークを提案する。これは,マスクされた過去の群衆密度マップ(ミス検出による過去の地図からの地図の予測)から,マスクされた観測マップ(ミス検出による過去の地図の計算)を再構築しながら,将来の群衆密度マップを予測するために同時に訓練されたものである。
さらに, 群集密度マップの空白度と, その後の予測作業におけるフレームの情報を考慮し, 不均一に群集密度マップのトークンを隠蔽する時間密度対応マスキング(TDM)を提案する。
さらに,トレーニング効率を向上させるためにマルチタスクマスキングを導入する。
実験では、SDD、ETH-UCY、inD、JRDB、VSCrowd、FDST、croHDを含む7つの大規模データセットで最先端のパフォーマンスを達成する。
また,提案手法が合成ミス検出と現実ミス検出の両方に対して頑健であることを示す。
A crowd density forecasting task aims to predict how the crowd density map will change in the future from observed past crowd density maps. However, the past crowd density maps are often incomplete due to the miss-detection of pedestrians, and it is crucial to develop a robust crowd density forecasting model against the miss-detection. This paper presents a MAsked crowd density Completion framework for crowd density forecasting (CrowdMAC), which is simultaneously trained to forecast future crowd density maps from partially masked past crowd density maps (i.e., forecasting maps from past maps with miss-detection) while reconstructing the masked observation maps (i.e., imputing past maps with miss-detection). Additionally, we propose Temporal-Density-aware Masking (TDM), which non-uniformly masks tokens in the observed crowd density map, considering the sparsity of the crowd density maps and the informativeness of the subsequent frames for the forecasting task. Moreover, we introduce multi-task masking to enhance training efficiency. In the experiments, CrowdMAC achieves state-of-the-art performance on seven large-scale datasets, including SDD, ETH-UCY, inD, JRDB, VSCrowd, FDST, and croHD. We also demonstrate the robustness of the proposed method against both synthetic and realistic miss-detections. | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# MetaAug: ポストトレーニング量子化のためのメタデータ拡張
MetaAug: Meta-Data Augmentation for Post-Training Quantization ( http://arxiv.org/abs/2407.14726v1 ) ライセンス: Link先を確認 | Cuong Pham, Hoang Anh Dung, Cuong C. Nguyen, Trung Le, Dinh Phung, Gustavo Carneiro, Thanh-Toan Do, | (参考訳) トレーニング後の量子化(PTQ)は、大規模なトレーニングセットへの完全なアクセスができない現実世界のアプリケーションではより実用的なフル精度モデルの定量化のために、小さなキャリブレーションデータのみを必要とするため、大きな注目を集めている。
しかし、これはしばしば小さなキャリブレーションデータセットに過度に適合する。
この問題に対処するためにいくつかの方法が提案されているが、量子化のためのキャリブレーションセットのみに依存しており、検証セットがないために量子化モデルを検証することができない。
本研究では,ポストトレーニング量子化の性能向上を目的としたメタラーニングに基づく新しい手法を提案する。
具体的には、従来のPTQのように学習過程における検証を行なわずに、元のキャリブレーションセットを用いて量子化モデルをトレーニングする代わりに、2つの異なる画像を用いて量子化モデルをトレーニングし、検証する。
特に,2段階最適化による変換ネットワークと量子化モデルを協調的に最適化するメタラーニング手法を提案する。
変換ネットワークは、元の校正データを修正し、修正されたデータをトレーニングセットとして使用し、量子化モデルが元の校正データに対して良好な性能を達成することを目標として量子化モデルを学習する。
ニューラルネットワークアーキテクチャの異なる、広く使われているImageNetデータセットに関する大規模な実験は、我々のアプローチが最先端のPTQ手法よりも優れていることを示している。
Post-Training Quantization (PTQ) has received significant attention because it requires only a small set of calibration data to quantize a full-precision model, which is more practical in real-world applications in which full access to a large training set is not available. However, it often leads to overfitting on the small calibration dataset. Several methods have been proposed to address this issue, yet they still rely on only the calibration set for the quantization and they do not validate the quantized model due to the lack of a validation set. In this work, we propose a novel meta-learning based approach to enhance the performance of post-training quantization. Specifically, to mitigate the overfitting problem, instead of only training the quantized model using the original calibration set without any validation during the learning process as in previous PTQ works, in our approach, we both train and validate the quantized model using two different sets of images. In particular, we propose a meta-learning based approach to jointly optimize a transformation network and a quantized model through bi-level optimization. The transformation network modifies the original calibration data and the modified data will be used as the training set to learn the quantized model with the objective that the quantized model achieves a good performance on the original calibration data. Extensive experiments on the widely used ImageNet dataset with different neural network architectures demonstrate that our approach outperforms the state-of-the-art PTQ methods. | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# 経済ウォッチャー調査による日本金融ドメインのデータセットと課題
Economy Watchers Survey provides Datasets and Tasks for Japanese Financial Domain ( http://arxiv.org/abs/2407.14727v1 ) ライセンス: Link先を確認 | Masahiro Suzuki, Hiroki Sakaji, | (参考訳) 英語や一般ドメインにおける多くの自然言語処理(NLP)タスクが広く利用可能であり、事前訓練された言語モデルを評価するためにしばしば使用される。
対照的に、英語以外の言語や金融分野のタスクは少ない。
特に日本語や金融分野での業務は限られている。
中央政府機関が発行する資料を用いて,2つの大規模データセットを構築した。
それらのデータセットは、日本語の財務NLPタスクを3つ提供し、文章の分類のための3クラスと12クラスの分類と、感情分析のための5クラスの分類タスクを含む。
私たちのデータセットは包括的で最新のように設計されており、最新のタスクデータセットがいつでも公開されていることを保証する自動更新フレームワークを活用しています。
Many natural language processing (NLP) tasks in English or general domains are widely available and are often used to evaluate pre-trained language models. In contrast, there are fewer tasks available for languages other than English and for the financial domain. In particular, tasks in Japanese and the financial domain are limited. We construct two large datasets using materials published by a Japanese central government agency. The datasets provide three Japanese financial NLP tasks, which include a 3-class and 12-class classification for categorizing sentences, as well as a 5-class classification task for sentiment analysis. Our datasets are designed to be comprehensive and up-to-date, leveraging an automatic update framework that ensures the latest task datasets are publicly available anytime. | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# FedDM:フェデレーション拡散モデルにおける通信効率の向上とデータ不均一性処理
FedDM: Enhancing Communication Efficiency and Handling Data Heterogeneity in Federated Diffusion Models ( http://arxiv.org/abs/2407.14730v1 ) ライセンス: Link先を確認 | Jayneel Vora, Nader Bouacida, Aditya Krishnan, Prasant Mohapatra, | (参考訳) 拡散モデルのフェデレーショントレーニング用に設計された新しいトレーニングフレームワークであるFedDMを紹介する。
我々の理論的解析は、この収束が保証される特定の条件を示す連邦環境で訓練されたときの拡散モデルの収束を確立する。
拡散モデルのバックボーンとしてU-Netアーキテクチャを利用するトレーニングアルゴリズムの組を提案する。
これらには、クライアント間のデータの均一性を扱うためのFedDM-vanilla、FedDM-prox、モデル更新サイズを減らすために量子化モジュールを組み込んだFedDM-quantなどが含まれる。
DDPMのFashionMNIST (28x28分解能), CIFAR-10 (32x32分解能), CelebA (64x64分解能), LDMのLSUN Church Outdoors (256x256分解能)のアルゴリズムについて検討した。
評価結果から,FedDMアルゴリズムは画像解像度をまたいだ高次品質を維持していることが示された。
同時に、局所訓練目標における量子化された更新と近項の使用は、通信効率(最大4倍)とモデル収束(特に非IIDデータ設定)をFIDスコア(最大1.75倍)のコストで著しく向上させる。
We introduce FedDM, a novel training framework designed for the federated training of diffusion models. Our theoretical analysis establishes the convergence of diffusion models when trained in a federated setting, presenting the specific conditions under which this convergence is guaranteed. We propose a suite of training algorithms that leverage the U-Net architecture as the backbone for our diffusion models. These include a basic Federated Averaging variant, FedDM-vanilla, FedDM-prox to handle data heterogeneity among clients, and FedDM-quant, which incorporates a quantization module to reduce the model update size, thereby enhancing communication efficiency across the federated network. We evaluate our algorithms on FashionMNIST (28x28 resolution), CIFAR-10 (32x32 resolution), and CelebA (64x64 resolution) for DDPMs, as well as LSUN Church Outdoors (256x256 resolution) for LDMs, focusing exclusively on the imaging modality. Our evaluation results demonstrate that FedDM algorithms maintain high generation quality across image resolutions. At the same time, the use of quantized updates and proximal terms in the local training objective significantly enhances communication efficiency (up to 4x) and model convergence, particularly in non-IID data settings, at the cost of increased FID scores (up to 1.75x). | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# Meta-GPS++: コントラスト学習と自己学習によるグラフメタ学習の強化
Meta-GPS++: Enhancing Graph Meta-Learning with Contrastive Learning and Self-Training ( http://arxiv.org/abs/2407.14732v1 ) ライセンス: Link先を確認 | Yonghao Liu, Mengyu Li, Ximing Li, Lan Huang, Fausto Giunchiglia, Yanchun Liang, Xiaoyue Feng, Renchu Guan, | (参考訳) ノード分類はグラフ学習において不可欠な問題である。
しかし、多くのモデルは、通常、数ショットのシナリオに適用すると不満足なパフォーマンスを得る。
メタラーニングとグラフニューラルネットワークを組み合わせて、グラフ上の少数ショットノード分類を解く研究もある。
期待された性能にもかかわらず、いくつかの制限が残っている。
まず、同好グラフのノード符号化機構を用いて、異好グラフにおいてもノード埋め込みを学習する。
第2に,メタラーニングに基づく既存モデルは,学習過程におけるランダム性の干渉を無視する。
第3に、特定のタスク内で制限されたラベル付きノードのみを使用して、多数のラベル付きノードを明示的に利用せずにトレーニングされる。
最後に、ほとんどすべてのサンプルタスクを、独自性のためにカスタマイズすることなく、均等に扱う。
これらの問題に対処するため,Meta-GPS++と呼ばれる少数ショットノード分類のための新しいフレームワークを提案する。
具体的には,同好および異好のグラフ上での識別ノード表現を効率よく学習する手法を最初に採用する。
そこで我々は,ノード埋め込みの分布を正規化するために,プロトタイプベースの手法を用いてパラメータを初期化し,対照的な学習を行う。
さらに、ラベルのないノードから貴重な情報を抽出するために自己学習を適用する。
さらに、様々なタスクから伝達可能な知識を学ぶために、S$^2$(スケーリングとシフト)変換を採用する。
実世界のデータセットの結果はMeta-GPS++の優位性を示している。
私たちのコードはここにある。
Node classification is an essential problem in graph learning. However, many models typically obtain unsatisfactory performance when applied to few-shot scenarios. Some studies have attempted to combine meta-learning with graph neural networks to solve few-shot node classification on graphs. Despite their promising performance, some limitations remain. First, they employ the node encoding mechanism of homophilic graphs to learn node embeddings, even in heterophilic graphs. Second, existing models based on meta-learning ignore the interference of randomness in the learning process. Third, they are trained using only limited labeled nodes within the specific task, without explicitly utilizing numerous unlabeled nodes. Finally, they treat almost all sampled tasks equally without customizing them for their uniqueness. To address these issues, we propose a novel framework for few-shot node classification called Meta-GPS++. Specifically, we first adopt an efficient method to learn discriminative node representations on homophilic and heterophilic graphs. Then, we leverage a prototype-based approach to initialize parameters and contrastive learning for regularizing the distribution of node embeddings. Moreover, we apply self-training to extract valuable information from unlabeled nodes. Additionally, we adopt S$^2$ (scaling & shifting) transformation to learn transferable knowledge from diverse tasks. The results on real-world datasets show the superiority of Meta-GPS++. Our code is available here. | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# 解釈可能なハードプロンプト:RLによるプロンプトチューニングのためのスパースエントロピー規則化
Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL ( http://arxiv.org/abs/2407.14733v1 ) ライセンス: Link先を確認 | Yunseon Choi, Sangmin Bae, Seonghyun Ban, Minchan Jeong, Chuheng Zhang, Lei Song, Li Zhao, Jiang Bian, Kee-Eung Kim, | (参考訳) 基礎モデルの出現により、プロンプトチューニングは、モデル行動の指示と望ましい応答を引き出すための重要なテクニックとして位置づけられている。
プロンプトチューニングでは、入力に含まれる適切なキーワードを選択し、モデルパラメータを調整または微調整することなく下流タスクに適応する。
モデルからのバックプロパゲート勾配信号を直接利用するアプローチから、強化学習(RL)法のようなブラックボックス最適化を利用するアプローチまで、迅速なチューニングには幅広い作業がある。
RLPromptは、ソフトQ-ラーニングを活用した最適なプロンプトトークンを見つけることを目的としています。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性に障害があることがわかった。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
テキスト分類や教師なしテキストスタイル転送,画像からのテキストインバージョンなど,さまざまなタスクに対するアプローチを幅広く評価する。
その結果,ベースラインよりも顕著な改善が示され,迅速なチューニングの課題に対処する上でのアプローチの有効性が強調された。
さらに,本手法を用いて検出したプロンプトは,他のベースラインのプロンプトよりも自然で解釈可能であることを示す。
With the advent of foundation models, prompt tuning has positioned itself as an important technique for directing model behaviors and eliciting desired responses. Prompt tuning regards selecting appropriate keywords included into the input, thereby adapting to the downstream task without adjusting or fine-tuning the model parameters. There is a wide range of work in prompt tuning, from approaches that directly harness the backpropagated gradient signals from the model, to those employing black-box optimization such as reinforcement learning (RL) methods. Our primary focus is on RLPrompt, which aims to find optimal prompt tokens leveraging soft Q-learning. While the results show promise, we have observed that the prompts frequently appear unnatural, which impedes their interpretability. We address this limitation by using sparse Tsallis entropy regularization, a principled approach to filtering out unlikely tokens from consideration. We extensively evaluate our approach across various tasks, including few-shot text classification, unsupervised text style transfer, and textual inversion from images. The results indicate a notable improvement over baselines, highlighting the efficacy of our approach in addressing the challenges of prompt tuning. Moreover, we show that the prompts discovered using our method are more natural and interpretable compared to those from other baselines. | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# ECRTime:時系列分類のための分類と検索の統合
ECRTime: Ensemble Integration of Classification and Retrieval for Time Series Classification ( http://arxiv.org/abs/2407.14735v1 ) ライセンス: Link先を確認 | Fan Zhao, You Chen, | (参考訳) 時系列分類(TSC)のためのディープラーニングベースの手法は、一般的にディープネットワークを利用して特徴を抽出し、それをフル接続(FC)層とSoftMax関数の組み合わせで処理する。
しかし,UCRアーカイブから得られたデータセットのクラス間類似性とクラス内不整合の現象を観察し,この現象が「FC+SoftMax」パラダイムに悪影響を及ぼすか分析した。
この問題に対処するため,我々は,深層学習に基づく検索アルゴリズムをTSC問題に適用し,分類モデルと検索モデルを統合したEMCを導入する。
112のUCRデータセットに対する実験結果から、ECRは既存のディープラーニングベースの手法と比較して最先端(ソータ)であることが示された。
さらに,ECRのアンサンブルであるより正確な分類器であるECRTimeを開発した。
ECRTimeは現在最も正確なディープラーニング分類器であるInceptionTimeを超えており、トレーニング時間と同等のスケーラビリティでこれを達成している。
Deep learning-based methods for Time Series Classification (TSC) typically utilize deep networks to extract features, which are then processed through a combination of a Fully Connected (FC) layer and a SoftMax function. However, we have observed the phenomenon of inter-class similarity and intra-class inconsistency in the datasets from the UCR archive and further analyzed how this phenomenon adversely affects the "FC+SoftMax" paradigm. To address the issue, we introduce ECR, which, for the first time to our knowledge, applies deep learning-based retrieval algorithm to the TSC problem and integrates classification and retrieval models. Experimental results on 112 UCR datasets demonstrate that ECR is state-of-the-art(sota) compared to existing deep learning-based methods. Furthermore, we have developed a more precise classifier, ECRTime, which is an ensemble of ECR. ECRTime surpasses the currently most accurate deep learning classifier, InceptionTime, in terms of accuracy, achieving this with reduced training time and comparable scalability. | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# 低解像度画像を用いた畳み込みニューラルネットワークによるコーヒー葉の早期検出
Early Detection of Coffee Leaf Rust Through Convolutional Neural Networks Trained on Low-Resolution Images ( http://arxiv.org/abs/2407.14737v1 ) ライセンス: Link先を確認 | Angelly Cabrera, Kleanthis Avramidis, Shrikanth Narayanan, | (参考訳) コーヒー葉のさびは、真菌のHemileia vastatrixによって引き起こされる葉病であり、特に中央アメリカではコーヒー生産に大きな脅威をもたらす。
気候変動は、初期感染と葉のさびのような病気の症状の出現までの遅延期間を短縮するので、この問題をさらに悪化させる。
潜伏期間の短縮は、より深刻な植物疫病や病気の拡散を早める可能性がある。
したがって、効果的な疾患管理戦略が緊急に必要である。
これらの課題に対処するため,早期疾患検出のためのディープラーニングモデルの可能性を探る。
しかし、ディープラーニングモデルは、モデルトレーニングに広範囲な処理能力と大量のデータを必要とする。
これらの障壁を克服するため, トレーニング画像と高域通過フィルタを併用して病変葉のコントラストを向上し, 資源制限環境におけるモデルの有効性を著しく向上させる前処理手法を提案する。
本手法とモデルでは,精度,リコール,F1スコア,Dice係数など,すべての評価指標に対して90%以上を達成し,高い性能を示した。
実験の結果,この手法は2種類の画像前処理技術や,未修正のフルカラー画像など,他の手法よりも優れていることがわかった。
Coffee leaf rust, a foliar disease caused by the fungus Hemileia vastatrix, poses a major threat to coffee production, especially in Central America. Climate change further aggravates this issue, as it shortens the latency period between initial infection and the emergence of visible symptoms in diseases like leaf rust. Shortened latency periods can lead to more severe plant epidemics and faster spread of diseases. There is, hence, an urgent need for effective disease management strategies. To address these challenges, we explore the potential of deep learning models for enhancing early disease detection. However, deep learning models require extensive processing power and large amounts of data for model training, resources that are typically scarce. To overcome these barriers, we propose a preprocessing technique that involves convolving training images with a high-pass filter to enhance lesion-leaf contrast, significantly improving model efficacy in resource-limited environments. This method and our model demonstrated a strong performance, achieving over 90% across all evaluation metrics--including precision, recall, F1-score, and the Dice coefficient. Our experiments show that this approach outperforms other methods, including two different image preprocessing techniques and using unaltered, full-color images. | 翻訳日:2024-07-23 21:14:02 公開日:2024-07-20 |
# 平坦性を考慮したシークエンシャル学習はレジリエントなバックドアを生成する
Flatness-aware Sequential Learning Generates Resilient Backdoors ( http://arxiv.org/abs/2407.14738v1 ) ライセンス: Link先を確認 | Hoang Pham, The-Anh Ta, Anh Tran, Khoa D. Doan, | (参考訳) 近年、バックドア攻撃は機械学習モデルのセキュリティに対する新たな脅威となっている。
敵の視点では、移植されたバックドアは防御アルゴリズムに耐性があるはずであるが、最近提案された細調整されたディフェンスによって、これらのバックドアを顕著な有効性で除去することができる。
これは主に、ディープニューラルネットワークの破滅的忘れ(CF)特性に起因する。
本稿では,連続学習(CL)技術を利用して,バックドアのCFに対処する。
損失景観におけるバックドアモデルと微調整モデルとの接続性について検討することから始める。
我々の分析では、細調整されたディフェンス、特に先進的なディフェンスは、毒性のあるモデルをバックドアの領域から簡単に押し出すことができ、バックドアのすべてを忘れてしまうことを確認しています。
そこで我々は,CLのレンズを通してバックドアトレーニングを再構築し,レジリエンスなバックドアを生成可能なSBL(Sequential Backdoor Learning)という新しいフレームワークを提案する。
第1のタスクはバックドアモデルを学び、第2のタスクはCL原則に基づいてバックドアモデルに耐性のあるバックドア領域に移動します。
また, 組込みバックドアの耐久性をさらに高めるため, フレーム内のシャープネスを意識した最小化器を用いて, より平坦なバックドア領域を求めることを提案する。
最後に,バックドア領域における複数のベンチマークデータセットに対する実験実験を通じて,本手法の有効性を実証する。
ソースコードはhttps://github.com/mail-research/SBL-resilient-backdoorsで入手できる。
Recently, backdoor attacks have become an emerging threat to the security of machine learning models. From the adversary's perspective, the implanted backdoors should be resistant to defensive algorithms, but some recently proposed fine-tuning defenses can remove these backdoors with notable efficacy. This is mainly due to the catastrophic forgetting (CF) property of deep neural networks. This paper counters CF of backdoors by leveraging continual learning (CL) techniques. We begin by investigating the connectivity between a backdoored and fine-tuned model in the loss landscape. Our analysis confirms that fine-tuning defenses, especially the more advanced ones, can easily push a poisoned model out of the backdoor regions, making it forget all about the backdoors. Based on this finding, we re-formulate backdoor training through the lens of CL and propose a novel framework, named Sequential Backdoor Learning (SBL), that can generate resilient backdoors. This framework separates the backdoor poisoning process into two tasks: the first task learns a backdoored model, while the second task, based on the CL principles, moves it to a backdoored region resistant to fine-tuning. We additionally propose to seek flatter backdoor regions via a sharpness-aware minimizer in the framework, further strengthening the durability of the implanted backdoor. Finally, we demonstrate the effectiveness of our method through extensive empirical experiments on several benchmark datasets in the backdoor domain. The source code is available at https://github.com/mail-research/SBL-resilient-backdoors | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# 非相互量子センシング
Nonreciprocal Quantum Sensing ( http://arxiv.org/abs/2407.14739v1 ) ライセンス: Link先を確認 | Dong Xie, Chunling Xu, | (参考訳) 非相互性は量子資源を生成するだけでなく、ノイズや駆動信号からの逆干渉を遮蔽する。
駆動信号の検知における非相互結合の利点について検討する。
一般に、非相互結合は対応する相互結合よりも優れた性能を発揮する。
また, ホモダイン測定が最適測定であることを示す。
単一の非相互結合は測定精度を最大2倍に向上させることができる。
非相互結合を平行に$N$とすることにより、測定精度を対応する相互結合と比較して$N^2$倍に向上させることができる。
非零温度散逸環境では、非相互量子センシングは相互量子センシングよりも熱雑音に対する堅牢性が高いことを示す。
Nonreciprocity can not only generate quantum resources, but also shield noise and reverse interference from driving signals. We investigate the advantages of nonreciprocal coupling in sensing a driving signal. In general, we find that the nonreciprocal coupling performs better than the corresponding reciprocal coupling. And we show that homodyne measurement is the optimal measurement. A single non-reciprocal coupling can increase measurement precision up to 2 times. Using $N$ non-reciprocal couplings in parallel, the measurement precision can be improved by $N^2$ times compared with the corresponding reciprocal coupling. In a non-zero temperature dissipative environment, we demonstrate that the nonreciprocal quantum sensing has better robustness to thermal noise than the reciprocal quantum sensing. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# 直交型ハイパーカテゴリガイドによるマイクロビデオマッチング
Orthogonal Hyper-category Guided Multi-interest Elicitation for Micro-video Matching ( http://arxiv.org/abs/2407.14741v1 ) ライセンス: Link先を確認 | Beibei Li, Beihong Jin, Yisong Yu, Yiyuan Zheng, Jiageng Song, Wei Zhuo, Tao Xiang, | (参考訳) マイクロビデオを見ることは、日々の生活の一部になりつつある。
通常、ユーザーの観察行動は、複数の異なる関心事に根ざしていると考えられている。
本稿では,ユーザインタラクションから複数のソフトな,ハードな埋め込みを分離することで,ユーザの多種多様な興味を引き出す,マイクロビデオマッチングのためのOPALモデルを提案する。
さらに、OPALは、マイクロビデオの直交的ハイパーカテゴリの指導の下で、歴史的相互作用からソフトな関心を生み出すための2段階のトレーニング戦略を採用し、微調整は、各ユーザの興味のゆがみの程度を補強し、それぞれの興味の時間的進化を学習する。
実世界の2つのデータセットについて広範な実験を行う。
その結果、OPALはマイクロビデオの多様化だけでなく、リコールやヒット率の点で6つの最先端モデルよりも優れていることがわかった。
Watching micro-videos is becoming a part of public daily life. Usually, user watching behaviors are thought to be rooted in their multiple different interests. In the paper, we propose a model named OPAL for micro-video matching, which elicits a user's multiple heterogeneous interests by disentangling multiple soft and hard interest embeddings from user interactions. Moreover, OPAL employs a two-stage training strategy, in which the pre-train is to generate soft interests from historical interactions under the guidance of orthogonal hyper-categories of micro-videos and the fine-tune is to reinforce the degree of disentanglement among the interests and learn the temporal evolution of each interest of each user. We conduct extensive experiments on two real-world datasets. The results show that OPAL not only returns diversified micro-videos but also outperforms six state-of-the-art models in terms of recall and hit rate. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# シークエンシャルレコメンデーションの長期的・短期的関心
Denoising Long- and Short-term Interests for Sequential Recommendation ( http://arxiv.org/abs/2407.14743v1 ) ライセンス: Link先を確認 | Xinyu Zhang, Beibei Li, Beihong Jin, | (参考訳) ユーザの関心は、主に安定した長期的な嗜好や短期的な意図の変化など、さまざまな時間スケールで見ることができ、それらの組み合わせは包括的なシーケンシャルなレコメンデーションを促進する。
しかし、ユーザモデリングの異なる時間スケールに焦点を当てた既存の研究は、実際のユーザの関心を捉えるのを妨げ、従来のシーケンシャルな認知法では解決できない、異なる時間スケールノイズの負の効果を無視している。
本稿では,異なるエンコーダと,長期的および短期的な利害関係を抽出し,包括的およびロバストなユーザモデリングを両立させる,長期的および短期的利害関係決定ネットワーク(LSIDN)を提案する。
具体的には、セッションレベルの利害関係抽出と進化戦略を用いて、長期利害関係モデリングへのセッション間行動ノイズの導入を回避し、また、非意図的行動ノイズが短期利害関係モデリングに与える影響を軽減するために、均質な交換強化を備えたコントラスト学習を採用する。
2つの公開データセットによる実験の結果、LSIDNは最先端のモデルより一貫して優れており、大きな堅牢性を実現している。
User interests can be viewed over different time scales, mainly including stable long-term preferences and changing short-term intentions, and their combination facilitates the comprehensive sequential recommendation. However, existing work that focuses on different time scales of user modeling has ignored the negative effects of different time-scale noise, which hinders capturing actual user interests and cannot be resolved by conventional sequential denoising methods. In this paper, we propose a Long- and Short-term Interest Denoising Network (LSIDN), which employs different encoders and tailored denoising strategies to extract long- and short-term interests, respectively, achieving both comprehensive and robust user modeling. Specifically, we employ a session-level interest extraction and evolution strategy to avoid introducing inter-session behavioral noise into long-term interest modeling; we also adopt contrastive learning equipped with a homogeneous exchanging augmentation to alleviate the impact of unintentional behavioral noise on short-term interest modeling. Results of experiments on two public datasets show that LSIDN consistently outperforms state-of-the-art models and achieves significant robustness. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# Few-shot行動認識の概観
A Comprehensive Review of Few-shot Action Recognition ( http://arxiv.org/abs/2407.14744v1 ) ライセンス: Link先を確認 | Yuyang Wanyan, Xiaoshan Yang, Weiming Dong, Changsheng Xu, | (参考訳) アクション認識における複雑なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。
ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
画像シナリオでの少数ショット学習と比較して、ビデオデータの本質的な複雑さのため、少数ショットのアクション認識はより困難である。
行動を認識するには、複雑な時間的シーケンスをモデル化し、各フレームにおける人間と物体の識別以上のリッチな意味情報を抽出する。
さらに,クラス内変動の問題はビデオの限られたサンプルと顕著に一致し,新しいアクションカテゴリの代表的特徴の学習が複雑になる。
これらの課題を克服するために、多くのアプローチが数発のアクション認識において大きな進歩をもたらしており、包括的な調査の必要性を浮き彫りにしている。
少数ショット画像やテキスト分類に焦点を当てた初期の調査とは異なり、少数ショットのアクション認識の独特な課題を深く検討している。
本稿では,近年の多種多様な手法について概説し,概説する。
さらに、この調査では、一般的に使用されているベンチマークを示し、関連する高度なトピックと将来的な方向性について論じている。
この調査が研究者にとって貴重な情報源になり、新入生に必須のガイダンスを提供し、新しい洞察を持つ経験豊富な研究者に刺激を与えてくれることを期待している。
Few-shot action recognition aims to address the high cost and impracticality of manually labeling complex and variable video data in action recognition. It requires accurately classifying human actions in videos using only a few labeled examples per class. Compared to few-shot learning in image scenarios, few-shot action recognition is more challenging due to the intrinsic complexity of video data. Recognizing actions involves modeling intricate temporal sequences and extracting rich semantic information, which goes beyond mere human and object identification in each frame. Furthermore, the issue of intra-class variance becomes particularly pronounced with limited video samples, complicating the learning of representative features for novel action categories. To overcome these challenges, numerous approaches have driven significant advancements in few-shot action recognition, which underscores the need for a comprehensive survey. Unlike early surveys that focus on few-shot image or text classification, we deeply consider the unique challenges of few-shot action recognition. In this survey, we review a wide variety of recent methods and summarize the general framework. Additionally, the survey presents the commonly used benchmarks and discusses relevant advanced topics and promising future directions. We hope this survey can serve as a valuable resource for researchers, offering essential guidance to newcomers and stimulating seasoned researchers with fresh insights. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# Difflare: 遅延拡散モデルによる画像レンズフレアの除去
Difflare: Removing Image Lens Flare with Latent Diffusion Model ( http://arxiv.org/abs/2407.14746v1 ) ライセンス: Link先を確認 | Tianwen Zhou, Qihao Duan, Zitong Yu, | (参考訳) レンズフレアで劣化した画像から高画質の画像の復元は、低レベルの視覚において大きな課題となる。
現代のディープラーニング手法では、レンズフレア除去モデルをスクラッチからトレーニングすることが多い。
しかし、これらの手法は、顕著な成功にもかかわらず、事前訓練されたモデルによって学習された生成的事前学習を活用できず、レンズフレア除去において不満足な性能をもたらす。
また、フレア除去に関係した物理的先入観を考慮に入れた作品は少ない。
これらの問題に対処するために、レンズフレア除去のための新しいアプローチであるDifflareを紹介する。
PTDM (Pre-Trained Diffusion Models, PTDM) による事前学習を活用するために, PTDMによる修復プロセスの指導を目的としたトレーニング可能な構造誘導モジュール (Structure Guidance Injection Module, SGIM) を導入する。
より効率的なトレーニングに向けて、私たちは潜伏空間でDifflareを採用しています。
PTDMの遅延圧縮と確率的サンプリングによる情報損失を解決するために,レンズフレアの輝度勾配優先(LGP)を組み込んだ適応的特徴融合モジュール(AFFM)を導入し,特徴抽出を動的に制御する。
広汎な実験により、提案したDifflareは、現実世界のレンズフレア除去における最先端の性能を達成し、フレアによる画像の復元と、忠実度の向上と知覚品質の向上を実証した。
コードも間もなく公開される予定だ。
The recovery of high-quality images from images corrupted by lens flare presents a significant challenge in low-level vision. Contemporary deep learning methods frequently entail training a lens flare removing model from scratch. However, these methods, despite their noticeable success, fail to utilize the generative prior learned by pre-trained models, resulting in unsatisfactory performance in lens flare removal. Furthermore, there are only few works considering the physical priors relevant to flare removal. To address these issues, we introduce Difflare, a novel approach designed for lens flare removal. To leverage the generative prior learned by Pre-Trained Diffusion Models (PTDM), we introduce a trainable Structural Guidance Injection Module (SGIM) aimed at guiding the restoration process with PTDM. Towards more efficient training, we employ Difflare in the latent space. To address information loss resulting from latent compression and the stochastic sampling process of PTDM, we introduce an Adaptive Feature Fusion Module (AFFM), which incorporates the Luminance Gradient Prior (LGP) of lens flare to dynamically regulate feature extraction. Extensive experiments demonstrate that our proposed Difflare achieves state-of-the-art performance in real-world lens flare removal, restoring images corrupted by flare with improved fidelity and perceptual quality. The codes will be released soon. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# イジングと量子アニーリングマシンを用いたセンサ配置最適化のための相互情報の定式化
Quadratic Formulation of Mutual Information for Sensor Placement Optimization using Ising and Quantum Annealing Machines ( http://arxiv.org/abs/2407.14747v1 ) ライセンス: Link先を確認 | Yuta Nakano, Shigeyasu Uno, | (参考訳) 我々は,複数の候補位置から予め定義されたセンサ数の配置を決定するための組合せ最適化問題に対処し,最小限のセンサ数で情報取得を最大化することを目的とした。
センサ配置候補のデータが多変量正規分布に従うことを前提として、選択されたセンサ位置のデータと他者のデータとの相互情報(MI)を目的関数として定義し、提案手法を用いて擬似非拘束バイナリ最適化(QUBO)問題で定式化した。
例として,3つのセンサ配置候補に対する目的関数の最適解を量子アニールマシンを用いて計算し,得られた結果が妥当であることを確認した。
提案した定式化法は任意のセンサに適用可能であり,センサ数の増加に伴って量子アニールの利点が出現することが期待される。
We address a combinatorial optimization problem to determine the placement of a predefined number of sensors from multiple candidate positions, aiming to maximize information acquisition with the minimum number of sensors. Assuming that the data from predefined candidates of sensor placements follow a multivariate normal distribution, we defined mutual information (MI) between the data from selected sensor positions and the data from the others as an objective function, and formulated it in a Quadratic Unconstrainted Binary Optimization (QUBO) problem by using a method we proposed. As an example, we calculated optimal solutions of the objective functions for 3 candidates of sensor placements using a quantum annealing machine, and confirmed that the results obtained were reasonable. The formulation method we proposed can be applied to any number of sensors, and it is expected that the advantage of quantum annealing emerges as the number of sensors increases. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# フロッケ散乱の等角近似
Eikonal Approximation for Floquet Scattering ( http://arxiv.org/abs/2407.14751v1 ) ライセンス: Link先を確認 | Yaru Liu, Peng Zhang, | (参考訳) アイコナール近似(EA)は様々な高エネルギー散乱問題で広く用いられている。
本研究では、時間非依存ハミルトニアンの散乱問題から周期ハミルトニアンの散乱問題、すなわちフロケ散乱問題への近似を一般化する。
さらに, この近似による結果と正確な値との比較により, 散乱問題による一般化EAの適用性について述べる。
一般化されたEAは、外部磁場による高エネルギー散乱過程の操作、原子、分子または核衝突の操作、強いレーザー磁場による反応の研究に有用である。
The eikonal approximation (EA) is widely used in various high-energy scattering problems. In this work we generalize this approximation from the scattering problems with time-independent Hamiltonian to the ones with periodical Hamiltonians, {\it i.e.}, the Floquet scattering problems. We further illustrate the applicability of our generalized EA via the scattering problem with respect to a shaking spherical square-well potential, by comparing the results given by this approximation and the exact ones. The generalized EA we developed is helpful for the research of manipulation of high-energy scattering processes with external field, {\it e.g.}, the manipulation of atom, molecule or nuclear collisions or reactions via strong laser fields. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# フラクタル特徴写像を用いた管状構造の正確なセグメント化のためのトポロジカル自己相似性表現
Representing Topological Self-Similarity Using Fractal Feature Maps for Accurate Segmentation of Tubular Structures ( http://arxiv.org/abs/2407.14754v1 ) ライセンス: Link先を確認 | Jiaxing Huang, Yanfeng Zhou, Yaoru Luo, Guole Liu, Heng Guo, Ge Yang, | (参考訳) 長い管状構造の正確なセグメンテーションは、生物学、医学、リモートセンシングなど、幅広い分野において必要である。
このような構造の複雑な位相と幾何学は、しばしば重要な技術的課題を引き起こす。
このような構造の基本的な性質は、その位相的自己相似性であり、フラクタル次元(FD)のようなフラクタル的特徴によって定量化することができる。
本研究では,FDをピクセルレベルまで拡張することにより,フラクタル特徴を深層学習モデルに組み込む。
得られたフラクタル特徴写像(FFM)はモデルへの追加入力と損失関数の重み付けとして組み込まれ、トポロジカルな自己相似性を利用してセグメンテーション性能を向上させる。
さらに、エッジデコーダとスケルトンデコーダを組み込んでU-Netアーキテクチャを拡張し、境界精度とセグメンテーションの骨格連続性を向上させる。
5つの管状構造データセットの大規模実験により,本手法の有効性とロバスト性を検証した。
さらに、HR-Netのような他の一般的なセグメンテーションモデルとFFMを統合することで性能が向上し、異なるモデルアーキテクチャを持つプラグインモジュールとしてFFMを組み込むことができることを示唆している。
コードとデータはhttps://github.com/cbmi-group/FFM-Multi-Decoder-Networkで公開されている。
Accurate segmentation of long and thin tubular structures is required in a wide variety of areas such as biology, medicine, and remote sensing. The complex topology and geometry of such structures often pose significant technical challenges. A fundamental property of such structures is their topological self-similarity, which can be quantified by fractal features such as fractal dimension (FD). In this study, we incorporate fractal features into a deep learning model by extending FD to the pixel-level using a sliding window technique. The resulting fractal feature maps (FFMs) are then incorporated as additional input to the model and additional weight in the loss function to enhance segmentation performance by utilizing the topological self-similarity. Moreover, we extend the U-Net architecture by incorporating an edge decoder and a skeleton decoder to improve boundary accuracy and skeletal continuity of segmentation, respectively. Extensive experiments on five tubular structure datasets validate the effectiveness and robustness of our approach. Furthermore, the integration of FFMs with other popular segmentation models such as HR-Net also yields performance enhancement, suggesting FFM can be incorporated as a plug-in module with different model architectures. Code and data are openly accessible at https://github.com/cbmi-group/FFM-Multi-Decoder-Network. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# トランスフォーマーに基づくディープラーニングアーキテクチャと説明可能なAIを活用する皮膚疾患分類の強化
Enhancing Skin Disease Classification Leveraging Transformer-based Deep Learning Architectures and Explainable AI ( http://arxiv.org/abs/2407.14757v1 ) ライセンス: Link先を確認 | Jayanth Mohan, Arrun Sivasubramanian, V Sowmya, Ravi Vinayakumar, | (参考訳) 皮膚疾患は世界の人口の3分の1以上に影響を与えるが、その影響は過小評価されることが多い。
皮膚疾患の分類を自動化して医師の予後を補助することは困難である。
それにもかかわらず、効率的な特徴抽出パイプラインのため、深層学習技術は皮膚疾患の特定を含む様々なタスクに多くの可能性を示してきた。
この研究では、31のクラスを持つ皮膚疾患データセットを使用し、Vision Transformers、Swin Transformers、DivoV2のすべてのバージョンと比較した。
この分析は、文献で示されたベンチマーク畳み込みベースのアーキテクチャと比較するために拡張される。
ImageNet1kによる皮膚疾患データセットでのトランスファーラーニングは、96.48\%の高いテスト精度と、DinoV2を使用したF1スコアの0.9727に寄与する。
DinoV2の性能はHAM10000とDermnetのデータセットと比較してモデルの堅牢性をテストし、トレーニングされたモデルはベンチマーク結果を23と7のクラスデータセットのF1-Scoreでわずかに比較した。
結果はGradCAMやSHAPといった説明可能なAIフレームワークを使って裏付けられ、病気をマッピングするための正確な画像位置を提供し、早期発見の皮膚科医を支援し、予後を早め、治療を行う。
Skin diseases affect over a third of the global population, yet their impact is often underestimated. Automating skin disease classification to assist doctors with their prognosis might be difficult. Nevertheless, due to efficient feature extraction pipelines, deep learning techniques have shown much promise for various tasks, including dermatological disease identification. This study uses a skin disease dataset with 31 classes and compares it with all versions of Vision Transformers, Swin Transformers and DivoV2. The analysis is also extended to compare with benchmark convolution-based architecture presented in the literature. Transfer learning with ImageNet1k weights on the skin disease dataset contributes to a high test accuracy of 96.48\% and an F1-Score of 0.9727 using DinoV2, which is almost a 10\% improvement over this data's current benchmark results. The performance of DinoV2 was also compared for the HAM10000 and Dermnet datasets to test the model's robustness, and the trained model overcomes the benchmark results by a slight margin in test accuracy and in F1-Score on the 23 and 7 class datasets. The results are substantiated using explainable AI frameworks like GradCAM and SHAP, which provide precise image locations to map the disease, assisting dermatologists in early detection, prompt prognosis, and treatment. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# DISCO: 異なる場面のセマンティックスとデュアルレベル制御による身体的ナビゲーションとインタラクション
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control ( http://arxiv.org/abs/2407.14758v1 ) ライセンス: Link先を確認 | Xinyu Xu, Shengcheng Luo, Yanchao Yang, Yong-Lu Li, Cewu Lu, | (参考訳) ヒューマンコマンドによって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントの構築は、タスク計画、環境モデリング、オブジェクトインタラクションの要件を規定する、長期的なAI研究の青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいてナビゲートと対話を行う方法について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
特にdisCOは、オブジェクトとアベイランスにおけるリッチなセマンティクスの異なるシーン表現を取り入れており、それはリアルタイムで動的に学習され、ナビゲーション計画を容易にする。
さらに,モバイル操作を効率的に行うために,グローバルおよびローカルの両方のキューを活用する2レベル粗度動作制御を提案する。
DISCOは後続の具体化命令のような具体化タスクに容易に統合される。
提案手法を検証するため,大規模な長距離視覚言語ナビゲーションとインタラクションタスクのALFREDベンチマークをテストベッドとして用いた。
広範にわたる実験において、DisCOは、ステップ・バイ・ステップの指示がなくても、未確認シーンにおける成功率のマージンを8.6%以上で上回り、総合的な評価を行ない、その成果を実証する。
私たちのコードはhttps://github.com/AllenXuuu/DISCO.comで公開されています。
Building a general-purpose intelligent home-assistant agent skilled in diverse tasks by human commands is a long-term blueprint of embodied AI research, which poses requirements on task planning, environment modeling, and object interaction. In this work, we study primitive mobile manipulations for embodied agents, i.e. how to navigate and interact based on an instructed verb-noun pair. We propose DISCO, which features non-trivial advancements in contextualized scene modeling and efficient controls. In particular, DISCO incorporates differentiable scene representations of rich semantics in object and affordance, which is dynamically learned on the fly and facilitates navigation planning. Besides, we propose dual-level coarse-to-fine action controls leveraging both global and local cues to accomplish mobile manipulation tasks efficiently. DISCO easily integrates into embodied tasks such as embodied instruction following. To validate our approach, we take the ALFRED benchmark of large-scale long-horizon vision-language navigation and interaction tasks as a test bed. In extensive experiments, we make comprehensive evaluations and demonstrate that DISCO outperforms the art by a sizable +8.6% success rate margin in unseen scenes, even without step-by-step instructions. Our code is publicly released at https://github.com/AllenXuuu/DISCO. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# L2O-$g^{\dagger}$:Fubini-Study Metric Tensorを用いたパラメータ化量子回路の最適化学習
L2O-$g^{\dagger}$: Learning to Optimize Parameterized Quantum Circuits with Fubini-Study Metric Tensor ( http://arxiv.org/abs/2407.14761v1 ) ライセンス: Link先を確認 | Yu-Chao Huang, Hsi-Sheng Goan, | (参考訳) フォールトトレラント量子コンピュータが出現する以前、変分量子アルゴリズム(VQA)はノイズの多い中間スケール量子(NISQ)マシンにおいて重要な役割を担っていた。
従来、VQAの最適化は主に手動設計の最適化に頼っていた。
しかし、L2O(Learning to Optimization)は、手作りオプティマイザを置き換えるために小さなニューラルネットワークをトレーニングすることで、素晴らしいパフォーマンスを示す。
本稿では,Fubini-Studyメートル法テンソル(g^{\dagger}$)と長期短期記憶ネットワークを利用したL2O-$g^{\dagger}$, a $\textit{quantum-aware}$学習オプティマイザを提案する。
理論的には、ルックアヘッドオプティマイザにインスパイアされた更新方程式を導出し、学習したオプティマイザに最適化ランドスケープの量子幾何学を組み込んで、高速収束と一般化のバランスをとる。
経験的に、我々は様々なVQA問題にまたがる総合的な実験を行っている。
その結果、L2O-$g^{\dagger}$は、現在のSOTAハンドデザインオプティマイザをハイパーパラメータチューニングなしで上回るだけでなく、以前のL2Oオプティマイザと比較して分布外一般化が強いことを示した。
単一の汎用PQCインスタンス上でL2O-$g^{\dagger}$をトレーニングすることでこれを実現する。
我々の小説 $\textit{quantum-aware}$ learn optimizationr, L2O-$g^{\dagger}$ は、VQAの課題に対処する進歩を示し、NISQ時代の貴重なツールである。
Before the advent of fault-tolerant quantum computers, variational quantum algorithms (VQAs) play a crucial role in noisy intermediate-scale quantum (NISQ) machines. Conventionally, the optimization of VQAs predominantly relies on manually designed optimizers. However, learning to optimize (L2O) demonstrates impressive performance by training small neural networks to replace handcrafted optimizers. In our work, we propose L2O-$g^{\dagger}$, a $\textit{quantum-aware}$ learned optimizer that leverages the Fubini-Study metric tensor ($g^{\dagger}$) and long short-term memory networks. We theoretically derive the update equation inspired by the lookahead optimizer and incorporate the quantum geometry of the optimization landscape in the learned optimizer to balance fast convergence and generalization. Empirically, we conduct comprehensive experiments across a range of VQA problems. Our results demonstrate that L2O-$g^{\dagger}$ not only outperforms the current SOTA hand-designed optimizer without any hyperparameter tuning but also shows strong out-of-distribution generalization compared to previous L2O optimizers. We achieve this by training L2O-$g^{\dagger}$ on just a single generic PQC instance. Our novel $\textit{quantum-aware}$ learned optimizer, L2O-$g^{\dagger}$, presents an advancement in addressing the challenges of VQAs, making it a valuable tool in the NISQ era. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# グラフニューラルネットワークにおけるデータ拡張:生成した合成グラフの役割
Data Augmentation in Graph Neural Networks: The Role of Generated Synthetic Graphs ( http://arxiv.org/abs/2407.14765v1 ) ライセンス: Link先を確認 | Sumeyye Bas, Kiymet Kaya, Resul Tugay, Sule Gunduz Oguducu, | (参考訳) グラフは、関係するデータを表現し、複雑な関係をキャプチャして予測モデリングを支援するために不可欠である。
リンクパターンを識別するためには、高品質なグラフ表現を実現することが重要であり、データ構造をよりよくキャプチャするためのグラフニューラルネットワーク(GNN)の改善につながっている。
しかし、データの不足、高い収集コスト、倫理的懸念といった課題は進歩を制限する。
その結果、生成モデルとデータ拡張がますます人気になっている。
本研究では,生成グラフをデータ拡張に利用し,生成グラフと実グラフとの組合せ性能を比較し,生成グラフの量の違いがグラフ分類タスクに与える影響について検討する。
実験によると、スケーラビリティと品質のバランスをとるには、グラフのサイズに基づいて異なるジェネレータが必要である。
その結果,グラフデータの拡張,一貫性のあるラベルの確保,分類性能の向上など,新たなアプローチが導入された。
Graphs are crucial for representing interrelated data and aiding predictive modeling by capturing complex relationships. Achieving high-quality graph representation is important for identifying linked patterns, leading to improvements in Graph Neural Networks (GNNs) to better capture data structures. However, challenges such as data scarcity, high collection costs, and ethical concerns limit progress. As a result, generative models and data augmentation have become more and more popular. This study explores using generated graphs for data augmentation, comparing the performance of combining generated graphs with real graphs, and examining the effect of different quantities of generated graphs on graph classification tasks. The experiments show that balancing scalability and quality requires different generators based on graph size. Our results introduce a new approach to graph data augmentation, ensuring consistent labels and enhancing classification performance. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# フェアネスを実践する - FairDreamからの視点
Implementing Fairness: the view from a FairDream ( http://arxiv.org/abs/2407.14766v1 ) ライセンス: Link先を確認 | Thomas Souverain, Johnathan Nguyen, Nicolas Meric, Paul Égré, | (参考訳) 本稿では,分類におけるAIフェアネスの問題について実験的に検討する。
私たちはAIモデルをトレーニングし、不平等を検出するために独自の公正パッケージFairDreamを開発し、その後、収入予測をケーススタディとして使用して修正します。
実験の結果,FairDreamは,アルゴリズムがグループ間で正を等化するタスク(デモグラフィパリティ)を設定された場合でも,基礎的真理(等化オッド)に条件づけられた公平性目標を満たす特性であることがわかった。
これは異常と見なされるかもしれないが、我々は我々のアプローチと密接に関連する公正度法(GridSearch)を比較して、等化オッドを犠牲にして、デモグラフィックパリティを強制できる性質を説明する。
我々は、真のラベルに条件付けされた公正度メートル法は、公正度に到達するのに十分な基準を与えていないことを許すが、少なくともデモグラフィックパリティを慎重に実施するために必要な条件を与えると論じる。
また, 等式校正や等式精度は, 分類において有意な公平性基準として位置づけられていない理由についても説明する。
いかなる不利益率についても意思決定者に警告する制限に対処するため、平等化されたオッドは厳格な保守主義の危険性を回避し、アルゴリズムを通じて資源の再分配のユートピアを排除した。
In this paper, we propose an experimental investigation of the problem of AI fairness in classification. We train an AI model and develop our own fairness package FairDream to detect inequalities and then to correct for them, using income prediction as a case study. Our experiments show that it is a property of FairDream to fulfill fairness objectives which are conditional on the ground truth (Equalized Odds), even when the algorithm is set the task of equalizing positives across groups (Demographic Parity). While this may be seen as an anomaly, we explain this property by comparing our approach with a closely related fairness method (GridSearch), which can enforce Demographic Parity at the expense of Equalized Odds. We grant that a fairness metric conditioned on true labels does not give a sufficient criterion to reach fairness, but we argue that it gives us at least a necessary condition to implement Demographic Parity cautiously. We also explain why neither Equal Calibration nor Equal Precision stand as relevant fairness criteria in classification. Addressing their limitations to warn the decision-maker for any disadvantaging rate, Equalized Odds avoids the peril of strict conservatism, while keeping away the utopia of a whole redistribution of resources through algorithms. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# 非西洋文化を表現しながらAIモデルを出力する:コミュニティ中心のアプローチによるエビデンス
Do Generative AI Models Output Harm while Representing Non-Western Cultures: Evidence from A Community-Centered Approach ( http://arxiv.org/abs/2407.14779v1 ) ライセンス: Link先を確認 | Sourojit Ghosh, Pranav Narayanan Venkit, Sanjana Gautam, Shomir Wilson, Aylin Caliskan, | (参考訳) 本研究では,生成人工知能(GAI)モデル,特にテキスト・ツー・イメージ・ジェネレータ(T2Is)が非西洋文化の表現に与える影響を,インドの文脈に焦点をあてて検討した。
コンテンツ生成におけるT2Isのトランスフォーメーションの可能性にもかかわらず、誤った表現や限界化につながる可能性のあるバイアスに関する懸念が持ち上がっている。
コミュニティ中心のアプローチと、多様なインドのサブカルチャーからの5つの焦点グループの理論分析を通じて、インド文化とそのサブカルチャーをT2Iアウトプットがどう表現するかを探求し、エキゾチックや文化的不適切な文化といった新しい表現的害を明らかにする。
これらの知見は、包括的で文化的に敏感なT2Iシステムに対する緊急の必要性を浮き彫りにしている。
我々は,これらの課題に対処し,より公平で代表的なGAI技術の発展に寄与することを目指して,社会工学的な観点から情報提供されたデザインガイドラインを提案する。
我々の研究は、これらのモデルの社会技術的ダイナミクスを理解するために、コミュニティ中心のアプローチを採用することの必要性を強調し、この領域における既存の作業を補完するとともに、これらのモデルがグローバルな規模に展開されたときに生じる潜在的な負の反感と害を特定し、対処する。
Our research investigates the impact of Generative Artificial Intelligence (GAI) models, specifically text-to-image generators (T2Is), on the representation of non-Western cultures, with a focus on Indian contexts. Despite the transformative potential of T2Is in content creation, concerns have arisen regarding biases that may lead to misrepresentations and marginalizations. Through a community-centered approach and grounded theory analysis of 5 focus groups from diverse Indian subcultures, we explore how T2I outputs to English prompts depict Indian culture and its subcultures, uncovering novel representational harms such as exoticism and cultural misappropriation. These findings highlight the urgent need for inclusive and culturally sensitive T2I systems. We propose design guidelines informed by a sociotechnical perspective, aiming to address these issues and contribute to the development of more equitable and representative GAI technologies globally. Our work also underscores the necessity of adopting a community-centered approach to comprehend the sociotechnical dynamics of these models, complementing existing work in this space while identifying and addressing the potential negative repercussions and harms that may arise when these models are deployed on a global scale. | 翻訳日:2024-07-23 21:04:01 公開日:2024-07-20 |
# 助けが必要! LLM のユーザサポートに対する質問能力の評価:テキストからSQL生成を事例として
I Need Help! Evaluating LLM's Ability to Ask for Users' Support: A Case Study on Text-to-SQL Generation ( http://arxiv.org/abs/2407.14767v1 ) ライセンス: Link先を確認 | Cheng-Kuang Wu, Zhi Rui Tam, Chao-Chung Wu, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen, | (参考訳) 本研究では,テキスト-SQL 生成を事例として,LCM がユーザサポートを求める積極的な能力について検討する。
本稿では,性能改善とユーザ負担のトレードオフを評価する指標を提案し,LLMがいつ支援を要請するかを判断し,その性能を様々なレベルの情報提供量で検証できるかどうかを検討する。
実験の結果、外部からのフィードバックがなければ、多くのLCMは追加的なサポートの必要性を認識するのに苦労していることがわかった。
本研究は, 外部信号の重要性を強調し, 今後の支援探索戦略の改善に向けた知見を提供するものである。
In this study, we explore the proactive ability of LLMs to seek user support, using text-to-SQL generation as a case study. We propose metrics to evaluate the trade-off between performance improvements and user burden, and investigate whether LLMs can determine when to request help and examine their performance with varying levels of information availability. Our experiments reveal that without external feedback, many LLMs struggle to recognize their need for additional support. Our findings highlight the importance of external signals and provide insights for future research on improving support-seeking strategies. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# Teach Harder, Learn Poorer: Rethinking Hard Sample Distillation for GNN-to-MLP Knowledge Distillation
Teach Harder, Learn Poorer: Rethinking Hard Sample Distillation for GNN-to-MLP Knowledge Distillation ( http://arxiv.org/abs/2407.14768v1 ) ライセンス: Link先を確認 | Lirong Wu, Yunfan Liu, Haitao Lin, Yufei Huang, Stan Z. Li, | (参考訳) 強力なグラフニューラルネットワーク(GNN)と軽量マルチ層パーセプトロン(MLP)のギャップを埋めるために、GNN-to-MLP知識蒸留(KD)は、よく訓練された教師GNNからの知識を学生MLPに抽出することを提案する。
本稿では,教師のGNNにおける知識サンプル(ノード)を硬度の観点から再検討し,硬度サンプルの蒸留が既存のグラフKDアルゴリズムの主要な性能ボトルネックである可能性を確かめる。
GNN-to-MLP KDは、GNN知識の本質的な複雑さを記述した学生なしの知識硬度と、教師から学生への蒸留の難しさを記述した学生依存の蒸留硬度の2つの異なる種類からなる。
しかしながら、既存の作業のほとんどは、これらの側面の1つだけに焦点を当てたり、それらを1つと見なしている。
本稿では, 単純かつ効果的なGNN-to-MLP蒸留(HGMD)フレームワークを提案する。
最後に、教師のGNNから生徒のMLPのノードにハードネス対応の知識を蒸留するために、2つのハードネス対応蒸留スキーム(HGMD-weightとHGMD-mixup)が提案されている。
非パラメトリック蒸留法として、HGMDは学生のMLP以外の追加の学習可能なパラメータは含まないが、依然として最先端の競争相手のほとんどを上回っている。
HGMD-mixupはバニラMLPを12.95%改善し、教師のGNNを7つの実世界のデータセットで平均2.48%上回っている。
To bridge the gaps between powerful Graph Neural Networks (GNNs) and lightweight Multi-Layer Perceptron (MLPs), GNN-to-MLP Knowledge Distillation (KD) proposes to distill knowledge from a well-trained teacher GNN into a student MLP. In this paper, we revisit the knowledge samples (nodes) in teacher GNNs from the perspective of hardness, and identify that hard sample distillation may be a major performance bottleneck of existing graph KD algorithms. The GNN-to-MLP KD involves two different types of hardness, one student-free knowledge hardness describing the inherent complexity of GNN knowledge, and the other student-dependent distillation hardness describing the difficulty of teacher-to-student distillation. However, most of the existing work focuses on only one of these aspects or regards them as one thing. This paper proposes a simple yet effective Hardness-aware GNN-to-MLP Distillation (HGMD) framework, which decouples the two hardnesses and estimates them using a non-parametric approach. Finally, two hardness-aware distillation schemes (i.e., HGMD-weight and HGMD-mixup) are further proposed to distill hardness-aware knowledge from teacher GNNs into the corresponding nodes of student MLPs. As non-parametric distillation, HGMD does not involve any additional learnable parameters beyond the student MLPs, but it still outperforms most of the state-of-the-art competitors. HGMD-mixup improves over the vanilla MLPs by 12.95% and outperforms its teacher GNNs by 2.48% averaged over seven real-world datasets. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# 局所光周波数標準を用いた測定後ペアリング量子鍵分布
Post-Measurement Pairing Quantum Key Distribution with Local Optical Frequency Standard ( http://arxiv.org/abs/2407.14771v1 ) ライセンス: Link先を確認 | Chengfang Ge, Lai Zhou, Jinping Lin, Hua-Lei Yin, Qiang Zeng, Zhiliang Yuan, | (参考訳) 測定後一致ペアリングのアイデアは、ユーザのレーザーの差分位相を追跡する必要をなくし、QKD(long-distance, repeater-like quantum key distribution)を大幅に単純化する。
しかし、光周波数追跡は依然として必要であり、将来のマルチノード量子ネットワークの展開において深刻な負担となる可能性がある。
ここでは、各ユーザのレーザーを絶対周波数標準に参照し、長期間の安定性に優れた実測後ペアリングQKDを実証することにより、この問題を解決する。
我々は、セットアップのリピータライクな動作を確認し、504km以上の15.94ビット/sの有限サイズセキュアキーレート(SKR)を達成する。
繊維長100kmで、285.68 kbit/sの印象的なSKRを提供する。
我々の研究は、局所周波数標準による効率的なミューティユーザ量子ネットワークへの道を開くものである。
The idea of post-measurement coincidence pairing simplifies substantially long-distance, repeater-like quantum key distribution (QKD) by eliminating the need for tracking the differential phase of the users' lasers. However, optical frequency tracking remains necessary and can become a severe burden in future deployment of multi-node quantum networks. Here, we resolve this problem by referencing each user's laser to an absolute frequency standard and demonstrate a practical post-measurement pairing QKD with excellent long-term stability. We confirm the setup's repeater-like behavior and achieve a finite-size secure key rate (SKR) of 15.94 bit/s over 504 km fiber, which overcomes the absolute repeaterless bound by 1.28 times. Over a fiber length 100 km, the setup delivers an impressive SKR of 285.68 kbit/s. Our work paves the way towards an efficient muti-user quantum network with the local frequency standard. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# 改良された画像分類のためのサブグラフクラスタリングと原子学習
Subgraph Clustering and Atom Learning for Improved Image Classification ( http://arxiv.org/abs/2407.14772v1 ) ライセンス: Link先を確認 | Aryan Singh, Pepijn Van de Ven, Ciarán Eising, Patrick Denny, | (参考訳) 本研究では,特徴抽出のための畳み込みニューラルネットワーク(CNN)と構造モデリングのためのグラフニューラルネットワーク(GNN)の強みを組み合わせた,新しいハイブリッド画像分類モデルであるグラフサブグラフネットワーク(GSN)を提案する。
GSNはk平均クラスタリングを使用してグラフノードをクラスタにグループ化し、サブグラフの作成を容易にする。
これらのサブグラフは、辞書学習の代表的な『原子』を学習するために利用され、スパースでクラス区別可能な特徴の識別を可能にする。
この統合されたアプローチは、医用画像のような領域で特に重要であり、微妙な特徴の違いを識別することが正確な分類に不可欠である。
提案したGSNの性能を評価するため,PascalVOCやHAM10000といったベンチマークデータセットの実験を行った。
本研究は, 各種クラスにまたがる辞書構成を最適化する上で, 本モデルの有効性を示すものである。
この性能向上は、主にCNN、GNN、グラフ学習技術の統合によるものであり、ラベル付き例が限定されたデータセットの処理を総合的に改善している。
具体的には,従来のCNN手法と比較して,Pascal VOCやHAM10000といったベンチマークデータセットの方が精度が高いことを示す。
In this study, we present the Graph Sub-Graph Network (GSN), a novel hybrid image classification model merging the strengths of Convolutional Neural Networks (CNNs) for feature extraction and Graph Neural Networks (GNNs) for structural modeling. GSN employs k-means clustering to group graph nodes into clusters, facilitating the creation of subgraphs. These subgraphs are then utilized to learn representative `atoms` for dictionary learning, enabling the identification of sparse, class-distinguishable features. This integrated approach is particularly relevant in domains like medical imaging, where discerning subtle feature differences is crucial for accurate classification. To evaluate the performance of our proposed GSN, we conducted experiments on benchmark datasets, including PascalVOC and HAM10000. Our results demonstrate the efficacy of our model in optimizing dictionary configurations across varied classes, which contributes to its effectiveness in medical classification tasks. This performance enhancement is primarily attributed to the integration of CNNs, GNNs, and graph learning techniques, which collectively improve the handling of datasets with limited labeled examples. Specifically, our experiments show that the model achieves a higher accuracy on benchmark datasets such as Pascal VOC and HAM10000 compared to conventional CNN approaches. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# Intelligent Artic Typography:Articic Text Design and Generationの総合的レビュー
Intelligent Artistic Typography: A Comprehensive Review of Artistic Text Design and Generation ( http://arxiv.org/abs/2407.14774v1 ) ライセンス: Link先を確認 | Yuhang Bai, Zichuan Huang, Wenshuo Gao, Shuai Yang, Jiaying Liu, | (参考訳) アーティスティックテキスト生成は、可読性を維持しながら、テキストの美的品質を増幅することを目的としている。
テキストをより魅力的に表現しやすくすることで、ソーシャルメディアディスプレイ、消費者電子製品、ファッション、グラフィックデザインといった幅広い応用シナリオを楽しむことができる。
アートテキスト生成には、アートテキストスタイリングとセマンティックタイポグラフィが含まれる。
芸術的なテキストスタイリングは、影、輪郭、色、光、テクスチャなど、テキスト上のテキスト効果に重点を置いている。
比較すると、意味型付けは文字の変形に焦点を当て、テキスト内の意味的理解を模倣することで視覚的表現を強化する。
本稿では, 分類学, 代表的手法のキーアイデア, 静的, 動的テキスト生成への応用など, テクストのスタイラス化と意味型付けの両面について紹介する。
さらに、データセットと評価指標を導入し、芸術的テキスト生成の今後の方向性について論じる。
このレビューで研究された芸術テキスト生成モデルの包括的なリストはhttps://github.com/williamyang1991/Awesome-Artistic-Typography/で公開されている。
Artistic text generation aims to amplify the aesthetic qualities of text while maintaining readability. It can make the text more attractive and better convey its expression, thus enjoying a wide range of application scenarios such as social media display, consumer electronics, fashion, and graphic design. Artistic text generation includes artistic text stylization and semantic typography. Artistic text stylization concentrates on the text effect overlaid upon the text, such as shadows, outlines, colors, glows, and textures. By comparison, semantic typography focuses on the deformation of the characters to strengthen their visual representation by mimicking the semantic understanding within the text. This overview paper provides an introduction to both artistic text stylization and semantic typography, including the taxonomy, the key ideas of representative methods, and the applications in static and dynamic artistic text generation. Furthermore, the dataset and evaluation metrics are introduced, and the future directions of artistic text generation are discussed. A comprehensive list of artistic text generation models studied in this review is available at https://github.com/williamyang1991/Awesome-Artistic-Typography/. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# 仮想Zゲートと対称ゲートコンパイル
Virtual Z gates and symmetric gate compilation ( http://arxiv.org/abs/2407.14782v1 ) ライセンス: Link先を確認 | Arian Vezvaee, Vinay Tripathi, Daria Kowsari, Eli Levenson-Falk, Daniel A. Lidar, | (参考訳) 仮想Zゲートは超伝導系に限らず、様々なプラットフォーム上で量子ゲートを実行するための重要なツールとして確立されている。
多くのプラットホームは、Xゲートと仮想Zゲートの組み合わせを使用して、校正ゲートの限られたセットを提供し、Yゲートのような他のゲートをコンパイルする。
ここでは、オープンな量子システム設定において、コンパイル方法が重要な結果をもたらすことを示す。
具体的には、仮想Z回転に関して対称なコンパイルを選択することが重要であることを実験的に示す。
これは動的デカップリング(DD)配列において特に顕著であり、不適切なゲート分解は間違ったシーケンスの実装のような意図しない効果をもたらす。
以上の結果より,DDの性能は仮想Zゲートの誤使用によって悪影響を及ぼし,他のコヒーレントパルスエラーを併発していることが示唆された。
さらに、コヒーレントエラーの別の原因、すなわち、互いに近づきすぎる連続パルス間の干渉を同定する。
この研究は、一般的な量子ゲートの性能を改善し、特にDDシーケンスを最適化するための洞察を提供する。
The virtual Z gate has been established as an important tool for performing quantum gates on various platforms, including but not limited to superconducting systems. Many such platforms offer a limited set of calibrated gates and compile other gates, such as the Y gate, using combinations of X and virtual Z gates. Here, we show that the method of compilation has important consequences in an open quantum system setting. Specifically, we experimentally demonstrate that it is crucial to choose a compilation that is symmetric with respect to virtual Z rotations. This is particularly pronounced in dynamical decoupling (DD) sequences, where improper gate decomposition can result in unintended effects such as the implementation of the wrong sequence. Our findings indicate that in many cases the performance of DD is adversely affected by the incorrect use of virtual Z gates, compounding other coherent pulse errors. In addition, we identify another source of coherent errors: interference between consecutive pulses that follow each other too closely. This work provides insights into improving general quantum gate performance and optimizing DD sequences in particular. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# MedMAE:医療画像タスクのための自己監督型バックボーン
MedMAE: A Self-Supervised Backbone for Medical Imaging Tasks ( http://arxiv.org/abs/2407.14784v1 ) ライセンス: Link先を確認 | Anubhav Gupta, Islam Osman, Mohamed S. Shehata, John W. Braun, | (参考訳) ラベル付きデータセットが公開されていないため、医療画像タスクは非常に難しい。
したがって、大量のラベル付きデータセットを効果的にトレーニングする必要があるため、既存のディープラーニングモデルで高いパフォーマンスを達成するのは難しい。
別の解決策は、事前訓練されたモデルを使用して、医療画像データセットを使用してそれらを微調整することである。
しかし、既存のモデルはすべて、医学画像とは全く異なる領域である自然画像を用いて事前訓練されており、ドメインシフトによるパフォーマンスの低下につながっている。
これらの問題を解決するために,Masked Autoencoderと呼ばれる自己教師型学習手法を用いて,医療画像の大規模未ラベルデータセットと,提案したデータセットを用いて事前学習したバックボーンを提案する。
このバックボーンは、様々な種類の医療画像の視覚的表現を学ぶために訓練されるため、あらゆる医療画像タスクの事前訓練されたモデルとして使用することができる。
提案したバックボーンの性能を評価するために,4種類の医療画像を用いた。
結果は既存の事前学習モデルと比較される。
これらの実験は,医療画像のタスクにおいて提案した背骨の優位性を示すものである。
Medical imaging tasks are very challenging due to the lack of publicly available labeled datasets. Hence, it is difficult to achieve high performance with existing deep-learning models as they require a massive labeled dataset to be trained effectively. An alternative solution is to use pre-trained models and fine-tune them using the medical imaging dataset. However, all existing models are pre-trained using natural images, which is a completely different domain from that of medical imaging, which leads to poor performance due to domain shift. To overcome these problems, we propose a large-scale unlabeled dataset of medical images and a backbone pre-trained using the proposed dataset with a self-supervised learning technique called Masked autoencoder. This backbone can be used as a pre-trained model for any medical imaging task, as it is trained to learn a visual representation of different types of medical images. To evaluate the performance of the proposed backbone, we used four different medical imaging tasks. The results are compared with existing pre-trained models. These experiments show the superiority of our proposed backbone in medical imaging tasks. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# LLMアルゴリズムの設計と解析について
On the Design and Analysis of LLM-Based Algorithms ( http://arxiv.org/abs/2407.14788v1 ) ライセンス: Link先を確認 | Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou, | (参考訳) 我々はLLMに基づくアルゴリズムの設計と解析、すなわち1つまたは複数の大言語モデル(LLM)をサブルーチンとして含むアルゴリズムの設計と解析を正式に開始し、LLMの能力に批判的に依存する。
LLMベースのアルゴリズムは、簡単なLLM呼び出しから複雑なLLM駆動エージェントシステムや複合AIシステムまで、驚くほど成功したが、それらの設計と最適化はヒューリスティックやトライアル・アンド・エラーに大きく依存している。
このギャップを埋めるために、LLMのブラックボックスの性質にもかかわらず、LLMベースのアルゴリズムの計算グラフ表現、タスク分解の設計原理、およびLLMベースのアルゴリズムの精度と効率のフォーマルな解析を容易にする重要な抽象化の特定から始める。
さらに,ケーススタディにおける並列分解について考察し,このパターンの4つの具体例について解析的および実証的研究を行った。
提案フレームワークは,興味深い経験的現象の背景にある理由を明らかにし,ハイパーパラメータの選択を導き,アルゴリズムの経験的性能を予測し,新しいアルゴリズム設計を創出することによって,LLMベースのアルゴリズムを進化させる可能性を秘めている。
LLMアルゴリズムのさらなる研究を促進するため、ソースコードはhttps://github.com/modelscope/agentscope/tree/main/examples/paper_llm_based_algorithmで公開しています。
We initiate a formal investigation into the design and analysis of LLM-based algorithms, i.e. algorithms that contain one or multiple calls of large language models (LLMs) as sub-routines and critically rely on the capabilities of LLMs. While LLM-based algorithms, ranging from basic LLM calls with prompt engineering to complicated LLM-powered agent systems and compound AI systems, have achieved remarkable empirical success, the design and optimization of them have mostly relied on heuristics and trial-and-errors, which is largely due to a lack of formal and analytical study for these algorithms. To fill this gap, we start by identifying the computational-graph representation of LLM-based algorithms, the design principle of task decomposition, and some key abstractions, which then facilitate our formal analysis for the accuracy and efficiency of LLM-based algorithms, despite the black-box nature of LLMs. We further consider parallel decomposition for a case study, providing extensive analytical and empirical study for four concrete examples of this pattern. Our proposed framework holds promise for advancing LLM-based algorithms, by revealing the reasons behind curious empirical phenomena, guiding the choices of hyperparameters, predicting the empirical performance of algorithms, and inspiring new algorithm design. To promote further study of LLM-based algorithms, we release our source code at https://github.com/modelscope/agentscope/tree/main/examples/paper_llm_based_algorithm. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# PERCORE: ペルシャ語の音声分析による誤り訂正のための深層学習型フレームワーク
PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis ( http://arxiv.org/abs/2407.14789v1 ) ライセンス: Link先を確認 | Seyed Mohammad Sadegh Dashti, Amid Khatibi Bardsiri, Mehdi Jafari Shahbazzadeh, | (参考訳) 本研究では,ペルシャ語に対する自然言語処理(NLP)の精度と効率を大幅に向上させ,深層学習技術と音声解析をシームレスに統合するペルシャ語スペル訂正システムを提案する。
提案手法は,微調整言語表現モデルを用いて,文脈分析と音韻的洞察を効果的に組み合わせ,非単語と実単語の綴り誤りを積極的に補正する。
この戦略はペルシャ語の綴りの独特な複雑さに取り組むのに特に有効であり、その精巧な形態学やホモフォニーの挑戦を含んでいる。
広帯域データセットの徹底的な評価により,実単語誤り検出用F1スコアが0.890,修正用0.905,既存手法と比較してシステムの性能が向上した。
さらに,非単語誤り訂正において,F1スコアが0.891であることを示す。
これらの結果は,スペル訂正のための深層学習モデルに音声学的洞察を取り入れることの意義を示唆している。
我々の貢献は、様々なNLPアプリケーションに汎用的なソリューションを提供することによってペルシア語処理を前進させるだけでなく、音韻解析が効果的な綴り訂正システムを開発する上で重要な役割を担っている分野における将来の研究の道を開くことでもある。
This research introduces a state-of-the-art Persian spelling correction system that seamlessly integrates deep learning techniques with phonetic analysis, significantly enhancing the accuracy and efficiency of natural language processing (NLP) for Persian. Utilizing a fine-tuned language representation model, our methodology effectively combines deep contextual analysis with phonetic insights, adeptly correcting both non-word and real-word spelling errors. This strategy proves particularly effective in tackling the unique complexities of Persian spelling, including its elaborate morphology and the challenge of homophony. A thorough evaluation on a wide-ranging dataset confirms our system's superior performance compared to existing methods, with impressive F1-Scores of 0.890 for detecting real-word errors and 0.905 for correcting them. Additionally, the system demonstrates a strong capability in non-word error correction, achieving an F1-Score of 0.891. These results illustrate the significant benefits of incorporating phonetic insights into deep learning models for spelling correction. Our contributions not only advance Persian language processing by providing a versatile solution for a variety of NLP applications but also pave the way for future research in the field, emphasizing the critical role of phonetic analysis in developing effective spelling correction system. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# グリッドパズル解決のためのステップバイステップ推論: LLMはFalterとは?
Step-by-Step Reasoning to Solve Grid Puzzles: Where do LLMs Falter? ( http://arxiv.org/abs/2407.14790v1 ) ライセンス: Link先を確認 | Nemika Tyagi, Mihir Parmar, Mohith Kulkarni, Aswin RRV, Nisarg Patel, Mutsumi Nakamura, Arindam Mitra, Chitta Baral, | (参考訳) グリッドパズルを解くには、かなりの量の論理的推論が必要となる。
したがって、モデルの推論能力を評価することは良いドメインであり、モデルの推論能力を改善するために私たちを導くことができる。
しかし、既存のほとんどの研究は、LLMの推論連鎖の詳細な分析(例えば、その分岐点など)を掘り下げたり、それらを評価するためのより詳細な指標を提供することなく、パズルの最終的な解のみを評価する。
LLMは単純なヒューリスティックやアーティファクトに頼って最終解を予測できるため、LLMの推論能力を正確に評価するためには、全体的な正当性測定以上の推論連鎖を評価することが重要である。
この目的のために、まずGridPuzzleを開発した。これは、複雑度が異なる274のグリッドベースのパズルからなる評価データセットである。
第2に, GPT-4, Claude-3, Gemini, Mistral, Llama-2 など LLM の推論鎖を手動で解析した新しい誤り分類法を提案する。
そこで我々は,大規模主観的評価(すなわち誤りの特定)のためのLLMベースのフレームワークと客観的な指標であるPuzzleEvalを開発し,推論連鎖の正しさを評価する。
LLMから推論鎖を評価することは、いくつかの興味深い発見につながる。
さらに、モデルの推論能力を向上させるために使われている既存のプロンプト手法は、GridPuzzleの性能を向上しないことを示す。
このことは、細粒度エラーを理解することの重要性を強調し、これらのエラーに対処する手法を開発することにより、LLMのパズル解決能力を高めるための今後の研究課題を示す。
データとソースコードはhttps://github.com/Mihir3009/GridPuzzle.comで入手できる。
Solving grid puzzles involves a significant amount of logical reasoning. Hence, it is a good domain to evaluate the reasoning capability of a model which can then guide us to improve the reasoning ability of models. However, most existing works evaluate only the final predicted answer of a puzzle, without delving into an in-depth analysis of the LLMs' reasoning chains (such as where they falter) or providing any finer metrics to evaluate them. Since LLMs may rely on simple heuristics or artifacts to predict the final answer, it is crucial to evaluate the generated reasoning chain beyond overall correctness measures, for accurately evaluating the reasoning abilities of LLMs. To this end, we first develop GridPuzzle, an evaluation dataset comprising 274 grid-based puzzles with different complexities. Second, we propose a new error taxonomy derived from manual analysis of reasoning chains from LLMs including GPT-4, Claude-3, Gemini, Mistral, and Llama-2. Then, we develop an LLM-based framework for large-scale subjective evaluation (i.e., identifying errors) and an objective metric, PuzzleEval, to evaluate the correctness of reasoning chains. Evaluating reasoning chains from LLMs leads to several interesting findings. We further show that existing prompting methods used for enhancing models' reasoning abilities do not improve performance on GridPuzzle. This highlights the importance of understanding fine-grained errors and presents a challenge for future research to enhance LLMs' puzzle-solving abilities by developing methods that address these errors. Data and source code are available at https://github.com/Mihir3009/GridPuzzle. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# FedPartWhole: 一貫性のある部分全体階層によるドメインの一般化
FedPartWhole: Federated domain generalization via consistent part-whole hierarchies ( http://arxiv.org/abs/2407.14792v1 ) ライセンス: Link先を確認 | Ahmed Radwan, Mohamed S. Shehata, | (参考訳) Federated Domain Generalization(FedDG)は、さまざまなクライアントに起源を持つさまざまなドメインから集中的なデータストレージを防止する、データプライバシの制約に対処しながら、テスト時に見えないドメインを一般化するという課題に取り組むことを目的としている。
既存のアプローチは、ドメインアライメント、データ操作、学習戦略、モデルの集約重みの最適化の4つのグループに大別できる。
本稿では、バックボーンモデルアーキテクチャの観点から、この問題に対処するフェデレーションドメイン一般化に対する新しいアプローチを提案する。
中心となる原理は、実質的な領域シフトや外見の変化の下でも、オブジェクトは部分と全体の一貫した階層構造を維持することである。
例えば、犬の写真やスケッチは、頭、体、手足などからなる同じ階層構造を共有している。
導入されたアーキテクチャでは、イメージパースツリーの機能表現が明示的に組み込まれている。
私たちの知る限りでは、モデルアーキテクチャの観点からFederated Domain Generalizationに取り組む最初の作業です。
提案手法は, パラメータが少ないにもかかわらず, 比較可能な大きさの畳み込みアーキテクチャを 12 % 以上上回る性能を示した。
さらに、CNNのブラックボックスの性質とは対照的に本質的に解釈可能であり、フェデレートラーニングにおいて重要な資産である予測への信頼を促進する。
Federated Domain Generalization (FedDG), aims to tackle the challenge of generalizing to unseen domains at test time while catering to the data privacy constraints that prevent centralized data storage from different domains originating at various clients. Existing approaches can be broadly categorized into four groups: domain alignment, data manipulation, learning strategies, and optimization of model aggregation weights. This paper proposes a novel approach to Federated Domain Generalization that tackles the problem from the perspective of the backbone model architecture. The core principle is that objects, even under substantial domain shifts and appearance variations, maintain a consistent hierarchical structure of parts and wholes. For instance, a photograph and a sketch of a dog share the same hierarchical organization, consisting of a head, body, limbs, and so on. The introduced architecture explicitly incorporates a feature representation for the image parse tree. To the best of our knowledge, this is the first work to tackle Federated Domain Generalization from a model architecture standpoint. Our approach outperforms a convolutional architecture of comparable size by over 12\%, despite utilizing fewer parameters. Additionally, it is inherently interpretable, contrary to the black-box nature of CNNs, which fosters trust in its predictions, a crucial asset in federated learning. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# ペルシャ語テキストにおける単語誤りの自動訂正
Automatic Real-word Error Correction in Persian Text ( http://arxiv.org/abs/2407.14795v1 ) ライセンス: Link先を確認 | Seyed Mohammad Sadegh Dashti, Amid Khatibi Bardsiri, Mehdi Jafari Shahbazzadeh, | (参考訳) 自動スペル補正は、自然言語処理(NLP)における重要な課題であり、ニュアンス付き解を必要とする。
伝統的な綴り補正技術は典型的には、タイプミスやミススペルのような非単語エラーを検出して修正するだけである。
しかし、実単語エラーとしても知られる文脈に敏感なエラーは、与えられた文脈で誤って使用される有効な単語であるため、より検出するのが困難である。
ペルシア語は、その豊富な形態と複雑な構文を特徴とし、自動綴り訂正システムに重大な課題を呈している。
さらに、ペルシア語のリソースが限られているため、効果的な綴り補正モデルを訓練することは困難である。
本稿では,ペルシャ語テキストにおける高精度かつ効率的な実単語誤り訂正のための最先端手法を提案する。
提案手法では, 意味解析, 特徴選択, 高度な分類器を応用し, 誤り検出と訂正の精度を高める。
この革新的なアーキテクチャは、ペルシャ語のテキストで単語とフレーズのセマンティックな類似性を発見し、保存する。
分類器は、実単語の誤りを正確に識別し、意味ランキングアルゴリズムは、文脈、意味的類似性、編集距離測定などのコンテキスト特性を考慮し、実単語の誤りの最も確率の高い補正を決定する。
提案手法は,従来のペルシャ語実単語誤り訂正モデルより優れていることを示す。
本手法は,検出段階で96.6%,補正時に99.1%の精度でF測定を行う。
これらの結果から,ペルシャ語テキストにおける実単語の自動誤り訂正の手法として,本手法が有望であることが明らかとなった。
Automatic spelling correction stands as a pivotal challenge within the ambit of natural language processing (NLP), demanding nuanced solutions. Traditional spelling correction techniques are typically only capable of detecting and correcting non-word errors, such as typos and misspellings. However, context-sensitive errors, also known as real-word errors, are more challenging to detect because they are valid words that are used incorrectly in a given context. The Persian language, characterized by its rich morphology and complex syntax, presents formidable challenges to automatic spelling correction systems. Furthermore, the limited availability of Persian language resources makes it difficult to train effective spelling correction models. This paper introduces a cutting-edge approach for precise and efficient real-word error correction in Persian text. Our methodology adopts a structured, multi-tiered approach, employing semantic analysis, feature selection, and advanced classifiers to enhance error detection and correction efficacy. The innovative architecture discovers and stores semantic similarities between words and phrases in Persian text. The classifiers accurately identify real-word errors, while the semantic ranking algorithm determines the most probable corrections for real-word errors, taking into account specific spelling correction and context properties such as context, semantic similarity, and edit-distance measures. Evaluations have demonstrated that our proposed method surpasses previous Persian real-word error correction models. Our method achieves an impressive F-measure of 96.6% in the detection phase and an accuracy of 99.1% in the correction phase. These results clearly indicate that our approach is a highly promising solution for automatic real-word error correction in Persian text. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# PASSION:不均衡欠落率を伴う効果的な不完全なマルチモーダル医用画像分割を目指して
PASSION: Towards Effective Incomplete Multi-Modal Medical Image Segmentation with Imbalanced Missing Rates ( http://arxiv.org/abs/2407.14796v1 ) ライセンス: Link先を確認 | Junjie Shi, Caozhi Shang, Zhaobin Sun, Li Yu, Xin Yang, Zengqiang Yan, | (参考訳) 不完全なマルチモーダル画像分割は、部分的なモダリティしか利用できない場合のデプロイメント効率を向上する医療画像の基本的なタスクである。
しかし、モデルトレーニング中に完全なモダリティデータが見えるという一般的な実践は、臨床シナリオにおいてモダリティが欠落率を不均衡にする可能性があるため、現実的ではない。
本稿では、このような困難な設定を初めて定式化し、不均衡な欠落率で不完全なマルチモーダル医療画像分割を行うために、Preference-Aware Self-diStillations (PASSION)を提案する。
具体的には、まず、各モダリティの最適化目標のバランスをとるために、ピクセルワイド、セマンティックワイドの自己蒸留を構築する。
そこで,本研究では,各モダリティの優越性を評価するための相対的嗜好を定義し,各モダリティの収束率のバランスをとるためのタスクワイドおよび勾配ワイド正規化を設計する。
公開されている2つのマルチモーダルデータセットの実験結果は、既存のモダリティバランスのためのアプローチに対するPASSIONの優位性を示している。
さらに重要なことに、PASSIONは異なるバックボーン間で一貫したパフォーマンス改善のためのプラグイン・アンド・プレイモジュールとして機能することが検証されている。
コードはhttps://github.com/Jun-Jie-Shi/PASSIONで入手できる。
Incomplete multi-modal image segmentation is a fundamental task in medical imaging to refine deployment efficiency when only partial modalities are available. However, the common practice that complete-modality data is visible during model training is far from realistic, as modalities can have imbalanced missing rates in clinical scenarios. In this paper, we, for the first time, formulate such a challenging setting and propose Preference-Aware Self-diStillatION (PASSION) for incomplete multi-modal medical image segmentation under imbalanced missing rates. Specifically, we first construct pixel-wise and semantic-wise self-distillation to balance the optimization objective of each modality. Then, we define relative preference to evaluate the dominance of each modality during training, based on which to design task-wise and gradient-wise regularization to balance the convergence rates of different modalities. Experimental results on two publicly available multi-modal datasets demonstrate the superiority of PASSION against existing approaches for modality balancing. More importantly, PASSION is validated to work as a plug-and-play module for consistent performance improvement across different backbones. Code is available at https://github.com/Jun-Jie-Shi/PASSION. | 翻訳日:2024-07-23 20:54:16 公開日:2024-07-20 |
# FairViT:適応型マスキングによるフェアビジョントランスフォーマー
FairViT: Fair Vision Transformer via Adaptive Masking ( http://arxiv.org/abs/2407.14799v1 ) ライセンス: Link先を確認 | Bowei Tian, Ruijie Du, Yanning Shen, | (参考訳) Vision Transformer (ViT) は優れた性能を発揮し、様々なコンピュータビジョンタスクにおいて有望な可能性を実証している。
実世界のタスクにおけるViTの広範な展開は、モデルの社会的影響を徹底的に理解する必要がある。
しかし、ほとんどの ViT ベースの作品は公平性を考慮しておらず、CNN 指向の debiased アルゴリズムを直接 ViT に適用できるかどうかは不明である。
さらに、前作は概ね公正さの正確さを犠牲にしている。
そこで本研究では,公正性を犠牲にすることなく精度を向上させるアルゴリズムを開発することを目的とする。
本稿では,新しい高精度かつ公正なViTフレームワークであるFairViTを提案する。
この目的のために,モデルパラメータを更新するアテンション層に新しい距離損失を導入し,適応フェアネス対応マスクを配置する。
実験結果から,競争力のある計算効率であっても,他の選択肢よりも精度が向上することが示された。
さらに、‘sys’は見事な公平性の結果を得る。
Vision Transformer (ViT) has achieved excellent performance and demonstrated its promising potential in various computer vision tasks. The wide deployment of ViT in real-world tasks requires a thorough understanding of the societal impact of the model. However, most ViT-based works do not take fairness into account and it is unclear whether directly applying CNN-oriented debiased algorithm to ViT is feasible. Moreover, previous works typically sacrifice accuracy for fairness. Therefore, we aim to develop an algorithm that improves accuracy without sacrificing fairness. In this paper, we propose FairViT, a novel accurate and fair ViT framework. To this end, we introduce a novel distance loss and deploy adaptive fairness-aware masks on attention layers updating with model parameters. Experimental results show \sys can achieve accuracy better than other alternatives, even with competitive computational efficiency. Furthermore, \sys achieves appreciable fairness results. | 翻訳日:2024-07-23 20:54:15 公開日:2024-07-20 |
# 1次元量子スピン鎖におけるフェルミオン励起の非局所ケアンチ分光
Non-local quench spectroscopy of fermionic excitations in 1D quantum spin chains ( http://arxiv.org/abs/2407.14802v1 ) ライセンス: Link先を確認 | Saverio Bocini, Filippo Caleca, Fabio Mezzacapo, Tommaso Roscilde, | (参考訳) 量子スピン系の基本的な励起は、一般に、基底状態に作用する局所作用素によって生成される弱相互作用するボゾン準粒子の性質を持つ。
1つの空間次元においてにもかかわらず、準粒子の性質は、多くの関連する1次元の$S=1/2$ハミルトニアンは、局所ホッピングと相互作用を持つスピンレスフェルミオンのモデルに正確にマッピングできるため、根本的に変化する。
スピン-フェルミオンマッピングの非局所性のため、フェルミオン準粒子の励起を直接観察するのは局所プローブでは不可能である。
ここでは, 相関関数の非平衡ダイナミクスを監視して系の励起スペクトルを探索する合成量子物質に対する 'emph{quench spectroscopy} が, スピン鎖中のフェルミオン準粒子の分散関係を正確に再構築できることを理論的に示す。
この可能性は、基本的なフェルミオン相関関数に対応する非局所スピン-スピン相関関数を測定する量子シミュレーション実験の能力に依存する。
我々の分析は、量子スピン鎖のクエンチダイナミクスの新しい正確な結果に基づいており、合成量子物質中の任意の準粒子励起を探索する道を開く。
The elementary excitations of quantum spin systems have generally the nature of weakly interacting bosonic quasi-particles, generated by local operators acting on the ground state. Nonetheless in one spatial dimension the nature of the quasiparticles can change radically, since many relevant one-dimensional $S=1/2$ Hamiltonians can be exactly mapped onto models of spinless fermions with local hopping and interactions. Due to the non-local nature of the spin-to-fermion mapping, observing directly the fermionic quasiparticle excitations is impossible using local probes, which are at the basis of all the forms of spectroscopy (such as neutron scattering) traditionally available in condensed matter physics. Here we show theoretically that \emph{quench spectroscopy} for synthetic quantum matter -- which probes the excitation spectrum of a system by monitoring the nonequilibrium dynamics of its correlation functions -- can reconstruct accurately the dispersion relation of fermionic quasiparticles in spin chains. This possibility relies on the ability of quantum simulation experiments to measure non-local spin-spin correlation functions, corresponding to elementary fermionic correlation functions. Our analysis is based on new exact results for the quench dynamics of quantum spin chains; and it opens the path to probe arbitrary quasiparticle excitations in synthetic quantum matter. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# WiFaKey: 野生の顔から暗号化キーを生成する
WiFaKey: Generating Cryptographic Keys from Face in the Wild ( http://arxiv.org/abs/2407.14804v1 ) ライセンス: Link先を確認 | Xingbo Dong, Hui Zhang, Yen Lung Lai, Zhe Jin, Junduan Huang, Wenxiong Kang, Andrew Beng Jin Teoh, | (参考訳) 生体計測からユニークな暗号鍵を導出することは、生体計測と誤り訂正符号の間に既存のノイズギャップがあるため、難しい課題である。
さらに、生体計測が本質的にユーザと結びついているため、プライバシとセキュリティの懸念が生じる。
バイオ暗号システムは、これらの問題に対処するためのソリューションのキーブランチである。
しかし、既存の多くのバイオ暗号系は手作りの特徴抽出器と誤り訂正符号(ECC)に依存しており、しばしば性能が低下する。
これらの課題に対処し、バイオメトリック測定の信頼性を向上させるために、制約のない設定で顔から暗号鍵を生成する新しいバイオメトリック暗号システムWiFaKeyを提案する。
WiFaKey ffrstは、適応型ランダムマスキング駆動のフィーチャートランスフォーメーションパイプラインであるAdaMTransを導入している。
AdaMTransは実数値化と二項化を効果的に行い、適応型ランダムマスキングスキームを組み込んでビット誤り率と誤り訂正要求を整合させ、ノイズギャップを緩和する。
さらにWiFaKeyには、教師付き学習ベースのニューラルデコードスキームであるNeural-MSデコーダが組み込まれている。
我々は,6つの大きな制約のない2つの制約付きデータセットに対して,広く採用されている顔特徴抽出器を用いてWiFaKeyを評価した。
LFWデータセットでは、WiFaKeyは、それぞれMagFaceとAdaFaceの0%のFalse Match Rateで平均85.45%と85.20%のGenuine Match Rateを達成した。
包括的比較分析により,WiFaKeyの性能向上を示す。
私たちの作業のソースコードはgithub.com/xingbod/WiFaKeyで公開されています。
Deriving a unique cryptographic key from biometric measurements is a challenging task due to the existing noise gap between the biometric measurements and error correction coding. Additionally, privacy and security concerns arise as biometric measurements are inherently linked to the user. Biocryptosystems represent a key branch of solutions aimed at addressing these issues. However, many existing bio-cryptosystems rely on handcrafted feature extractors and error correction codes (ECC), often leading to performance degradation. To address these challenges and improve the reliability of biometric measurements, we propose a novel biometric cryptosystem named WiFaKey, for generating cryptographic keys from face in unconstrained settings. Speciffcally, WiFaKey ffrst introduces an adaptive random masking-driven feature transformation pipeline, AdaMTrans. AdaMTrans effectively quantizes and binarizes realvalued features and incorporates an adaptive random masking scheme to align the bit error rate with error correction requirements, thereby mitigating the noise gap. Besides, WiFaKey incorporates a supervised learning-based neural decoding scheme called Neural-MS decoder, which delivers a more robust error correction performance with less iteration than non-learning decoders, thereby alleviating the performance degradation. We evaluated WiFaKey using widely adopted face feature extractors on six large unconstrained and two constrained datasets. On the LFW dataset, WiFaKey achieved an average Genuine Match Rate of 85.45% and 85.20% at a 0% False Match Rate for MagFace and AdaFace features, respectively. Our comprehensive comparative analysis shows a signiffcant performance improvement of WiFaKey. The source code of our work is available at github.com/xingbod/WiFaKey. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# 連続的活動認識のための非結合型Prompt-Adapter Tuning
Decoupled Prompt-Adapter Tuning for Continual Activity Recognition ( http://arxiv.org/abs/2407.14811v1 ) ライセンス: Link先を確認 | Di Fu, Thanh Vinh Vo, Haozhe Ma, Tze-Yun Leong, | (参考訳) アクション認識技術は、監視システムを通じたセキュリティ向上、医療における患者の監視の改善、スポーツにおける詳細なパフォーマンス分析の提供、製造業や補助技術といった分野におけるシームレスな人間とAIのコラボレーションの促進において、重要な役割を担っている。
これらの領域におけるデータのダイナミックな性質は、獲得した知識を失わずに新しいビデオデータに継続的に適応できるモデルの必要性を浮き彫りにして、高度な連続的行動認識の重要な役割を浮き彫りにする。
これらの課題に対処するために,空間時空間情報を取得するためのアダプタと,分離学習戦略を通じて破滅的な忘れを軽減するための学習可能なプロンプトを統合する新しいフレームワークであるDecoupled Prompt-Adapter Tuning (DPAT)を提案する。
DPATは、事前訓練された視覚モデルにおけるアダプタが提供する可塑性と迅速なチューニングの一般化の利点を一意にバランスさせ、広範囲の微調整を必要とせずに連続データ進化中のモデル性能を維持するという課題に効果的に対処する。
DPATは、いくつかの挑戦的なアクション認識ベンチマークにおいて、常に最先端のパフォーマンスを達成し、連続的なアクション認識の領域における我々のモデルの有効性を実証する。
Action recognition technology plays a vital role in enhancing security through surveillance systems, enabling better patient monitoring in healthcare, providing in-depth performance analysis in sports, and facilitating seamless human-AI collaboration in domains such as manufacturing and assistive technologies. The dynamic nature of data in these areas underscores the need for models that can continuously adapt to new video data without losing previously acquired knowledge, highlighting the critical role of advanced continual action recognition. To address these challenges, we propose Decoupled Prompt-Adapter Tuning (DPAT), a novel framework that integrates adapters for capturing spatial-temporal information and learnable prompts for mitigating catastrophic forgetting through a decoupled training strategy. DPAT uniquely balances the generalization benefits of prompt tuning with the plasticity provided by adapters in pretrained vision models, effectively addressing the challenge of maintaining model performance amidst continuous data evolution without necessitating extensive finetuning. DPAT consistently achieves state-of-the-art performance across several challenging action recognition benchmarks, thus demonstrating the effectiveness of our model in the domain of continual action recognition. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# GaitMA: 歩行認識のための多モード多機能融合
GaitMA: Pose-guided Multi-modal Feature Fusion for Gait Recognition ( http://arxiv.org/abs/2407.14812v1 ) ライセンス: Link先を確認 | Fanxu Min, Shaoxiang Guo, Fan Hao, Junyu Dong, | (参考訳) 歩行認識は、歩行パターンを通して人間の身元を認識する生体計測技術である。
既存の外観に基づく手法では、CNNやTransformerを用いてシルエットから空間的・時間的特徴を抽出し、モデルベースの手法ではGCNを用いて骨格点の特別な位相構造に焦点を当てている。
しかし、シルエットの品質は複雑な閉塞によって制限され、骨格は人間の体の密接な意味的特徴を欠いている。
これらの問題に対処するため,Gait Multi-model Aggregation Network (GaitMA) と呼ばれる新しい歩行認識フレームワークを提案する。
まず, 2つのCNN特徴抽出器を用いて, シルエットと骨格の特徴を抽出した。
第二に、要素的注意による特徴の整合を図ったアライメントモジュールが提案されている。
最後に,クロスアテンションによる特徴融合を実現する相互学習モジュールを提案する。
以上の結果から,Gait3D,OU-MVLP,CASIA-Bにおけるモデルの有用性が示唆された。
Gait recognition is a biometric technology that recognizes the identity of humans through their walking patterns. Existing appearance-based methods utilize CNN or Transformer to extract spatial and temporal features from silhouettes, while model-based methods employ GCN to focus on the special topological structure of skeleton points. However, the quality of silhouettes is limited by complex occlusions, and skeletons lack dense semantic features of the human body. To tackle these problems, we propose a novel gait recognition framework, dubbed Gait Multi-model Aggregation Network (GaitMA), which effectively combines two modalities to obtain a more robust and comprehensive gait representation for recognition. First, skeletons are represented by joint/limb-based heatmaps, and features from silhouettes and skeletons are respectively extracted using two CNN-based feature extractors. Second, a co-attention alignment module is proposed to align the features by element-wise attention. Finally, we propose a mutual learning module, which achieves feature fusion through cross-attention, Wasserstein loss is further introduced to ensure the effective fusion of two modalities. Extensive experimental results demonstrate the superiority of our model on Gait3D, OU-MVLP, and CASIA-B. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# FMamba:マルチ変数時系列予測のための高速アテンションに基づくMamba
FMamba: Mamba based on Fast-attention for Multivariate Time-series Forecasting ( http://arxiv.org/abs/2407.14814v1 ) ライセンス: Link先を確認 | Shusen Ma, Yu Kang, Peng Bai, Yun-Bo Zhao, | (参考訳) 多変量時系列予測(MTSF)では、入力シーケンスの時間的相関を抽出することが重要である。
一般的なTransformerベースの予測モデルはうまく機能するが、その二次計算の複雑さは非効率性と高いオーバーヘッドをもたらす。
最近登場した選択状態空間モデルであるMambaは、その強い時間的特徴抽出能力と線形計算複雑性のために、多くの分野で有望な結果を示している。
しかし、Mambaの一方的な性質のため、Mambaに基づくチャネル非依存の予測モデルは、Transformerベースのモデルのように、すべての変数間の関係には対応できない。
この問題に対処するため, MTSF用のFMambaという新しいフレームワークを導入するために, 高速注意とMambaを組み合わせる。
技術的には、まず、埋め込み層を介して入力変数の時間的特徴を抽出し、次に高速アテンションモジュールを介して入力変数間の依存関係を計算する。
次に,Mambaを用いて入力特徴を選択的に処理し,多層パーセプトロンブロック(MLPブロック)を介して変数の時間依存性を抽出する。
最後に、FMambaは、線形層であるプロジェクターを通して予測結果を得る。
8つの公開データセットの実験結果は、FMambaが計算オーバーヘッドを低く保ちながら最先端のパフォーマンスを達成できることを実証している。
In multivariate time-series forecasting (MTSF), extracting the temporal correlations of the input sequences is crucial. While popular Transformer-based predictive models can perform well, their quadratic computational complexity results in inefficiency and high overhead. The recently emerged Mamba, a selective state space model, has shown promising results in many fields due to its strong temporal feature extraction capabilities and linear computational complexity. However, due to the unilateral nature of Mamba, channel-independent predictive models based on Mamba cannot attend to the relationships among all variables in the manner of Transformer-based models. To address this issue, we combine fast-attention with Mamba to introduce a novel framework named FMamba for MTSF. Technically, we first extract the temporal features of the input variables through an embedding layer, then compute the dependencies among input variables via the fast-attention module. Subsequently, we use Mamba to selectively deal with the input features and further extract the temporal dependencies of the variables through the multi-layer perceptron block (MLP-block). Finally, FMamba obtains the predictive results through the projector, a linear layer. Experimental results on eight public datasets demonstrate that FMamba can achieve state-of-the-art performance while maintaining low computational overhead. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# ラテントエンコーディングによる生成型カーネルプリミティブと初期化器によるブラインド画像のデコンボリューション
Blind Image Deconvolution by Generative-based Kernel Prior and Initializer via Latent Encoding ( http://arxiv.org/abs/2407.14816v1 ) ライセンス: Link先を確認 | Jiangtao Zhang, Zongsheng Yue, Hui Wang, Qian Zhao, Deyu Meng, | (参考訳) ブラインド画像デコンボリューション(BID)は、画像処理の分野では古典的だが難しい問題である。
近年のディープ・イメージ・先行(DIP)の進歩は、一連のDIPベースのアプローチを動機付け、BIDの顕著な成功をみせている。
しかし、本質的な最適化プロセスの非凸性が高いため、これらの手法は初期化カーネルに対する感度で悪名高い。
この問題を緩和し、さらに性能を向上させるため、より深い生成モデルを利用して、ボケカーネルの事前のモデリングと初期化をよりよく検討するBIDの新しいフレームワークを提案する。
提案手法は, カーネル先行を適切に特徴付ける生成逆ネットワークベースのカーネルジェネレータと, 遅延空間符号化によるボケカーネルの初期化を容易にするカーネル初期化器を事前訓練する。
事前訓練されたカーネル生成器と初期化器により、ブラーカーネルの高品質な初期化が得られ、コンパクトな潜在カーネル多様体内で最適化が可能となる。
このようなフレームワークは、既存のDIPベースのBIDメソッドよりも明らかにパフォーマンスが向上する。
異なるデータセットに対する大規模な実験により,提案手法の有効性が示された。
Blind image deconvolution (BID) is a classic yet challenging problem in the field of image processing. Recent advances in deep image prior (DIP) have motivated a series of DIP-based approaches, demonstrating remarkable success in BID. However, due to the high non-convexity of the inherent optimization process, these methods are notorious for their sensitivity to the initialized kernel. To alleviate this issue and further improve their performance, we propose a new framework for BID that better considers the prior modeling and the initialization for blur kernels, leveraging a deep generative model. The proposed approach pre-trains a generative adversarial network-based kernel generator that aptly characterizes the kernel priors and a kernel initializer that facilitates a well-informed initialization for the blur kernel through latent space encoding. With the pre-trained kernel generator and initializer, one can obtain a high-quality initialization of the blur kernel, and enable optimization within a compact latent kernel manifold. Such a framework results in an evident performance improvement over existing DIP-based BID methods. Extensive experiments on different datasets demonstrate the effectiveness of the proposed method. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# テキストスタイルの転送 - 序文の概要
Text Style Transfer: An Introductory Overview ( http://arxiv.org/abs/2407.14822v1 ) ライセンス: Link先を確認 | Sourabrata Mukherjee, Ondrej Dušek, | (参考訳) テキストスタイル転送(TST)は、スタイルに依存しないコンテンツを保存しながらテキストスタイルの属性を操作する自然言語生成において重要なタスクである。
TSTを対象とする属性は、丁寧さ、著者シップ、攻撃的言語の緩和、感情の修正、テキストの形式調整など、多岐にわたる可能性がある。
近年,TSTは研究が盛んに行われ,進歩が進んでいる。
本稿では,その課題,既存アプローチ,データセット,評価尺度,サブタスク,アプリケーションについて概説する。
この基本的な概要は、テキストスタイル転送の背景と基礎を理解することを改善する。
Text Style Transfer (TST) is a pivotal task in natural language generation to manipulate text style attributes while preserving style-independent content. The attributes targeted in TST can vary widely, including politeness, authorship, mitigation of offensive language, modification of feelings, and adjustment of text formality. TST has become a widely researched topic with substantial advancements in recent years. This paper provides an introductory overview of TST, addressing its challenges, existing approaches, datasets, evaluation measures, subtasks, and applications. This fundamental overview improves understanding of the background and fundamentals of text style transfer. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# CrossDehaze: クロスデータビジョンアライメントと拡張によるイメージデハジングのスケールアップ
CrossDehaze: Scaling Up Image Dehazing with Cross-Data Vision Alignment and Augmentation ( http://arxiv.org/abs/2407.14823v1 ) ライセンス: Link先を確認 | Yukai Shi, Zhipeng Weng, Yupei Lin, Cidan Shi, Xiaojun Yang, Liang Lin, | (参考訳) 近年,コンピュータビジョンタスクは高品質な画像入力にますます依存しているため,画像デハジングのタスクは注目されている。
これまで,画像デハジングの課題に対処するために,先行と深層学習に基づく多くの手法が提案されてきた。
異なるデータ間のドメインギャップを無視して、かつてのデハージングメソッドは通常、明示的なトレーニングのために複数のデータセットを採用するため、メソッド自体に違反することが多い。
そこで本研究では,既存のデハージング手法を改善するために,内部および外部データ拡張の新しい手法を提案する。
クロスデータ外部拡張子を使用すること。
データセットは、整列された異なるドメインからのサンプルを継承し、モデルがより堅牢で一般化可能な特徴を学習する。
内部データ拡張手法を用いることで、モデルが画像内のローカル情報を完全に活用し、より多くの画像の詳細を得ることができる。
提案手法の有効性を示すため,Natural Image Dataset (NID) とRemote Sensing Image Dataset (RSID) を併用したトレーニングを行った。
実験結果から,本手法は異なる脱ハージングデータセットの領域ギャップを明確に解消し,脱ハージングタスクにおける共同トレーニングのための新しいパイプラインを提案する。
提案手法は, 実際のヘイズフリー画像に最も近いデハズド画像のデハズ化やデハズド画像の生成において, 他の先進的手法よりも著しく優れている。
コードは以下の通り。 https://github.com/wengzp1/ScaleUpDehazing
In recent years, as computer vision tasks have increasingly relied on high-quality image inputs, the task of image dehazing has received significant attention. Previously, many methods based on priors and deep learning have been proposed to address the task of image dehazing. Ignoring the domain gap between different data, former de-hazing methods usually adopt multiple datasets for explicit training, which often makes the methods themselves be violated. To address this problem, we propose a novel method of internal and external data augmentation to improve the existing dehazing methodology. By using cross-data external augmentor. The dataset inherits samples from different domains that are firmly aligned, making the model learn more robust and generalizable features. By using the internal data augmentation method, the model can fully exploit local information within the images, thereby obtaining more image details. To demonstrate the effectiveness of our proposed method, we conduct training on both the Natural Image Dataset (NID) and the Remote Sensing Image Dataset (RSID). Experimental results show that our method clearly resolves the domain gap in different dehazing datasets and presents a new pipeline for joint training in the dehazing task. Our approach significantly outperforms other advanced methods in dehazing and produces dehazed images that are closest to real haze-free images. The code will be available at: https://github.com/wengzp1/ScaleUpDehazing | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# AI-Debater 2023の概要
Overview of AI-Debater 2023: The Challenges of Argument Generation Tasks ( http://arxiv.org/abs/2407.14829v1 ) ライセンス: Link先を確認 | Jiayu Lin, Guanrong Chen, Bojun Jin, Chenyang Li, Shutong Jia, Wancong Lin, Yang Sun, Yuhang He, Caihua Yang, Jianzhu Bao, Jipeng Wu, Wen Su, Jinglu Chen, Xinyi Li, Tianyu Chen, Mingjie Han, Shuaiwen Du, Zijian Wang, Jiyin Li, Fuzhong Suo, Hao Wang, Nuanchen Lin, Rui Feng Xu, Long Zhang, Jiuxin Cao, Ting Jin, Zhongyu Wei, | (参考訳) 本稿では,中国影響計算学会(CCAC 2023)が主催するAI-Debater 2023 Challengeの結果を紹介するとともに,関連するデータセットを紹介する。
本稿では,異なるシナリオ,すなわちCounter-Argument Generation (Track1) と Claim-based Argument Generation (Track2) の2つのトラックを編成する。
各トラックは、それぞれ独自のデータセットとベースラインモデルを備えている。
合計で32のチームがチャレンジに登録し、そこから11の応募をもらいました。
本稿では,システム間の共通点と革新点に注目し,課題の結果とシステムの概要を紹介する。
AI-Debater 2023 Challengeのデータセットとベースラインモデルは、すでにリリースされており、このチャレンジの公式ウェブサイトからアクセスすることができる。
In this paper we present the results of the AI-Debater 2023 Challenge held by the Chinese Conference on Affect Computing (CCAC 2023), and introduce the related datasets. We organize two tracks to handle the argumentative generation tasks in different scenarios, namely, Counter-Argument Generation (Track 1) and Claim-based Argument Generation (Track 2). Each track is equipped with its distinct dataset and baseline model respectively. In total, 32 competing teams register for the challenge, from which we received 11 successful submissions. In this paper, we will present the results of the challenge and a summary of the systems, highlighting commonalities and innovations among participating systems. Datasets and baseline models of the AI-Debater 2023 Challenge have been already released and can be accessed through the official website of the challenge. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# 3次構造を持つ効率的な畳み込みニューラルネットワークの実現に向けて
Toward Efficient Convolutional Neural Networks With Structured Ternary Patterns ( http://arxiv.org/abs/2407.14831v1 ) ライセンス: Link先を確認 | Christos Kyrkou, | (参考訳) 高効率ディープラーニング(DL)モデルは、限られたリソースを持つデバイスでの使用を促進するだけでなく、トレーニングに必要なリソースを改善するためにも必要である。
畳み込みニューラルネットワーク(ConvNets)は通常、ローカルデバイスリソースに厳しい要求を課す。
本稿では、ローカルバイナリパターン(LBP)とHaarの機能の空間から生成された静的畳み込みフィルタを利用して、効率的なConvNetアーキテクチャを設計する作業について述べる。
これらはStructured Ternary Patterns (STePs) と呼ばれ、学習可能なウェイトパラメータを持つのではなく、ネットワーク初期化時に体系的に生成することで、全体のウェイト更新を減らすことができる。
三次値はストレージを著しく少なくし、適切な低レベルの実装では推論の改善につながる可能性がある。
提案手法は、4つの画像分類データセットを用いて検証され、共通のネットワークバックボーンをより効率的にでき、競争力のある結果が得られることを示した。
また、無人航空機(UAV)による航空機検出など、デバイス上での優れたトレードオフを提供する、完全にカスタムなSTePベースのネットワークを生成することも実証された。
実験の結果,提案手法はトレーニング可能なパラメータを40~80%削減しつつ高い検出精度を維持していることがわかった。
この研究は、訓練中や訓練後にネットワークを変更することなく、DLアーキテクチャをより効率的にするための、学習不可能なウェイトに対する優れた先行研究の動機となっている。
High-efficiency deep learning (DL) models are necessary not only to facilitate their use in devices with limited resources but also to improve resources required for training. Convolutional neural networks (ConvNets) typically exert severe demands on local device resources and this conventionally limits their adoption within mobile and embedded platforms. This brief presents work toward utilizing static convolutional filters generated from the space of local binary patterns (LBPs) and Haar features to design efficient ConvNet architectures. These are referred to as Structured Ternary Patterns (STePs) and can be generated during network initialization in a systematic way instead of having learnable weight parameters thus reducing the total weight updates. The ternary values require significantly less storage and with the appropriate low-level implementation, can also lead to inference improvements. The proposed approach is validated using four image classification datasets, demonstrating that common network backbones can be made more efficient and provide competitive results. It is also demonstrated that it is possible to generate completely custom STeP-based networks that provide good trade-offs for on-device applications such as unmanned aerial vehicle (UAV)-based aerial vehicle detection. The experimental results show that the proposed method maintains high detection accuracy while reducing the trainable parameters by 40-80%. This work motivates further research toward good priors for non-learnable weights that can make DL architectures more efficient without having to alter the network during or after training. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# VLMはビデオでアクション認識に使えるか?LLMは視覚共鳴コーディネータ
Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators ( http://arxiv.org/abs/2407.14834v1 ) ライセンス: Link先を確認 | Harsh Lunia, | (参考訳) 近年、複数の視覚言語モデル (VLM) が登場し、様々な領域において印象的な常識的推論がなされている。
個々の能力にもかかわらず、これらの相補的なVLMを相乗化する可能性は未解明のままである。
Cola Frameworkは、大規模言語モデル(LLM)が自然言語通信を通じて複数のVLMを効率的にコーディネートする方法を示し、それぞれの強みを活用している。
我々はこの主張をA-OKVQAデータセット上で検証し、これらの調整の有効性を確認した。
本研究は,この手法が行動認識のための監視ビデオに適用できるかどうかを考察する。
具体的には、VLMとLLMの複合知識ベースを利用することで、選択的に重要なフレームと最小時間情報のみを提示した場合に、ビデオからアクションを効果的に引き出すことができるかどうかを検討する。
実験により,LLMは異なるVLMをコーディネートする場合,パターンの認識に成功し,時間的信号が弱いにもかかわらず,様々なシナリオにおける動作を推定できることが示された。
しかし,本手法を有効な代替ソリューションとして拡張し,より強力な時間信号を統合し,わずかに多くのフレームにモデルを露出させることが有用であることが示唆された。
Recent advancements have introduced multiple vision-language models (VLMs) demonstrating impressive commonsense reasoning across various domains. Despite their individual capabilities, the potential of synergizing these complementary VLMs remains underexplored. The Cola Framework addresses this by showcasing how a large language model (LLM) can efficiently coordinate multiple VLMs through natural language communication, leveraging their distinct strengths. We have verified this claim on the challenging A-OKVQA dataset, confirming the effectiveness of such coordination. Building on this, our study investigates whether the same methodology can be applied to surveillance videos for action recognition. Specifically, we explore if leveraging the combined knowledge base of VLMs and LLM can effectively deduce actions from a video when presented with only a few selectively important frames and minimal temporal information. Our experiments demonstrate that LLM, when coordinating different VLMs, can successfully recognize patterns and deduce actions in various scenarios despite the weak temporal signals. However, our findings suggest that to enhance this approach as a viable alternative solution, integrating a stronger temporal signal and exposing the models to slightly more frames would be beneficial. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# スマートコントラクト脆弱性検出のための検索拡張型大言語モデル
Retrieval Augmented Generation Integrated Large Language Models in Smart Contract Vulnerability Detection ( http://arxiv.org/abs/2407.14838v1 ) ライセンス: Link先を確認 | Jeffy Yu, | (参考訳) 分散ファイナンス(DeFi)の急速な成長は、スマートコントラクトの脆弱性による重大な財務損失を伴い、効果的なセキュリティ監査の必要性を浮き彫りにした。
攻撃が頻発するにつれて、監査サービスの必要性と需要が増大している。
これは独立系開発者や中小企業にとって特に経済的負担となり、これらのサービスに対する資金提供が制限されることが多い。
本研究では,大規模言語モデル(LLM)とRAG(Retrieval-Augmented Generation)を統合し,GPT-4-1106を128kのトークンコンテキストウィンドウに使用することにより,既存のフレームワークを構築した。
ベクタストレージにPinecone、埋め込みにOpenAIのtext-embedding-ada-002、RAG-LLMパイプラインを構築するためにLangChainを用いて、830の既知の脆弱なコントラクトのベクタストアを構築した。
プロンプトは脆弱性検出のためのバイナリな回答を提供するように設計されている。
RAG-LLMの複製性と一貫性を検証するため,まず52のスマートコントラクトを,提供された脆弱性タイプに対して40回テストした。
厳密な結果が観察され、62.7%の成功率で脆弱性の検出が導かれた。
第二に、219の契約がそれぞれ40のテストを行うプロンプトに提供される脆弱性タイプなしで、"盲目の"監査設定の下でモデルに挑戦する。
この設定は、ヒント付きコンテキストアシストなしで、一般的な脆弱性検出機能を評価する。
これらの条件下では、60.71%の成功率が観測された。
結果は有望だが、現時点では人間の監査の必要性を強調している。
本研究は,費用対効果の高いスマートコントラクト監査プロセスの概念実証として,セキュリティへの民主的アクセスに向けた研究である。
The rapid growth of Decentralized Finance (DeFi) has been accompanied by substantial financial losses due to smart contract vulnerabilities, underscoring the critical need for effective security auditing. With attacks becoming more frequent, the necessity and demand for auditing services has escalated. This especially creates a financial burden for independent developers and small businesses, who often have limited available funding for these services. Our study builds upon existing frameworks by integrating Retrieval-Augmented Generation (RAG) with large language models (LLMs), specifically employing GPT-4-1106 for its 128k token context window. We construct a vector store of 830 known vulnerable contracts, leveraging Pinecone for vector storage, OpenAI's text-embedding-ada-002 for embeddings, and LangChain to construct the RAG-LLM pipeline. Prompts were designed to provide a binary answer for vulnerability detection. We first test 52 smart contracts 40 times each against a provided vulnerability type, verifying the replicability and consistency of the RAG-LLM. Encouraging results were observed, with a 62.7% success rate in guided detection of vulnerabilities. Second, we challenge the model under a "blind" audit setup, without the vulnerability type provided in the prompt, wherein 219 contracts undergo 40 tests each. This setup evaluates the general vulnerability detection capabilities without hinted context assistance. Under these conditions, a 60.71% success rate was observed. While the results are promising, we still emphasize the need for human auditing at this time. We provide this study as a proof of concept for a cost-effective smart contract auditing process, moving towards democratic access to security. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# Cascaded Conditional Diffusion を用いたテキストベース音声編集
Text-based Talking Video Editing with Cascaded Conditional Diffusion ( http://arxiv.org/abs/2407.14841v1 ) ライセンス: Link先を確認 | Bo Han, Heqing Zou, Haoyang Li, Guangcong Wang, Chng Eng Siong, | (参考訳) テキストベースのトーキングヘッドビデオ編集は、ユーザフレンドリーなテキスト編集アプローチを通じて、音声ビデオのセグメントを効率的に挿入、削除、置換することを目的としている。
一般化可能な話し顔表現, シームレスな音声・視覚遷移, アイデンティティ保存された話し顔により, 難易度が高い。
それまでの作業では、会話ビデオのトレーニングデータの数分と、カスタマイズされた音声ビデオ編集のための高価なテストタイムの最適化が必要であったり、コンテキスト内情報を考慮せずにビデオシーケンスを直接生成できたり、一般化不可能な表現や一貫性のない遷移、さらには一貫性のないアイデンティティさえも必要だった。
本稿では,高密度ランドマークの動きと映像への動きの2段階からなる,効率的なケースケード型条件拡散に基づくフレームワークを提案する。
In the first stage, we propose a dynamic weighted in-context diffusion module to synthesis dense-landmark motions given a editing audio。
第2段では、ワーピング誘導条件拡散モジュールを導入します。
モジュールは、まず編集間隔の開始フレームと終了フレームの間に補間し、スムーズな中間フレームを生成する。
そして、オーディオ・トゥ・ディエンス・モーション・イメージの助けを借りて、これらの中間フレームをワープして粗い中間フレームを得る。
ワープされた中間フレームに条件付きで設定された拡散モデルを用いて、コヒーレントかつアイデンティティ保存された遷移を保証する詳細かつ高解像度なターゲットフレームを生成する。
ケースケード条件付き拡散モデルは、複雑な会話編集タスクを2つのフレキシブルな生成タスクに分解する。
提案手法の有効性と優位性を示す実験を行った。
Text-based talking-head video editing aims to efficiently insert, delete, and substitute segments of talking videos through a user-friendly text editing approach. It is challenging because of \textbf{1)} generalizable talking-face representation, \textbf{2)} seamless audio-visual transitions, and \textbf{3)} identity-preserved talking faces. Previous works either require minutes of talking-face video training data and expensive test-time optimization for customized talking video editing or directly generate a video sequence without considering in-context information, leading to a poor generalizable representation, or incoherent transitions, or even inconsistent identity. In this paper, we propose an efficient cascaded conditional diffusion-based framework, which consists of two stages: audio to dense-landmark motion and motion to video. \textit{\textbf{In the first stage}}, we first propose a dynamic weighted in-context diffusion module to synthesize dense-landmark motions given an edited audio. \textit{\textbf{In the second stage}}, we introduce a warping-guided conditional diffusion module. The module first interpolates between the start and end frames of the editing interval to generate smooth intermediate frames. Then, with the help of the audio-to-dense motion images, these intermediate frames are warped to obtain coarse intermediate frames. Conditioned on the warped intermedia frames, a diffusion model is adopted to generate detailed and high-resolution target frames, which guarantees coherent and identity-preserved transitions. The cascaded conditional diffusion model decomposes the complex talking editing task into two flexible generation tasks, which provides a generalizable talking-face representation, seamless audio-visual transitions, and identity-preserved faces on a small dataset. Experiments show the effectiveness and superiority of the proposed method. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# Web3のベッティングにおける政治的リーン - 政治的かつ利益のあるモチベーションの相互作用をデコードする
Political Leanings in Web3 Betting: Decoding the Interplay of Political and Profitable Motives ( http://arxiv.org/abs/2407.14844v1 ) ライセンス: Link先を確認 | Hongzhou Chen, Xiaolin Duan, Abdulmotaleb El Saddik, Wei Cai, | (参考訳) 透明なブロックチェーンユーザーの行動データに配慮して、政治ベッティング・リーンスコア(PBLS)を構築し、Web3予測市場における賭けに基づいて政治的傾きを測定する。
ポリマーケットに注目し、2024年のアメリカ合衆国大統領選挙から始まり、4,500のイベントと8,500の市場にわたる15,000以上のアドレスを合成し、PBLSによる政治的傾きの強さと方向性を捉えます。
内部整合性チェックと外部比較によりPBLSを検証する。
PBLSと賭け行動の関係を800以上の特徴を通して明らかにした。
2022年アメリカ合衆国上院選挙のケーススタディでは、政治的モチベーションと利益的なモチベーションの間の動的相互作用を復号化しながら、我々の測定能力をさらに実証している。
本研究は,分散市場における意思決定の理解に寄与し,Web3予測環境における行動分析の強化に寄与する。
この研究の洞察は、革新的な多分野の研究を可能にするブロックチェーンの可能性を明らかにし、より効果的なオンライン予測市場の開発を通知し、予測の精度を改善し、プラットフォームメカニズムの設計と最適化を支援する。
論文のデータとコードは以下のリンクでアクセスできる。
Harnessing the transparent blockchain user behavior data, we construct the Political Betting Leaning Score (PBLS) to measure political leanings based on betting within Web3 prediction markets. Focusing on Polymarket and starting from the 2024 U.S. Presidential Election, we synthesize behaviors over 15,000 addresses across 4,500 events and 8,500 markets, capturing the intensity and direction of their political leanings by the PBLS. We validate the PBLS through internal consistency checks and external comparisons. We uncover relationships between our PBLS and betting behaviors through over 800 features capturing various behavioral aspects. A case study of the 2022 U.S. Senate election further demonstrates the ability of our measurement while decoding the dynamic interaction between political and profitable motives. Our findings contribute to understanding decision-making in decentralized markets, enhancing the analysis of behaviors within Web3 prediction environments. The insights of this study reveal the potential of blockchain in enabling innovative, multidisciplinary studies and could inform the development of more effective online prediction markets, improve the accuracy of forecast, and help the design and optimization of platform mechanisms. The data and code for the paper are accessible at the following link: https://github.com/anonymous. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# 大規模言語モデルにおけるプロンプトと応答不確かさの関係の理解
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models ( http://arxiv.org/abs/2407.14845v1 ) ライセンス: Link先を確認 | Ze Yu Zhang, Arun Verma, Finale Doshi-Velez, Bryan Kian Hsiang Low, | (参考訳) 大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
したがって、LLMがいかにして理由を定め、意思決定するかを理解することは、安全なデプロイメントに不可欠である。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
予備訓練中にLCMが潜伏概念を推論することを学ぶ知見を活用することで、LCMが応答を生成する方法を説明し、プロンプトと応答の不確実性の関係を理解するのに役立つプロンプト応答の概念モデルを提案する。
この不確実性は, 先天的不確実性と同様, プロンプトの情報量が増加するにつれて減少することを示す。
実際のデータセットに関する詳細な実験結果により,提案モデルの有効性が検証された。
Large language models (LLMs) are widely used in decision-making, but their reliability, especially in critical tasks like healthcare, is not well-established. Therefore, understanding how LLMs reason and make decisions is crucial for their safe deployment. This paper investigates how the uncertainty of responses generated by LLMs relates to the information provided in the input prompt. Leveraging the insight that LLMs learn to infer latent concepts during pretraining, we propose a prompt-response concept model that explains how LLMs generate responses and helps understand the relationship between prompts and response uncertainty. We show that the uncertainty decreases as the prompt's informativeness increases, similar to epistemic uncertainty. Our detailed experimental results on real datasets validate our proposed model. | 翻訳日:2024-07-23 20:42:12 公開日:2024-07-20 |
# 3次元ガウススプラッティングに基づくリアルな手術画像データセット生成
Realistic Surgical Image Dataset Generation Based On 3D Gaussian Splatting ( http://arxiv.org/abs/2407.14846v1 ) ライセンス: Link先を確認 | Tianle Zeng, Gerardo Loza Galindo, Junlei Hu, Pietro Valdastri, Dominic Jones, | (参考訳) コンピュータビジョン技術は、高度なツールトラッキング、検出、ローカライゼーションを通じて、ロボット支援の最小侵襲手術(RAMIS)の自動化能力を著しく向上させる。
しかし、この分野では、総合的な外科的データセットの入手が限られていることが大きな課題である。
本研究は, 合成外科用データセットを生成するために3次元ガウススプラッティングを用いた新しい手法を提案する。
手術器具と背景操作環境の3次元ガウス表現を抽出・組み合わせて変換・結合し,高忠実な外科的シナリオを生成する手法を提案する。
手術現場でツールやカメラのポーズとともに画像を取得することのできるデータ記録システムを開発した。
このポーズデータを用いて、シーンを合成的に複製し、合成画像の品質(29.592 PSNR)を直接比較できるようにする。
さらなる検証として、合成データと実データに基づいてトレーニングされた2つのYOLOv5モデルを比較し、その性能を目に見えない実世界のテストデータセットで評価した。
実世界のトレーニングモデルを12%上回り、実世界のデータでテストすることで、ニューラルネットワークの性能の改善を観察する。
Computer vision technologies markedly enhance the automation capabilities of robotic-assisted minimally invasive surgery (RAMIS) through advanced tool tracking, detection, and localization. However, the limited availability of comprehensive surgical datasets for training represents a significant challenge in this field. This research introduces a novel method that employs 3D Gaussian Splatting to generate synthetic surgical datasets. We propose a method for extracting and combining 3D Gaussian representations of surgical instruments and background operating environments, transforming and combining them to generate high-fidelity synthetic surgical scenarios. We developed a data recording system capable of acquiring images alongside tool and camera poses in a surgical scene. Using this pose data, we synthetically replicate the scene, thereby enabling direct comparisons of the synthetic image quality (29.592 PSNR). As a further validation, we compared two YOLOv5 models trained on the synthetic and real data, respectively, and assessed their performance in an unseen real-world test dataset. Comparing the performances, we observe an improvement in neural network performance, with the synthetic-trained model outperforming the real-world trained model by 12%, testing both on real-world data. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# 建設解体廃棄物の循環予測のための統合的BIMと機械学習システム
Integrated BIM and Machine Learning System for Circularity Prediction of Construction Demolition Waste ( http://arxiv.org/abs/2407.14847v1 ) ライセンス: Link先を確認 | Abdullahi Saka, Ridwan Taiwo, Nurudeen Saka, Benjamin Oluleye, Jamiu Dauda, Lukman Akanbi, | (参考訳) 建設・解体廃棄物(C&DW)の有効管理は, 世界の廃棄物の40%を産業が占めているため, 持続可能な開発に不可欠である。
C&DW管理の有効性は、生成されるC&DWの適切な定量化に依存する。
C&DWの発生に大きく貢献する解体活動にもかかわらず、現存する研究は建設廃棄物に重点を置いている。
取り壊しに関する数少ない研究は、しばしば地域レベルでのものであり、円度の洞察を与えていない。
そこで本研究では,機械学習(ML)を用いた可変モデリング(VM)による分解定量化を進めた。
2280のプロジェクトの分解データセットはMLモデリングに利用され、XGBoostモデルは(コペランドアルゴリズムに基づく)最高のモデルとして登場し、テストデータセット上では0.9977のR2、平均絶対誤差5.0910のR2を達成した。
MLモデルとビルディングインフォメーション・モデリング(BIM)の統合により,建物解体からリサイクル・埋立処分資材の量を予測するシステムを開発した。
これは廃棄廃棄物の循環性に関する詳細な洞察を与え、より良い計画と管理を促進する。
shapley Additive exPlanations (SHAP) 法は, 廃廃棄物の円形化にともなう特徴を浮き彫りにした。
本研究は, プロジェクトレベルでのプレデモルション監査に関する実証的研究に寄与し, 実装のための実践的ツールを提供する。
その発見は、業界における循環経済の推進に利害関係者の利益をもたらすだろう。
Effective management of construction and demolition waste (C&DW) is crucial for sustainable development, as the industry accounts for 40% of the waste generated globally. The effectiveness of the C&DW management relies on the proper quantification of C&DW to be generated. Despite demolition activities having larger contributions to C&DW generation, extant studies have focused on construction waste. The few extant studies on demolition are often from the regional level perspective and provide no circularity insights. Thus, this study advances demolition quantification via Variable Modelling (VM) with Machine Learning (ML). The demolition dataset of 2280 projects were leveraged for the ML modelling, with XGBoost model emerging as the best (based on the Copeland algorithm), achieving R2 of 0.9977 and a Mean Absolute Error of 5.0910 on the testing dataset. Through the integration of the ML model with Building Information Modelling (BIM), the study developed a system for predicting quantities of recyclable and landfill materials from building demolitions. This provides detailed insights into the circularity of demolition waste and facilitates better planning and management. The SHapley Additive exPlanations (SHAP) method highlighted the implications of the features for demolition waste circularity. The study contributes to empirical studies on pre-demolition auditing at the project level and provides practical tools for implementation. Its findings would benefit stakeholders in driving a circular economy in the industry. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# 単一チャネル脳波の物語:デバイス,データセット,信号処理,応用,今後の方向性
A Tale of Single-channel Electroencephalogram: Devices, Datasets, Signal Processing, Applications, and Future Directions ( http://arxiv.org/abs/2407.14850v1 ) ライセンス: Link先を確認 | Yueyang Li, Weiming Zeng, Wenhao Dong, Di Han, Lei Chen, Hongyu Chen, Hongjie Yan, Wai Ting Siok, Nizhuan Wang, | (参考訳) 単一チャネル脳波(英: Single-channel electroencephalogram、EEG)は、脳活動を監視するための費用効率が高く、快適で非侵襲的な方法であり、研究者、消費者、臨床医に広く採用されている。
シングルチャネル脳波に関する記事の増加と割合は、その可能性の増大を裏付けている。
本稿では, 開発動向, デバイス, データセット, 信号処理方法, 最新のアプリケーション, 今後の方向性に注目し, 単一チャネル脳波の総合的なレビューを行う。
単一チャネル脳波における双極子および一極子構成の定義は、将来の進歩を導くために明確化される。
主に睡眠ステージング、感情認識、教育研究、臨床診断に応用される。
AIベースの脳波生成技術における単一チャネル脳波の進歩は、マルチチャネル脳波の性能よりも潜在的に同等か優位性を示している。
Single-channel electroencephalogram (EEG) is a cost-effective, comfortable, and non-invasive method for monitoring brain activity, widely adopted by researchers, consumers, and clinicians. The increasing number and proportion of articles on single-channel EEG underscore its growing potential. This paper provides a comprehensive review of single-channel EEG, focusing on development trends, devices, datasets, signal processing methods, recent applications, and future directions. Definitions of bipolar and unipolar configurations in single-channel EEG are clarified to guide future advancements. Applications mainly span sleep staging, emotion recognition, educational research, and clinical diagnosis. Ongoing advancements of single-channel EEG in AI-based EEG generation techniques suggest potential parity or superiority over multichannel EEG performance. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# CBCTLiTS: セグメンテーションとスタイル転送のための合成ペアCBCT/CTデータセット
CBCTLiTS: A Synthetic, Paired CBCT/CT Dataset For Segmentation And Style Transfer ( http://arxiv.org/abs/2407.14853v1 ) ライセンス: Link先を確認 | Maximilian E. Tschuchnig, Philipp Steininger, Michael Gadermayr, | (参考訳) 医療画像はコンピュータによる介入に不可欠である。
特に,デファクトリアルタイムと移動能力を備えたコーンビームCT(CBCT)が重要な役割を担っている。
しかし、CBCT画像は、しばしばアーティファクトに悩まされ、正確な解釈の難しさを生じさせ、より高度なアルゴリズムで研究を動機付け、臨床実践でより効果的に活用する。
本研究では, CBCTLiTS(CBCTLiTS)について述べる。CBCTLiTSは, 合成合成した, ペアとアライメントのセグメンテーションのためのラベル付きCBCTデータセットであり, 高品質な計算トモグラフィーデータである。
CBCTデータは5つの異なる品質レベルで提供され、高い視覚的品質と穏やかなアーティファクトを持つ多数のプロジェクションから、深刻なアーティファクトを持つ少数のプロジェクションまで到達する。
これにより、品質を自由度として徹底的な調査が可能になる。
また,一様および多様のセグメンテーション,マルチタスク学習,スタイル移行などのいくつかの研究シナリオに対して,比較的単純な肝腫瘍セグメンテーションと複雑な肝腫瘍セグメンテーションのセグメンテーションのセグメンテーションを行う。
CBCTLiTSはhttps://www.kaggle.com/datasets/maximiliantschuchnig/cbct-liver-and-liver-segmentation-train-dataを介してアクセス可能である。
Medical imaging is vital in computer assisted intervention. Particularly cone beam computed tomography (CBCT) with defacto real time and mobility capabilities plays an important role. However, CBCT images often suffer from artifacts, which pose challenges for accurate interpretation, motivating research in advanced algorithms for more effective use in clinical practice. In this work we present CBCTLiTS, a synthetically generated, labelled CBCT dataset for segmentation with paired and aligned, high quality computed tomography data. The CBCT data is provided in 5 different levels of quality, reaching from a large number of projections with high visual quality and mild artifacts to a small number of projections with severe artifacts. This allows thorough investigations with the quality as a degree of freedom. We also provide baselines for several possible research scenarios like uni- and multimodal segmentation, multitask learning and style transfer followed by segmentation of relatively simple, liver to complex liver tumor segmentation. CBCTLiTS is accesssible via https://www.kaggle.com/datasets/maximiliantschuchnig/cbct-liver-and-liver-tumor-segmentation-train-d ata. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# ソフトウェア会社はハイブリッドな作業に反応する
Software Companies Responses to Hybrid Working ( http://arxiv.org/abs/2407.14857v1 ) ライセンス: Link先を確認 | Dron Khanna, Henry Edison, Anh Nguyen Duc, Kai Kristian Kemell, | (参考訳) 新型コロナウイルスのパンデミックが世界市場と職場の景観を混乱させている。
結果として、ハイブリッドな作業状況は、ソフトウェアビジネスセクターで人気を博している。
この種の作業は、ソフトウェア会社に影響を与えます。
本研究では,ハイブリッドワークに対するソフトウェア企業の対応について検討する。
私たちは目的を達成するために大規模な調査を行った。
本結果は,124個の有効応答の質的解析に基づく。
私たちの研究の主な成果は、ソフトウェア企業の分類が、個人、チーム、組織レベルでのハイブリッドな作業に影響を与えていることです。
その結果, 個人, 組織レベルでは, 負の反応よりも高い正の反応が認められた。
チームレベルでは、肯定的な影響と否定的な影響の両方が一様に反応した。
その結果,ハイブリッドワークは新型コロナウイルス19の波とともに信頼性が高くなり,83の反応が41の反応を上回った。
ソフトウェア企業の回答者は、ハイブリッドワークにおけるワークライフバランス、生産性、効率性の改善を目撃した。
COVID 19 pandemic has disrupted the global market and workplace landscape. As a response, hybrid work situations have become popular in the software business sector. This way of working has an impact on software companies. This study investigates software companies responses to hybrid working. We conducted a large scale survey to achieve our objective. Our results are based on a qualitative analysis of 124 valid responses. The main result of our study is a taxonomy of software companies impacts on hybrid working at individual, team and organisation levels. We found higher positive responses at individual and organisational levels than negative responses. At the team level, both positive and negative impacts obtained a uniform number of responses. The results indicate that hybrid working became credible with the wave of COVID 19, with 83 positive responses outweighing the 41 negative responses. Software company respondents witnessed better work-life balance, productivity, and efficiency in hybrid working. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# マルコフスキアルゴリズムの一般化とT-準群に基づく直交演算系を用いた暗号化アルゴリズム
An encryption algorithm using a generalization of the Markovski algorithm and a system of orthogonal operations based on T-quasigroups ( http://arxiv.org/abs/2407.14858v1 ) ライセンス: Link先を確認 | Nadezhda Malyutina, Alexander Popov, Victor Shcherbacov, | (参考訳) [1]で提案されたアルゴリズムについて、より詳細な説明がある。
このアルゴリズムは、マルコフスキアルゴリズム[2]の一般化を用いた暗号化と、直交演算システムを用いた暗号化の2つの暗号化手順を同時に使用する。
本稿では,T-準群に基づくアルゴリズムの実装について述べる。
Here is a more detailed description of the algorithm proposed in [1]. This algorithm simultaneously uses two cryptographic procedures: encryption using a generalization of the Markovski algorithm [2] and encryption using a system of orthogonal operations. In this paper, we present an implementation of this algorithm based on T-quasigroups, more precisely, based on medial quasigroups. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# グラフデータ帰属技術による高エネルギー粒子衝突解析の強化
Enhancing High-Energy Particle Physics Collision Analysis through Graph Data Attribution Techniques ( http://arxiv.org/abs/2407.14859v1 ) ライセンス: Link先を確認 | A. Verdone, A. Devoto, C. Sebastiani, J. Carmignani, M. D'Onofrio, S. Giagu, S. Scardapane, M. Panella, | (参考訳) CERNの大型ハドロン衝突型加速器の実験は、高エネルギー粒子衝突から大量の複雑なデータを生成する。
このデータは、その体積と複雑な再構成のために重要な課題を示し、分析に高度な分析技術を使う必要がある。
近年のディープラーニング、特にグラフニューラルネットワークの進歩は、課題に対処する上で有望な結果を示しているが、計算コストは高い。
本稿では,シミュレーション粒子衝突データセットを用いて,衝突事象予測タスクの精度と効率を向上させることを目的とした,グラフ分類パイプライン内の影響分析を統合する。
グラフニューラルネットワークを初期トレーニングに使用することにより、グラデーションに基づくデータインフルエンス法を用いて、影響力のあるトレーニングサンプルを識別し、非コントリビュート要素を除去することでデータセットを洗練し、この新たな縮小データセットでトレーニングされたモデルは、計算コストの削減で優れたパフォーマンスを達成することができる。
本手法は, 特定の影響法とは全く無関係であり, 異なる影響法を我々の方法論に容易に組み込むことができる。
さらに、廃棄された要素を分析することで、イベント分類タスクに関するさらなる洞察を得ることができる。
高速な物理タスクにおいてグラフニューラルネットワークとともにデータ属性技術を統合することの新規性は、大規模なデータ問題を管理し、重要なパターンをキャプチャし、複数の高データ要求領域で精度を最大化するための堅牢なソリューションを提供することができる。
The experiments at the Large Hadron Collider at CERN generate vast amounts of complex data from high-energy particle collisions. This data presents significant challenges due to its volume and complex reconstruction, necessitating the use of advanced analysis techniques for analysis. Recent advancements in deep learning, particularly Graph Neural Networks, have shown promising results in addressing the challenges but remain computationally expensive. The study presented in this paper uses a simulated particle collision dataset to integrate influence analysis inside the graph classification pipeline aiming at improving the accuracy and efficiency of collision event prediction tasks. By using a Graph Neural Network for initial training, we applied a gradient-based data influence method to identify influential training samples and then we refined the dataset by removing non-contributory elements: the model trained on this new reduced dataset can achieve good performances at a reduced computational cost. The method is completely agnostic to the specific influence method: different influence modalities can be easily integrated into our methodology. Moreover, by analyzing the discarded elements we can provide further insights about the event classification task. The novelty of integrating data attribution techniques together with Graph Neural Networks in high-energy physics tasks can offer a robust solution for managing large-scale data problems, capturing critical patterns, and maximizing accuracy across several high-data demand domains. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# 治療効果の定量化によるバイアス補正基準の改善
Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes ( http://arxiv.org/abs/2407.14861v1 ) ライセンス: Link先を確認 | Alexandre Abraham, Andrés Hoyos Idrobo, | (参考訳) 行政保健データベースへのアクセスが増加するにつれ、レトロスペクティブ研究は医療治療にとって重要な証拠となっている。
しかし、非ランダム化研究はしばしば選択バイアスに直面し、緩和戦略を必要とする。
確率スコアマッチング(PSM)は、これらのバイアスに、同等の集団を選択することで対処し、さらなる方法論的な制約を伴わない分析を可能にする。
しかし、PSMにはいくつかの欠点がある。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
チェリーピッキングの最良の方法を避けるために、公共機関はフィールドの専門家を巻き込み、研究者と広範囲にわたる議論を行う必要がある。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
A2Aは、元のものを反映した人工的なマッチングタスクを構築し、各マッチングメソッドのパフォーマンスを、確率推定からATE推定まで包括的に評価する。
標準平均差(Standardized Mean difference)と組み合わせると、A2Aはモデル選択の精度を高め、合成タスク間でのATE推定誤差を最大50%削減し、合成データセットと実世界のデータセットの両方で予測されるATE変動率を最大90%削減する。
我々の知る限り、A2Aは選択に関わらない共変量を用いて結果補正の精度を評価することができる最初の指標である。
A2Aを計算するには、数百のPSMを解く必要があるため、PSMパイプラインのすべての手動ステップを自動化する。
我々はPythonとRのPSMメソッド、自動パイプライン、新しいメトリック、再現可能な実験を新しいPythonパッケージであるPopmatchに統合し、再現性とバイアス補正メソッドへのアクセシビリティを向上させる。
With the growing access to administrative health databases, retrospective studies have become crucial evidence for medical treatments. Yet, non-randomized studies frequently face selection biases, requiring mitigation strategies. Propensity score matching (PSM) addresses these biases by selecting comparable populations, allowing for analysis without further methodological constraints. However, PSM has several drawbacks. Different matching methods can produce significantly different Average Treatment Effects (ATE) for the same task, even when meeting all validation criteria. To prevent cherry-picking the best method, public authorities must involve field experts and engage in extensive discussions with researchers. To address this issue, we introduce a novel metric, A2A, to reduce the number of valid matches. A2A constructs artificial matching tasks that mirror the original ones but with known outcomes, assessing each matching method's performance comprehensively from propensity estimation to ATE estimation. When combined with Standardized Mean Difference, A2A enhances the precision of model selection, resulting in a reduction of up to 50% in ATE estimation errors across synthetic tasks and up to 90% in predicted ATE variability across both synthetic and real-world datasets. To our knowledge, A2A is the first metric capable of evaluating outcome correction accuracy using covariates not involved in selection. Computing A2A requires solving hundreds of PSMs, we therefore automate all manual steps of the PSM pipeline. We integrate PSM methods from Python and R, our automated pipeline, a new metric, and reproducible experiments into popmatch, our new Python package, to enhance reproducibility and accessibility to bias correction methods. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# 感情認識のための説明可能な高速ディープニューラルネットワーク
An Explainable Fast Deep Neural Network for Emotion Recognition ( http://arxiv.org/abs/2407.14865v1 ) ライセンス: Link先を確認 | Francesco Di Luzio, Antonello Rosato, Massimo Panella, | (参考訳) 人工知能の文脈において、意思決定を促進する論理的推論に携わる人間的属性は、モデルが特定の結果にどのように到達したかを明確に解釈可能な説明を提供する能力に関する説明可能性の概念によって反映される。
本研究では、映像解析による感情分類の枠組みにおける二元的ディープニューラルアーキテクチャの説明可能性手法について検討する。
感情認識のための二項分類器への入力特徴の最適化について検討し,統合的グラディエンス説明可能性法の改良版を用いて顔のランドマーク検出を行った。
本研究の主な貢献は、感情感覚における重要な顔のランドマークの動きを理解するための、革新的な説明可能な人工知能アルゴリズムの利用であり、この情報を用いて、深層学習に基づく感情分類器の性能を向上させることである。
説明可能性によって、顔の感情認識の入力機能として使用される顔のランドマークの数と位置を最適化し、ノイズの多いランドマークの影響を低減し、発達したモデルの精度を高めることができる。
提案手法の有効性を検証するために,まず顔のランドマークの完全なセットで訓練された感情分類のための深部二分モデルについて検討した。
その結果、異なる感情に対する異なる顔点の関連性を理解し、分類精度を向上し、計算コストを低減させるという観点から、提案した説明可能なアプローチの頑健さが証明された。
In the context of artificial intelligence, the inherent human attribute of engaging in logical reasoning to facilitate decision-making is mirrored by the concept of explainability, which pertains to the ability of a model to provide a clear and interpretable account of how it arrived at a particular outcome. This study explores explainability techniques for binary deep neural architectures in the framework of emotion classification through video analysis. We investigate the optimization of input features to binary classifiers for emotion recognition, with face landmarks detection using an improved version of the Integrated Gradients explainability method. The main contribution of this paper consists in the employment of an innovative explainable artificial intelligence algorithm to understand the crucial facial landmarks movements during emotional feeling, using this information also for improving the performances of deep learning-based emotion classifiers. By means of explainability, we can optimize the number and the position of the facial landmarks used as input features for facial emotion recognition, lowering the impact of noisy landmarks and thus increasing the accuracy of the developed models. In order to test the effectiveness of the proposed approach, we considered a set of deep binary models for emotion classification trained initially with a complete set of facial landmarks, which are progressively reduced based on a suitable optimization procedure. The obtained results prove the robustness of the proposed explainable approach in terms of understanding the relevance of the different facial points for the different emotions, also improving the classification accuracy and diminishing the computational cost. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# 水中画像復元のための2次高次全変動モデル
Dual High-Order Total Variation Model for Underwater Image Restoration ( http://arxiv.org/abs/2407.14868v1 ) ライセンス: Link先を確認 | Yuemei Li, Guojia Hou, Peixian Zhuang, Zhenkuan Pan, | (参考訳) 水中画像は、光が水中を伝播する際に選択的に吸収され散乱するため、カラーキャスト、ヘイズ、ぼかし、不均一な照明によって特徴付けられる。
水中画像の高画質化と復元(UIER)は,水中画像の画質向上のための重要な手段である。
しかし、既存のUIER手法の多くはコントラストの強化と脱湿に集中しており、照明のバリエーションに起因する画像内の局所的な照明の違いにはほとんど注意を払わず、望ましくないアーティファクトや不自然な色を導入している。
この問題に対処するために,拡張水中画像形成モデル(UIFM)に基づく効果的な変分フレームワークを提案する。
技術的には、二重高次正規化は変動モデルにうまく統合され、滑らかな局所環境照度と構造反転反射率を統一的に取得する。
提案フレームワークでは,重み係数に基づく色補正とカラーバランスを組み合わせることで,減衰した色チャネルを補償し,色キャストを除去する。
特に、局所パッチ輝度推定と改良されたガンマ補正を行うことにより、強靭性を有する局所環境照度を得る。
さらに,提案した変分モデルの解を高速化するために,乗算器の交互方向法(ADMM)に依存する反復最適化アルゴリズムを設計する。
3つの実世界の水中画像データセットに関する検討実験により、提案手法は視覚的品質と定量的評価に関していくつかの最先端の手法より優れていることを示した。
さらに,提案手法は,アウトドアイメージデハージング,低照度画像強調,高レベル視覚タスクにも拡張可能である。
コードはhttps://github.com/Hou-Guojia/UDHTVで入手できる。
Underwater images are typically characterized by color cast, haze, blurring, and uneven illumination due to the selective absorption and scattering when light propagates through the water, which limits their practical applications. Underwater image enhancement and restoration (UIER) is one crucial mode to improve the visual quality of underwater images. However, most existing UIER methods concentrate on enhancing contrast and dehazing, rarely pay attention to the local illumination differences within the image caused by illumination variations, thus introducing some undesirable artifacts and unnatural color. To address this issue, an effective variational framework is proposed based on an extended underwater image formation model (UIFM). Technically, dual high-order regularizations are successfully integrated into the variational model to acquire smoothed local ambient illuminance and structure-revealed reflectance in a unified manner. In our proposed framework, the weight factors-based color compensation is combined with the color balance to compensate for the attenuated color channels and remove the color cast. In particular, the local ambient illuminance with strong robustness is acquired by performing the local patch brightest pixel estimation and an improved gamma correction. Additionally, we design an iterative optimization algorithm relying on the alternating direction method of multipliers (ADMM) to accelerate the solution of the proposed variational model. Considerable experiments on three real-world underwater image datasets demonstrate that the proposed method outperforms several state-of-the-art methods with regard to visual quality and quantitative assessments. Moreover, the proposed method can also be extended to outdoor image dehazing, low-light image enhancement, and some high-level vision tasks. The code is available at https://github.com/Hou-Guojia/UDHTV. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# 遺伝子多部非局所性と全ネットワーク非局所性の同時検証
Simultaneous Verification of Genuine Multipartite Nonlocality and Full Network Nonlocality ( http://arxiv.org/abs/2407.14871v1 ) ライセンス: Link先を確認 | Wang Ning-Ning, Yang Xue, Yang Yan-Han, Zhang Chao, Luo Ming-Xing, Liu Bi-Heng, Huang Yun-Feng, Li Chuan-Feng, Guo Guang-Can, | (参考訳) 複数の独立した情報源から構成されるネットワークで生じる遺伝子多部非局所性と非局所性について,別々に検討した。
いくつかの真の絡み合った状態は、ベル型不等式に違反して検証できないが、異なるソースからなる量子ネットワークは、すべてのソースの非古典性を保証することができる。
本論文では, 一つの実験において, 両方の非局所性を同時に検証する手法を提案する。
本稿では,2部構成の2部構成と3部構成の3部構成の量子ネットワークについて考察する。
両分割可能系が分配されるのに対して, 両分割可能系が分配され, さらに強い量子系が分配される場合, 量子相関はシミュレートできないことを示す。
これらの相関関係は、一般化されたグリーンベルガー=ホルン=ザイリンガー状態の真の多部的非局所性と、既存のすべての結果よりも強い完全なネットワーク的非局所性の両方を検証するのに利用できる。
実験により,高忠実度フォトニック量子ネットワークにおける2種類の非局所性を,単一ネットワークベル不等式に違反して観測した。
Genuine multipartite nonlocality and nonlocality arising in networks composed of several independent sources have been separately investigated. While some genuinely entangled states cannot be verified by violating a single Bell-type inequality, a quantum network consisting of different sources allows for the certification of the non-classicality of all sources. In this paper, we propose the first method to verify both types of nonlocality simultaneously in a single experiment. We consider a quantum network comprising a bipartite source and a tripartite source. We demonstrate that there are quantum correlations cannot be simulated if the tripartite source distributes biseparable systems while the bipartite source distributes even stronger-than-quantum systems. These correlations can be used to verify both the genuine multipartite nonlocality of generalized Greenberger-Horne-Zeilinger states and the full network nonlocality that is stronger than all the existing results. Experimentally, we observe both types of nonlocality in a high fidelity photonic quantum network by violating a single network Bell inequality. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# Adapt2Reward: 失敗プロンプトによる一般化可能なロボットリワードにビデオ言語モデルを適用する
Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts ( http://arxiv.org/abs/2407.14872v1 ) ライセンス: Link先を確認 | Yanting Yang, Minghao Chen, Qibo Qiu, Jiahao Wu, Wenxiao Wang, Binbin Lin, Ziyu Guan, Xiaofei He, | (参考訳) 汎用ロボットが現実に動作するためには、様々な環境にまたがる幅広い命令を実行することが不可欠である。
このようなロボットエージェントの強化学習と計画の中心は、一般化可能な報酬関数である。
CLIPのような視覚言語モデルの最近の進歩は、ディープラーニングの領域において顕著なパフォーマンスを示し、オープンドメインの視覚認識の道を開いた。
しかし、複数の環境にまたがる様々な言語命令を実行するロボットのデータ収集は依然として困難である。
本稿では,単一環境下でのタスクの最小限のロボットビデオデータのみを用いて,ロバストな一般化を伴う映像言語モデルを一般化可能な言語条件付き報酬関数に変換することを目的とする。
報酬関数のトレーニングに使用される一般的なロボットデータセットとは異なり、人間のビデオ言語データセットには、自明な失敗ビデオがほとんど含まれない。
ロボット実行の成功と失敗を区別するモデルの能力を高めるために、我々は失敗ビデオの特徴をクラスタ化し、モデルが内部のパターンを識別できるようにする。
各クラスタに対して、新たにトレーニングされた障害プロンプトをテキストエンコーダに統合し、対応する障害モードを表現します。
言語条件付き報酬関数は、新しい環境への優れた一般化と、ロボット計画と強化学習のための新しい指示を示す。
For a general-purpose robot to operate in reality, executing a broad range of instructions across various environments is imperative. Central to the reinforcement learning and planning for such robotic agents is a generalizable reward function. Recent advances in vision-language models, such as CLIP, have shown remarkable performance in the domain of deep learning, paving the way for open-domain visual recognition. However, collecting data on robots executing various language instructions across multiple environments remains a challenge. This paper aims to transfer video-language models with robust generalization into a generalizable language-conditioned reward function, only utilizing robot video data from a minimal amount of tasks in a singular environment. Unlike common robotic datasets used for training reward functions, human video-language datasets rarely contain trivial failure videos. To enhance the model's ability to distinguish between successful and failed robot executions, we cluster failure video features to enable the model to identify patterns within. For each cluster, we integrate a newly trained failure prompt into the text encoder to represent the corresponding failure mode. Our language-conditioned reward function shows outstanding generalization to new environments and new instructions for robot planning and reinforcement learning. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# シール: 音声学習者のための言語モデルの改善
Seal: Advancing Speech Language Models to be Few-Shot Learners ( http://arxiv.org/abs/2407.14875v1 ) ライセンス: Link先を確認 | Shuyu Lei, Lingen Liu, Jiaolong Yang, Yasen Jiao, Yuxiang Yang, Yushu Yang, Xiang Guo, | (参考訳) 既存の自動回帰言語モデルは、追加のトレーニングを必要とせずに、即座にいくつかの例で新しいタスクを実行する驚くべき能力を示している。
この能力を多モーダル・セッティング(音声と言語)に拡張するために,本研究では,音声モデルの省略形であるシールモデルを提案する。
これは、凍結した音声エンコーダを凍結した言語モデルデコーダでブリッジするプロジェクタを訓練するために、Kulback-Leibler分散損失を行う新しいアライメント手法を含む。
結果のSealモデルは、2つの音声理解タスクにおいて、数ショットの学習者として頑健なパフォーマンスを示す。
さらに、様々な事前訓練された言語モデル上で、一貫性実験を行い、その堅牢性を検証する。
Existing auto-regressive language models have demonstrated a remarkable capability to perform a new task with just a few examples in prompt, without requiring any additional training. In order to extend this capability to a multi-modal setting (i.e. speech and language), this paper introduces the Seal model, an abbreviation for speech language model. It incorporates a novel alignment method, in which Kullback-Leibler divergence loss is performed to train a projector that bridges a frozen speech encoder with a frozen language model decoder. The resulting Seal model exhibits robust performance as a few-shot learner on two speech understanding tasks. Additionally, consistency experiments are conducted to validate its robustness on different pre-trained language models. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# 深層学習に基づく懐疑的セズーア予測のための事前周期最適化
Preictal Period Optimization for Deep Learning-Based Epileptic Seizure Prediction ( http://arxiv.org/abs/2407.14876v1 ) ライセンス: Link先を確認 | Petros Koutsouvelis, Bartlomiej Chybowski, Alfredo Gonzalez-Sulser, Shima Abdullateef, Javier Escudero, | (参考訳) てんかん発作の正確な予測は、薬剤耐性てんかんにおける患者の安全性と生活の質を向上させるために重要である。
深層学習に基づくアプローチは、頭皮脳波(EEG)信号を用いた有望な発作予測性能を示したが、かなりの制限が臨床応用を妨げている。
さらに、脳波セグメントをラベル付けするための最適前立腺周期(OPP)の同定は依然として課題である。
ここでは、発作予測のための競合的深層学習モデルを開発するだけでなく、それを利用して発作予測タスクにおける予測性能を総合的に評価する手法を実証する。
そこで我々はCNN-Transformerディープラーニングモデルを導入し,OPPを決定するための新しいCIOPR(Continuous Input-Output Performance Ratio)指標と合わせて,事前時空間ダイナミクスを検出する。
オープンアクセス型CHB-MITデータセットを対象とした19名の小児患者を対象に,本モデルを訓練・評価した。
各患者のOPPを用いて、平均感度は99.31%、特異性は95.34%、AUCは99.35%、F1-スコアは97.46%、予測時間は76.8分であった。
特に,新たなCIOPR尺度では,予測時間,精度,出力安定性,間質状態間の遷移時間への影響を包括的かつ定量的に概説し,発作予測における患者間の変動と患者内変動の両方を考慮することの重要性を強調した。
Accurate prediction of epileptic seizures could prove critical for improving patient safety and quality of life in drug-resistant epilepsy. Although deep learning-based approaches have shown promising seizure prediction performance using scalp electroencephalogram (EEG) signals, substantial limitations still impede their clinical adoption. Furthermore, identifying the optimal preictal period (OPP) for labeling EEG segments remains a challenge. Here, we not only develop a competitive deep learning model for seizure prediction but, more importantly, leverage it to demonstrate a methodology to comprehensively evaluate the predictive performance in the seizure prediction task. For this, we introduce a CNN-Transformer deep learning model to detect preictal spatiotemporal dynamics, alongside a novel Continuous Input-Output Performance Ratio (CIOPR) metric to determine the OPP. We trained and evaluated our model on 19 pediatric patients of the open-access CHB-MIT dataset in a subject-specific manner. Using the OPP of each patient, preictal and interictal segments were correctly identified with an average sensitivity of 99.31%, specificity of 95.34%, AUC of 99.35%, and F1- score of 97.46%, while prediction time averaged 76.8 minutes before onset. Notably, our novel CIOPR metric allowed outlining the impact of different preictal period definitions on prediction time, accuracy, output stability, and transition time between interictal and preictal states in a comprehensive and quantitative way and highlighted the importance of considering both inter- and intra-patient variability in seizure prediction. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# モジュール型文エンコーダ:言語仕様を言語間アライメントから分離する
Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment ( http://arxiv.org/abs/2407.14878v1 ) ライセンス: Link先を確認 | Yongxin Huang, Kexin Wang, Goran Glavaš, Iryna Gurevych, | (参考訳) 多言語文エンコーダは、多言語言語モデルを訓練し、異なる言語からの文を共有意味空間にマッピングすることで一般的に得られる。
そのため、パラメータ共有による単言語表現精度の喪失である多言語性の呪いにさらされる。
多言語文エンコーダのもう1つの制限は、モノリンガルとクロスリンガルのパフォーマンスのトレードオフである。
文埋め込みの言語間アライメントの訓練は、個々の言語の意味空間の最適な単言語構造を歪め、単言語タスクにおける文埋め込みの有用性を損なう。
本研究では,文エンコーダのモジュラートレーニング,すなわち言語間アライメントからモノリンガル特殊化を分離することで,両問題に対処する。
まず、言語間のネガティブな干渉を避けるために、言語固有の文エンコーダを効率的に訓練する。
次に、英語以外のすべてのモノリンガルエンコーダを英語エンコーダにアラインメントアダプタをトレーニングし、最初のステップからモノリンガル特殊化の干渉を防ぐ。
どちらのステップでも、機械翻訳されたパラフレーズデータに対する対照的な学習に頼っている。
セマンティックテキストの類似性/関連性および複数選択QAに関する一言語間および多言語間評価により、モジュール化されたソリューションは多言語文エンコーダよりも効果的であり、特に低リソース言語に有利である。
Multilingual sentence encoders are commonly obtained by training multilingual language models to map sentences from different languages into a shared semantic space. As such, they are subject to curse of multilinguality, a loss of monolingual representational accuracy due to parameter sharing. Another limitation of multilingual sentence encoders is the trade-off between monolingual and cross-lingual performance. Training for cross-lingual alignment of sentence embeddings distorts the optimal monolingual structure of semantic spaces of individual languages, harming the utility of sentence embeddings in monolingual tasks. In this work, we address both issues by modular training of sentence encoders, i.e., by separating monolingual specialization from cross-lingual alignment. We first efficiently train language-specific sentence encoders to avoid negative interference between languages (i.e., the curse). We then align all non-English monolingual encoders to the English encoder by training a cross-lingual alignment adapter on top of each, preventing interference with monolingual specialization from the first step. In both steps, we resort to contrastive learning on machine-translated paraphrase data. Monolingual and cross-lingual evaluations on semantic text similarity/relatedness and multiple-choice QA render our modular solution more effective than multilingual sentence encoders, especially benefiting low-resource languages. | 翻訳日:2024-07-23 20:32:23 公開日:2024-07-20 |
# Thompson Smpling Itselfは個人的ではない
Thompson Sampling Itself is Differentially Private ( http://arxiv.org/abs/2407.14879v1 ) ライセンス: Link先を確認 | Tingting Ou, Marco Avella Medina, Rachel Cummings, | (参考訳) この研究において、まず、マルチアームバンディットに対する古典的なトンプソンサンプリングアルゴリズムは、変更することなく、微分的にプライベートであることを示す。
我々は,問題パラメータの関数として全体のプライバシ保証を提供し,T$ラウンドのコンポジションを示す。アルゴリズムは変わらず,既存の$O(\sqrt{NT\log N})$ regret boundsがまだ保持されており,プライバシによるパフォーマンスの損失はない。
次に、すべてのアームを一定回数プリプルしたり、サンプリングのばらつきを増大させたりといった、単純な修正が、より厳密なプライバシー保証をもたらすことを示します。
我々はまた、修正で導入された新しいパラメータに依存するプライバシー保証を提供し、アナリストが必要に応じてプライバシー保証を調整できるようにします。
また,このアルゴリズムに対する新たな後悔分析を行い,新たなパラメータが期待された後悔にどのように影響するかを示す。
最後に,2つのパラメータ体系における理論的な知見を実証的に検証し,新しいパラメータの調整がプライバシーとプライバシーのトレードオフを大幅に改善することを示す。
In this work we first show that the classical Thompson sampling algorithm for multi-arm bandits is differentially private as-is, without any modification. We provide per-round privacy guarantees as a function of problem parameters and show composition over $T$ rounds; since the algorithm is unchanged, existing $O(\sqrt{NT\log N})$ regret bounds still hold and there is no loss in performance due to privacy. We then show that simple modifications -- such as pre-pulling all arms a fixed number of times, increasing the sampling variance -- can provide tighter privacy guarantees. We again provide privacy guarantees that now depend on the new parameters introduced in the modification, which allows the analyst to tune the privacy guarantee as desired. We also provide a novel regret analysis for this new algorithm, and show how the new parameters also impact expected regret. Finally, we empirically validate and illustrate our theoretical findings in two parameter regimes and demonstrate that tuning the new parameters substantially improve the privacy-regret tradeoff. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# リアルタイムブラインド画像の高分解能化のための新しいデータセットとフレームワーク
A New Dataset and Framework for Real-World Blurred Images Super-Resolution ( http://arxiv.org/abs/2407.14880v1 ) ライセンス: Link先を確認 | Rui Qin, Ming Sun, Chao Zhou, Bin Wang, | (参考訳) 近年のBlind Image Super-Resolution (BSR) 法では, 画像の精度が向上している。
しかし,近年の手法の有効性は,画像データにぼやけたぼやけが生じると明らかに低下するが,意図的なぼやけのある画像データは,かなりの割合の一般データを構成する。
この問題をさらに調査・解決するため,我々は,Blur-kept Super-Resolution (ReBlurSR) データセットと呼ばれる,ブラー画像に特化された新しい超解像データセットを開発した。
さらに,Cross Disentanglement Module (CDM) とCross Fusion Module (CFM) の2つの主要モジュールから構成されるPerceptual-Blur-Adaptive Super-Resolution (PBaSR) と呼ばれる,ぼやけた画像のための新しいBSRフレームワークを提案する。
CDMは双分岐並列性を利用して、最適化中に矛盾するぼかしと一般的なデータを分離する。
CFMは、モデル補間に基づいて、これらの異なる領域から適切に最適化された事前を低コストかつ効率的に融合させる。
これら2つのモジュールを統合することで、PBaSRは、追加の推論やデプロイメントコストを伴わずに、一般的なデータと曖昧なデータの両方で、信頼性の高いパフォーマンスを実現し、複数のモデルアーキテクチャにまたがって一般化することができる。
リッチな実験により、PBaSRは、余分な推論コストを伴わずに、様々なメトリクスにわたる最先端のパフォーマンスを達成することが示されている。
広く採用されているLPIPSメトリクスの中で、PBaSRはReBlurSRと複数の一般的なBSRベンチマークの両方で、様々なアンカーメソッドとブラータイプで0.02-0.10の改善範囲を達成している。
コード:https://github.com/Imalne/PBaSR。
Recent Blind Image Super-Resolution (BSR) methods have shown proficiency in general images. However, we find that the efficacy of recent methods obviously diminishes when employed on image data with blur, while image data with intentional blur constitute a substantial proportion of general data. To further investigate and address this issue, we developed a new super-resolution dataset specifically tailored for blur images, named the Real-world Blur-kept Super-Resolution (ReBlurSR) dataset, which consists of nearly 3000 defocus and motion blur image samples with diverse blur sizes and varying blur intensities. Furthermore, we propose a new BSR framework for blur images called Perceptual-Blur-adaptive Super-Resolution (PBaSR), which comprises two main modules: the Cross Disentanglement Module (CDM) and the Cross Fusion Module (CFM). The CDM utilizes a dual-branch parallelism to isolate conflicting blur and general data during optimization. The CFM fuses the well-optimized prior from these distinct domains cost-effectively and efficiently based on model interpolation. By integrating these two modules, PBaSR achieves commendable performance on both general and blur data without any additional inference and deployment cost and is generalizable across multiple model architectures. Rich experiments show that PBaSR achieves state-of-the-art performance across various metrics without incurring extra inference costs. Within the widely adopted LPIPS metrics, PBaSR achieves an improvement range of approximately 0.02-0.10 with diverse anchor methods and blur types, across both the ReBlurSR and multiple common general BSR benchmarks. Code here: https://github.com/Imalne/PBaSR. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# Kolmogorov-Arnold ネットワークの雑音機能に対する効果の低減
Reduced Effectiveness of Kolmogorov-Arnold Networks on Functions with Noise ( http://arxiv.org/abs/2407.14882v1 ) ライセンス: Link先を確認 | Haoran Shen, Chen Zeng, Jiahui Wang, Qiao Wang, | (参考訳) データセットに少量のノイズがもたらされたとしても,kanの性能は著しく低下することが観察された。
本稿では,データセットにノイズが付加された場合のパフォーマンスを定量的に評価することを目的とする。
ノイズの影響を軽減するため,重畳法と重畳法を組み合わせたオーバーサンプリング手法を提案する。
具体的には、拡散マップに基づくカーネルフィルタリングを用いてノイズデータを事前フィルタリングし、kanネットワークをトレーニングする。
実験の結果,任意の固定SNRでi.d.ノイズを付加しながら,r$でトレーニングデータ量を増やすと,kansのテストロス(RMSE)は$\text{test-loss} \sim \mathcal{O}(r^{-\frac{1}{2}})$ as $r\to +\infty$のようなパフォーマンス傾向を示すことがわかった。
オーバーサンプリングとフィルタリングの両方の手法を適用することで、ノイズの有害な影響を低減できると結論付けている。
それにもかかわらず、カーネルフィルタリングプロセスの最適分散を決定することは困難であり、トレーニングデータセットを初期クリーンデータと比較して複数回拡張する必要があるため、トレーニングデータのボリュームが大幅に増大する。
その結果、データに存在するノイズは最終的にコルモゴロフ・アルノルドネットワークの有効性を低下させる。
It has been observed that even a small amount of noise introduced into the dataset can significantly degrade the performance of KAN. In this brief note, we aim to quantitatively evaluate the performance when noise is added to the dataset. We propose an oversampling technique combined with denoising to alleviate the impact of noise. Specifically, we employ kernel filtering based on diffusion maps for pre-filtering the noisy data for training KAN network. Our experiments show that while adding i.i.d. noise with any fixed SNR, when we increase the amount of training data by a factor of $r$, the test-loss (RMSE) of KANs will exhibit a performance trend like $\text{test-loss} \sim \mathcal{O}(r^{-\frac{1}{2}})$ as $r\to +\infty$. We conclude that applying both oversampling and filtering strategies can reduce the detrimental effects of noise. Nevertheless, determining the optimal variance for the kernel filtering process is challenging, and enhancing the volume of training data substantially increases the associated costs, because the training dataset needs to be expanded multiple times in comparison to the initial clean data. As a result, the noise present in the data ultimately diminishes the effectiveness of Kolmogorov-Arnold networks. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# ニューロモルフィックモードレジームを用いた交流潮流中の微粒なリモート情報の推定
Inferring Ingrained Remote Information in AC Power Flows Using Neuromorphic Modality Regime ( http://arxiv.org/abs/2407.14883v1 ) ライセンス: Link先を確認 | Xiaoguang Diao, Yubo Song, Subham Sahoo, | (参考訳) 本稿では、電力変換器の効率よく協調するためのエッジプロセッサとして、スパイクニューラルネットワーク(SNN)を用いて、交流電力流中の微細なリモート情報を推定する。
この研究は、エネルギー効率のよいニューロモルフィック処理とセマンティックス理論を用いて、スパイクの形でマルチモーダルな状態を用いたデータ正規化の手段として、パワーと情報を統一する。
まず、各エッジで同期実測値を整理し、非同期スパイクベースのイベントに変換し、各エッジでSNNを訓練するためのスパースデータを収集する。
エラー依存型教師付きデータ駆動学習理論に代えて,遅延駆動型非教師付きヘビアン学習規則を用いて,相互に通信可能な電力変換器のスイッチングのための変調パルスを得る。
この哲学は、サイバーレイヤを排除することによって、サイバー攻撃者の外因性パスの到着を阻止するだけでなく、システム再構成やパラメータミスマッチ問題へのコンバータ適応も必要である。
本研究は,改良型IEEE 14バスシステムおよび実験条件下での様々なシナリオにおいて,そのエネルギー効率と効果的なオンライン学習性能を検証することにより,本研究を結論付ける。
In this paper, we infer ingrained remote information in AC power flows using spiking neural network (SNN) as edge processors for efficient coordination of power electronic converters. This work unifies power and information as a means of data normalization using a multi-modal regime in the form of spikes using energy-efficient neuromorphic processing and semantics theory. Firstly, we organize the synchronous realvalued measurements at each edge and translate them into asynchronous spike-based events to collect sparse data for training of SNN at each edge. Instead of relying on error-dependent supervised data-driven learning theory, we exploit the latency-driven unsupervised Hebbian learning rule to obtain modulation pulses for switching of power electronic converters that can now communicate among each other. Not only does this philosophy block exogenous path arrival for cyber attackers by dismissing the cyber layer, it also entails converter adaptation to system reconfiguration and parameter mismatch issues. We conclude this work by validating its energy-efficient and effective online learning performance under various scenarios in modified IEEE 14-bus system and under experimental conditions. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# Falcon2-11Bの技術報告
Falcon2-11B Technical Report ( http://arxiv.org/abs/2407.14885v1 ) ライセンス: Link先を確認 | Quentin Malartic, Nilabhra Roy Chowdhury, Ruxandra Cojocaru, Mugariya Farooq, Giulia Campesan, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Ankit Singh, Maksim Velikanov, Basma El Amel Boussaha, Mohammed Al-Yafeai, Hamza Alobeidli, Leen Al Qadi, Mohamed El Amine Seddik, Kirill Fedyanin, Reda Alami, Hakim Hacid, | (参考訳) 5兆以上のトークンでトレーニングされた基盤モデルであるFalcon2-11Bと、そのマルチモーダルモデルであるFalcon2-11B-vlmを紹介する。
Falcon2-11Bの訓練中に得られた知見を報告する。これは、初期の段階が文脈の長さと、キュレートされた高品質データセットを使用する最終段階によって区別されるマルチステージアプローチである。
さらに,学習中のバッチサイズを2倍にし,学習率によって学習損失のスパイクがどう影響するかを報告する。
基礎モデルのダウンストリーム性能は、マルチリンガルやコードデータセットを含む確立したベンチマークで評価される。
基礎モデルは、下流の微調整ユースケースに適した全てのタスクに対して強力な一般化を示す。
視覚言語モデルでは、複数のベンチマークで性能を報告し、同規模のオープンソースモデルと比較して平均スコアが高いことを示す。
ファルコン2-11Bとファルコン2-11B-vlmのモデル重量とコードは許容ライセンスの下で利用可能である。
We introduce Falcon2-11B, a foundation model trained on over five trillion tokens, and its multimodal counterpart, Falcon2-11B-vlm, which is a vision-to-text model. We report our findings during the training of the Falcon2-11B which follows a multi-stage approach where the early stages are distinguished by their context length and a final stage where we use a curated, high-quality dataset. Additionally, we report the effect of doubling the batch size mid-training and how training loss spikes are affected by the learning rate. The downstream performance of the foundation model is evaluated on established benchmarks, including multilingual and code datasets. The foundation model shows strong generalization across all the tasks which makes it suitable for downstream finetuning use cases. For the vision language model, we report the performance on several benchmarks and show that our model achieves a higher average score compared to open-source models of similar size. The model weights and code of both Falcon2-11B and Falcon2-11B-vlm are made available under a permissive license. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# 潜在汚染モデル:3次元画像合成における隠れたカーボンフットプリント
Latent Pollution Model: The Hidden Carbon Footprint in 3D Image Synthesis ( http://arxiv.org/abs/2407.14892v1 ) ライセンス: Link先を確認 | Marvin Seyfarth, Salman Ul Hassan Dar, Sandy Engelhardt, | (参考訳) ジェネレーティブAIの現代的発展は、医療AIの分野を急速に変えつつある。
これらの開発は、大きなデータセットと高い計算能力の可用性によって主に推進され、モデルキャパシティが大幅に向上した。
かなりの可能性にもかかわらず、これらのモデルはかなり高い電力を要求され、二酸化炭素(CO2)の排出量が増加する。
このようなモデルが環境に害をもたらすことを考えると、そのようなモデルの炭素フットプリントにはほとんど焦点が当てられていない。
本研究では,2次元および3次元潜伏拡散モデル(LDM)のトレーニングおよびデータ生成段階における炭素放出を分析し,大きな画像の合成がこれらの放出に最も寄与することを明らかにする。
モデルのサイズ、画像次元、分散トレーニング、データ生成ステップなど、さまざまなシナリオを評価します。
実験では, 走行距離が10km, 走行距離が90kmの2Dモデルと3Dモデルとを比較した。
データ生成のプロセスはさらに重要であり、CO2排出量は2Dモデルで160kmを駆動し、3D合成で最大3345kmを走行する。
さらに、実験の場所は最大94倍まで二酸化炭素排出量を増加させ、年末までも最大50%の排出量に影響を及ぼすことがわかりました。
これらの数字は、各モデルの単一のトレーニングとデータ生成フェーズのみを表現していることを考えると、警戒すべきものです。
本研究は, 生産型AIにおける環境保全戦略の急激な開発の必要性を強調した。
Contemporary developments in generative AI are rapidly transforming the field of medical AI. These developments have been predominantly driven by the availability of large datasets and high computing power, which have facilitated a significant increase in model capacity. Despite their considerable potential, these models demand substantially high power, leading to high carbon dioxide (CO2) emissions. Given the harm such models are causing to the environment, there has been little focus on the carbon footprints of such models. This study analyzes carbon emissions from 2D and 3D latent diffusion models (LDMs) during training and data generation phases, revealing a surprising finding: the synthesis of large images contributes most significantly to these emissions. We assess different scenarios including model sizes, image dimensions, distributed training, and data generation steps. Our findings reveal substantial carbon emissions from these models, with training 2D and 3D models comparable to driving a car for 10 km and 90 km, respectively. The process of data generation is even more significant, with CO2 emissions equivalent to driving 160 km for 2D models and driving for up to 3345 km for 3D synthesis. Additionally, we found that the location of the experiment can increase carbon emissions by up to 94 times, and even the time of year can influence emissions by up to 50%. These figures are alarming, considering they represent only a single training and data generation phase for each model. Our results emphasize the urgent need for developing environmentally sustainable strategies in generative AI. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# 終端変動下におけるハイパースペクトルアンミキシング--変分推論フレームワーク
Hyperspectral Unmixing Under Endmember Variability: A Variational Inference Framework ( http://arxiv.org/abs/2407.14899v1 ) ライセンス: Link先を確認 | Yuening Li, Xiao Fu, Junbin Liu, Wing-Kin Ma, | (参考訳) 本研究は、終端変動(HU-EV)の存在下でのハイパースペクトルアンミックスのための変分推論(VI)フレームワークを提案する。
EV対応ノイズリニアミックスモデル (LMM) も検討し, モデルに外れ値の存在も考慮した。
MMLの原理に従い、VIアルゴリズム構造はHU-EVの確率的推論のために設計されている。
具体的には、空間的滑らかさを活かし、HU-EV問題の性質の悪さを克服するために、パッチワイドな終端仮定を用いる。
この設計は、様々なエンドメンバーの事前条件の下で、軽量で継続的な最適化ベースの更新を容易にする。
ベータ前のような前者のいくつかは、以前は計算的に重くサンプリングベースの確率的HU-EV法で使われていた。
提案手法の有効性は, 合成, セミリアル, 実データ実験によって実証される。
This work proposes a variational inference (VI) framework for hyperspectral unmixing in the presence of endmember variability (HU-EV). An EV-accounted noisy linear mixture model (LMM) is considered, and the presence of outliers is also incorporated into the model. Following the marginalized maximum likelihood (MML) principle, a VI algorithmic structure is designed for probabilistic inference for HU-EV. Specifically, a patch-wise static endmember assumption is employed to exploit spatial smoothness and to try to overcome the ill-posed nature of the HU-EV problem. The design facilitates lightweight, continuous optimization-based updates under a variety of endmember priors. Some of the priors, such as the Beta prior, were previously used under computationally heavy, sampling-based probabilistic HU-EV methods. The effectiveness of the proposed framework is demonstrated through synthetic, semi-real, and real-data experiments. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# AGLLDiff:教師なし非教師なし実世界の低照度画像強調に向けての拡散モデル
AGLLDiff: Guiding Diffusion Models Towards Unsupervised Training-free Real-world Low-light Image Enhancement ( http://arxiv.org/abs/2407.14900v1 ) ライセンス: Link先を確認 | Yunlong Lin, Tian Ye, Sixiang Chen, Zhenqi Fu, Yingying Wang, Wenhao Chai, Zhaohu Xing, Lei Zhu, Xinghao Ding, | (参考訳) 既存の低照度画像強調法 (LIE) は合成歪みの解法において顕著な成功を収めてきたが、実際は不十分であることが多い。
この制限は、現実世界のLIEにおける2つの固有の課題から生じる。
1)歪んだ/クリーンな画像対の収集は、しばしば非現実的であり、時には不可能である。
2) 複雑な劣化を正確にモデル化すると,非自明な問題が発生する。
そこで本研究では,AGLLDiff(Atribute Guidance Diffusion framework)を提案する。
劣化過程を具体的に定義する代わりに、AGLLDiffはパラダイムをシフトし、通常光画像の露出、構造、色など、望ましい属性をモデル化する。
これらの属性は容易に利用でき、分解過程について仮定を課すことなく、拡散サンプリングプロセスは信頼性の高い高品質な解空間に導かれる。
大規模な実験により、我々の手法は、歪みベースおよび知覚ベースメトリクスの点で、現在の非教師なしのLIEメソッドよりも優れており、洗練された荒野劣化においてもうまく機能することを示した。
Existing low-light image enhancement (LIE) methods have achieved noteworthy success in solving synthetic distortions, yet they often fall short in practical applications. The limitations arise from two inherent challenges in real-world LIE: 1) the collection of distorted/clean image pairs is often impractical and sometimes even unavailable, and 2) accurately modeling complex degradations presents a non-trivial problem. To overcome them, we propose the Attribute Guidance Diffusion framework (AGLLDiff), a training-free method for effective real-world LIE. Instead of specifically defining the degradation process, AGLLDiff shifts the paradigm and models the desired attributes, such as image exposure, structure and color of normal-light images. These attributes are readily available and impose no assumptions about the degradation process, which guides the diffusion sampling process to a reliable high-quality solution space. Extensive experiments demonstrate that our approach outperforms the current leading unsupervised LIE methods across benchmarks in terms of distortion-based and perceptual-based metrics, and it performs well even in sophisticated wild degradation. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# 学習3Dハンドジェスチャを用いた自動位置決め
Automated Patient Positioning with Learned 3D Hand Gestures ( http://arxiv.org/abs/2407.14903v1 ) ライセンス: Link先を確認 | Zhongpai Gao, Abhishek Sharma, Meng Zheng, Benjamin Planche, Terrence Chen, Ziyan Wu, | (参考訳) スキャンおよび介入手順のための患者の位置決めは、高い精度と正確性を必要とする重要な課題である。
従来のワークフローでは、患者サポートを手動で調整し、対象身体部分の中心をレーザープロジェクタや他の誘導装置と整列させる。
このプロセスは時間を要するだけでなく、不正確さも伴う。
そこで本研究では,カメラを用いて手の動きを検知し,対象の患者領域をシステムに表示し,自動位置決めを開始する自動位置決めシステムを提案する。
われわれのアプローチは、技術者のジェスチャーを認識し、解釈するための、新しい多段階パイプラインに依存しており、それらを医療機器の正確な動作に変換する。
RGB-Depth カメラを用いて実際のMRIスキャン過程におけるパイプラインの評価を行った。
以上の結果から,本システムでは,最小限の技術介入で,正確かつ正確な患者の位置決めが可能であることが示唆された。
さらに,大規模な手ジェスチャーデータセットであるHaGRIDについて,手検出とジェスチャー認識の有効性を実証し,本手法の有効性を検証した。
Positioning patients for scanning and interventional procedures is a critical task that requires high precision and accuracy. The conventional workflow involves manually adjusting the patient support to align the center of the target body part with the laser projector or other guiding devices. This process is not only time-consuming but also prone to inaccuracies. In this work, we propose an automated patient positioning system that utilizes a camera to detect specific hand gestures from technicians, allowing users to indicate the target patient region to the system and initiate automated positioning. Our approach relies on a novel multi-stage pipeline to recognize and interpret the technicians' gestures, translating them into precise motions of medical devices. We evaluate our proposed pipeline during actual MRI scanning procedures, using RGB-Depth cameras to capture the process. Results show that our system achieves accurate and precise patient positioning with minimal technician intervention. Furthermore, we validate our method on HaGRID, a large-scale hand gesture dataset, demonstrating its effectiveness in hand detection and gesture recognition. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# 原型的クロスモーダルコントラスト学習による大語彙法医学的病理解析
Large-vocabulary forensic pathological analyses via prototypical cross-modal contrastive learning ( http://arxiv.org/abs/2407.14904v1 ) ライセンス: Link先を確認 | Chen Shen, Chunfeng Lian, Wanqing Zhang, Fan Wang, Jianhua Zhang, Shuanliang Fan, Xin Wei, Gongji Wang, Kehan Li, Hongshu Mu, Hao Wu, Xinggong Liang, Jianhua Ma, Zhenyuan Wang, | (参考訳) 法医学的病理学は、大まかにも顕微鏡的にも、死後の検査を通じて死因や死因を決定するのに重要である。
しかし、この分野は、成果の多様性、厳しいプロセス、訓練された専門家の不足といった問題に悩まされている。
本稿では,法医学的病理学に特化して設計された革新的視覚言語モデル(VLM)であるSongCiについて述べる。
SongCiは、先進的な原型横断型自己教師型コントラスト学習を利用して、法医学解析の精度、効率、一般化性を向上させる。
このデータセットは、1600万以上の高解像度画像パッチ、2,228の視覚言語対のモーテム全スライド画像(WSI)を含む総合的なマルチセンターデータセットで事前訓練され、評価され、さらに471の診断結果が得られた。
以上の結果から,SongCiは既存のマルチモーダルAIモデルよりも多くの法医学的病理学タスクを超越し,経験豊富な法医学的病理学者と相性がよく,経験の少ないものよりもはるかに優れており,詳細なマルチモーダル説明可能性を提供し,法医学的調査に重要な支援を提供することが示された。
我々の知る限り、SongCiは法医学的な病理解析のために開発された最初のVLMであり、法医学においてギガピクセルWSIを直接処理する最初の大語彙計算病理(CPath)モデルである。
Forensic pathology is critical in determining the cause and manner of death through post-mortem examinations, both macroscopic and microscopic. The field, however, grapples with issues such as outcome variability, laborious processes, and a scarcity of trained professionals. This paper presents SongCi, an innovative visual-language model (VLM) designed specifically for forensic pathology. SongCi utilizes advanced prototypical cross-modal self-supervised contrastive learning to enhance the accuracy, efficiency, and generalizability of forensic analyses. It was pre-trained and evaluated on a comprehensive multi-center dataset, which includes over 16 million high-resolution image patches, 2,228 vision-language pairs of post-mortem whole slide images (WSIs), and corresponding gross key findings, along with 471 distinct diagnostic outcomes. Our findings indicate that SongCi surpasses existing multi-modal AI models in many forensic pathology tasks, performs comparably to experienced forensic pathologists and significantly better than less experienced ones, and provides detailed multi-modal explainability, offering critical assistance in forensic investigations. To the best of our knowledge, SongCi is the first VLM specifically developed for forensic pathological analysis and the first large-vocabulary computational pathology (CPath) model that directly processes gigapixel WSIs in forensic science. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# 画像からのビジュアルジオローカライゼーション
Visual Geo-Localization from images ( http://arxiv.org/abs/2407.14910v1 ) ライセンス: Link先を確認 | Rania Saoud, Slimane Larabi, | (参考訳) 本稿では、GPSデータに頼ることなく、画像から場所(建物と道路の交差点)の地理的位置を判断できる視覚的地理的位置決めシステムを提案する。
提案手法は, 位置認識のためのスケール不変特徴変換(SIFT), 道路接合型識別のための従来の画像処理, 道路接合の分類のためのVGG16モデルを用いたディープラーニングの3つの主要な手法を統合する。
最も効果的な技術はオフラインのモバイルアプリケーションに統合され、GPSで識別された環境において、信頼できる位置情報を必要とするユーザのアクセシビリティが向上した。
This paper presents a visual geo-localization system capable of determining the geographic locations of places (buildings and road intersections) from images without relying on GPS data. Our approach integrates three primary methods: Scale-Invariant Feature Transform (SIFT) for place recognition, traditional image processing for identifying road junction types, and deep learning using the VGG16 model for classifying road junctions. The most effective techniques have been integrated into an offline mobile application, enhancing accessibility for users requiring reliable location information in GPS-denied environments. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# 植物汎用感染データセットを用いた自己教師型トランスフォーマーによる事前学習法
Self-supervised transformer-based pre-training method with General Plant Infection dataset ( http://arxiv.org/abs/2407.14911v1 ) ライセンス: Link先を確認 | Zhengle Wang, Ruifeng Wang, Minjuan Wang, Tianyun Lai, Man Zhang, | (参考訳) 害虫と病気の分類は農業において難しい問題である。
深層学習モデルの性能は、データの多様性と量の訓練と密接に関連しており、未開発のままの植物害虫や疾病データセットに問題がある。
本研究では,コントラシブ・ラーニングとマスケッド・イメージ・モデリング(MIM)を組み合わせた包括的データセットの構築と,高度なネットワークアーキテクチャを提案することにより,これらの課題に対処する。
このデータセットは多種多様な植物種と害虫の分類からなり、この地域で最大かつ最も多様である。
提案するネットワークアーキテクチャは,植物害虫や病原体認識タスクに対処し,優れた検出精度を実現する。
このアプローチは、迅速で効率的でコスト効率のよい植物害虫と病気検出のための実行可能なソリューションを提供し、それによって農業生産コストを削減します。
私たちのコードとデータセットは、GitHubリポジトリのhttps://github.com/WASSER2545/GPID-22で、植物害虫と病気の認識に関する研究を進めるために公開されます。
Pest and disease classification is a challenging issue in agriculture. The performance of deep learning models is intricately linked to training data diversity and quantity, posing issues for plant pest and disease datasets that remain underdeveloped. This study addresses these challenges by constructing a comprehensive dataset and proposing an advanced network architecture that combines Contrastive Learning and Masked Image Modeling (MIM). The dataset comprises diverse plant species and pest categories, making it one of the largest and most varied in the field. The proposed network architecture demonstrates effectiveness in addressing plant pest and disease recognition tasks, achieving notable detection accuracy. This approach offers a viable solution for rapid, efficient, and cost-effective plant pest and disease detection, thereby reducing agricultural production costs. Our code and dataset will be publicly available to advance research in plant pest and disease recognition the GitHub repository at https://github.com/WASSER2545/GPID-22 | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# PolyR-CNN: エンド・ツー・エンド多角形アウトライン抽出のためのR-CNN
PolyR-CNN: R-CNN for end-to-end polygonal building outline extraction ( http://arxiv.org/abs/2407.14912v1 ) ライセンス: Link先を確認 | Weiqin Jiao, Claudio Persello, George Vosselman, | (参考訳) 近年,多角形建築物のアウトライン抽出が研究の焦点となっている。
既存のほとんどのメソッドは、これをいくつかのサブタスクに分解し、慎重に設計されたアーキテクチャを採用することで、この課題に対処してきた。
その正確さにもかかわらず、これらのパイプラインはトレーニングと推論の間に非効率をもたらすことが多い。
本稿では,ポリR-CNN(PolyR-CNN)と呼ばれるエンド・ツー・エンドのフレームワークを提案する。
特に、PolyR-CNNは興味領域(RoI)の特徴のみを予測に利用しており、複雑な設計の必要性を軽減している。
さらに,PolyR-CNNを用いて,ポリゴン頂点座標から詳細なアウトライン情報を抽出し,より規則的な建物を予測するためのRoI特徴を導出する手法を提案する。
PolyR-CNNは、Inriaデータセット上の単純な後処理を通じて、穴のある建物を扱う能力を示している。
CrowdAIデータセットで実施された総合的な実験によると、PolyR-CNNは最先端の手法と比較して競争精度が向上し、計算効率は79.2 Average Precision (AP) を著しく向上し、15.9 APのゲインを示し、確立されたエンドツーエンドのPolyWorldよりも2.5倍高速で4倍軽くなる。
バックボーンを単純なResNet-50で置き換えると、PolyR-CNNは71.1 APを維持し、PolyWorldの4倍高速である。
Polygonal building outline extraction has been a research focus in recent years. Most existing methods have addressed this challenging task by decomposing it into several subtasks and employing carefully designed architectures. Despite their accuracy, such pipelines often introduce inefficiencies during training and inference. This paper presents an end-to-end framework, denoted as PolyR-CNN, which offers an efficient and fully integrated approach to predict vectorized building polygons and bounding boxes directly from remotely sensed images. Notably, PolyR-CNN leverages solely the features of the Region of Interest (RoI) for the prediction, thereby mitigating the necessity for complex designs. Furthermore, we propose a novel scheme with PolyR-CNN to extract detailed outline information from polygon vertex coordinates, termed vertex proposal feature, to guide the RoI features to predict more regular buildings. PolyR-CNN demonstrates the capacity to deal with buildings with holes through a simple post-processing method on the Inria dataset. Comprehensive experiments conducted on the CrowdAI dataset show that PolyR-CNN achieves competitive accuracy compared to state-of-the-art methods while significantly improving computational efficiency, i.e., achieving 79.2 Average Precision (AP), exhibiting a 15.9 AP gain and operating 2.5 times faster and four times lighter than the well-established end-to-end method PolyWorld. Replacing the backbone with a simple ResNet-50, PolyR-CNN maintains a 71.1 AP while running four times faster than PolyWorld. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# 言語モデルにおける文脈認識の嗜好モデルの改善
Improving Context-Aware Preference Modeling for Language Models ( http://arxiv.org/abs/2407.14916v1 ) ライセンス: Link先を確認 | Silviu Pitis, Ziang Xiao, Nicolas Le Roux, Alessandro Sordoni, | (参考訳) ペアの選好から言語モデルを微調整することは極めて効果的であることが証明されているが、自然言語の未特定の性質は重要な課題を呈している。
直接の嗜好フィードバックは解釈不能であり、多次元の基準が適用可能な場所を提供するのが困難であり、不完全な指示に基づくものであるか、様々なプリンシパルによって提供されるため、しばしば矛盾する。
これらの課題に対処するために、まず、コンテキストを選択し、選択したコンテキストに対して好みを評価する2段階の選好モデリング手法を検討する。
これら2つのステップに従って報酬モデリング誤差を分解し、文脈固有の嗜好に加えて文脈を監督することは、モデルと多様な人間の嗜好を整合させるための実行可能なアプローチである可能性を示唆している。
これを実行するためには、コンテキスト固有の嗜好を評価するモデルの能力が不可欠である。
この目的のために、文脈条件付き嗜好データセットと、文脈固有の嗜好を評価する言語モデルの有効性を調査する伴奏実験をコントリビュートする。
我々は(1)既存の嗜好モデルの利点を示すためにデータセットを使用し、(2)テストデータセット上でのGPT-4およびLlama 370Bを超える文脈特異的なパフォーマンスを持つ文脈対応報酬モデルを作成し、(3)文脈対応嗜好モデルの価値を調査する。
While finetuning language models from pairwise preferences has proven remarkably effective, the underspecified nature of natural language presents critical challenges. Direct preference feedback is uninterpretable, difficult to provide where multidimensional criteria may apply, and often inconsistent, either because it is based on incomplete instructions or provided by diverse principals. To address these challenges, we consider the two-step preference modeling procedure that first resolves the under-specification by selecting a context, and then evaluates preference with respect to the chosen context. We decompose reward modeling error according to these two steps, which suggests that supervising context in addition to context-specific preference may be a viable approach to aligning models with diverse human preferences. For this to work, the ability of models to evaluate context-specific preference is critical. To this end, we contribute context-conditioned preference datasets and accompanying experiments that investigate the ability of language models to evaluate context-specific preference. We use our datasets to (1) show that existing preference models benefit from, but fail to fully consider, added context, (2) finetune a context-aware reward model with context-specific performance exceeding that of GPT-4 and Llama 3 70B on tested datasets, and (3) investigate the value of context-aware preference modeling. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# RoIPoly:VertexとLogitの埋め込みを利用したベクトル化ビルのアウトライン抽出
RoIPoly: Vectorized Building Outline Extraction Using Vertex and Logit Embeddings ( http://arxiv.org/abs/2407.14920v1 ) ライセンス: Link先を確認 | Weiqin Jiao, Hao Cheng, Claudio Persello, George Vosselman, | (参考訳) 多角形建築概要は地理的・地図的応用に不可欠である。
航空画像や衛星画像からのアウトライン抽出のための既存のアプローチは、通常、サブタスク、例えばビルディングマスクとベクトル化に分解される。
前者は効率を欠き、後者は冗長な頂点をしばしば生成し、どちらも最適以下の性能をもたらす。
これらの問題に対処するために,RoIPoly と呼ばれる新しい領域間クエリベースのアプローチを提案する。
具体的には、各頂点をクエリとして定式化し、潜在的ビルディングの最も関連性の高い領域にクエリの注意を拘束し、計算オーバーヘッドを減らし、より効率的な頂点レベルの相互作用をもたらす。
さらに,アテンションマップ上での頂点分類を容易にするために,新たな学習可能なロジット埋め込みを導入する。
本手法は,2次元フロアプラン再構築データセットであるStructured3Dを用いて,ベクトル化建物アウトライン抽出データセット CrowdAI と2次元フロアプラン再構築データセット CrowdAI について検討した。
CrowdAIデータセットでは、ResNet50バックボーンを使用したRoIPolyは、ほとんどのMS-COCOメトリクス、特に小さな建物において、同じまたはより良いバックボーンで既存のメソッドを上回り、後処理なしでポリゴンの品質と頂点冗長性の競合的な結果を得る。
Structured3Dデータセットでは,2次元フロアプラン再構築のための既存手法のうち,2番目に高い性能を達成し,クロスドメインの一般化能力を実証した。
コードは、この論文の受理時に公開される。
Polygonal building outlines are crucial for geographic and cartographic applications. The existing approaches for outline extraction from aerial or satellite imagery are typically decomposed into subtasks, e.g., building masking and vectorization, or treat this task as a sequence-to-sequence prediction of ordered vertices. The former lacks efficiency, and the latter often generates redundant vertices, both resulting in suboptimal performance. To handle these issues, we propose a novel Region-of-Interest (RoI) query-based approach called RoIPoly. Specifically, we formulate each vertex as a query and constrain the query attention on the most relevant regions of a potential building, yielding reduced computational overhead and more efficient vertex level interaction. Moreover, we introduce a novel learnable logit embedding to facilitate vertex classification on the attention map; thus, no post-processing is needed for redundant vertex removal. We evaluated our method on the vectorized building outline extraction dataset CrowdAI and the 2D floorplan reconstruction dataset Structured3D. On the CrowdAI dataset, RoIPoly with a ResNet50 backbone outperforms existing methods with the same or better backbones on most MS-COCO metrics, especially on small buildings, and achieves competitive results in polygon quality and vertex redundancy without any post-processing. On the Structured3D dataset, our method achieves the second-best performance on most metrics among existing methods dedicated to 2D floorplan reconstruction, demonstrating our cross-domain generalization capability. The code will be released upon acceptance of this paper. | 翻訳日:2024-07-23 20:09:56 公開日:2024-07-20 |
# RayFormer:Ray-Centric Strategiesによるクエリベースのマルチカメラ3Dオブジェクト検出の改善
RayFormer: Improving Query-Based Multi-Camera 3D Object Detection via Ray-Centric Strategies ( http://arxiv.org/abs/2407.14923v1 ) ライセンス: Link先を確認 | Xiaomeng Chu, Jiajun Deng, Guoliang You, Yifan Duan, Yao Li, Yanyong Zhang, | (参考訳) 近年のクエリベースのマルチカメラ3Dオブジェクト検出の進歩は,オブジェクトクエリを3次元空間で初期化し,視点画像から特徴を抽出してマルチラウンドクエリ精細化を行うことによって特徴付けられる。
このようなフレームワークでは、同じカメラ線に近いクエリポイントは、非常に近いピクセルから同様の特徴をサンプリングし、あいまいなクエリ特徴と劣化検出精度をもたらす。
この目的のために、カメラにインスパイアされたクエリに基づく3Dオブジェクト検出器であるRayFormerを導入し、カメラの光学特性とオブジェクトクエリの初期化と特徴抽出を一致させる。
具体的には、RayFormerは、視線画像の特徴をリフトスプラット撮影法により鳥の目視(BEV)に変換し、カメラ線に基づいてBEVマップをセクターに分割する。
オブジェクトクエリは、各カメラ線に沿って、均一かつ疎結合に初期化され、画像内の異なる領域への異なるクエリの投影を容易にし、異なる特徴を抽出する。
さらに、画像のインスタンス情報を利用して、一様に初期化されたオブジェクトクエリを補う。
異なるクエリに適合するユニークなオブジェクトレベルの特徴を抽出するために,画像と鳥の視線の両方に特徴サンプリング点の分布を適切に整理するレイサンプリング法を設計する。
提案したレイインスパイアモデル設計を検証するため, nuScenesデータセット上で大規模な実験を行った。
提案されたRayFormerは、それぞれ55.5%のmAPと63.3%のNDSを達成している。
私たちのコードは利用可能になります。
The recent advances in query-based multi-camera 3D object detection are featured by initializing object queries in the 3D space, and then sampling features from perspective-view images to perform multi-round query refinement. In such a framework, query points near the same camera ray are likely to sample similar features from very close pixels, resulting in ambiguous query features and degraded detection accuracy. To this end, we introduce RayFormer, a camera-ray-inspired query-based 3D object detector that aligns the initialization and feature extraction of object queries with the optical characteristics of cameras. Specifically, RayFormer transforms perspective-view image features into bird's eye view (BEV) via the lift-splat-shoot method and segments the BEV map to sectors based on the camera rays. Object queries are uniformly and sparsely initialized along each camera ray, facilitating the projection of different queries onto different areas in the image to extract distinct features. Besides, we leverage the instance information of images to supplement the uniformly initialized object queries by further involving additional queries along the ray from 2D object detection boxes. To extract unique object-level features that cater to distinct queries, we design a ray sampling method that suitably organizes the distribution of feature sampling points on both images and bird's eye view. Extensive experiments are conducted on the nuScenes dataset to validate our proposed ray-inspired model design. The proposed RayFormer achieves 55.5% mAP and 63.3% NDS, respectively. Our codes will be made available. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# TraveLLM: ネットワークの障害に直面して、新しい公共交通機関のルートを計画していただけますか?
TraveLLM: Could you plan my new public transit route in face of a network disruption? ( http://arxiv.org/abs/2407.14926v1 ) ライセンス: Link先を確認 | Bowen Fang, Zixiao Yang, Shukai Wang, Xuan Di, | (参考訳) タイムズスクエア駅付近で1番線が破壊されていることを想像してほしい。
Google Mapsでは、JFK空港への代替の地下鉄ルートを探そうとしているが、混み合った駅を避けるための混乱と好みを考慮して、アプリは適切な推奨を提供していない。
このような状況では、現在のナビゲーションアプリが不足していて、合理的な推奨が得られないことが分かっています。
このギャップを埋めるために,本稿では,大規模言語モデル(LLM)に依存したディスラプションに直面して公共交通機関のルーティングを計画するプロトタイプであるTraveLLMを開発する。
LLMは様々な領域における推論と計画において顕著な能力を示している。
ここでは,マルチモーダルなユーザ固有のクエリや制約を公共交通機関の勧告に組み込む上でのLCMの可能性について検討する。
各種のテストケースは、さまざまな気象条件、緊急イベント、新しい交通サービスの導入など、さまざまなシナリオで設計されている。
次に、GPT-4、Claude 3、Geminiを含む最先端のLLMの性能を比較し、正確な経路を生成する。
比較分析により, LLM, 特に GPT-4 がナビゲーション計画に有効であることが示された。
我々の研究は、LCMが既存のナビゲーションシステムを強化する可能性を秘めており、ディスラプションに直面した多様なユーザニーズに対処するための、より柔軟でインテリジェントな方法を提供している。
Imagine there is a disruption in train 1 near Times Square metro station. You try to find an alternative subway route to the JFK airport on Google Maps, but the app fails to provide a suitable recommendation that takes into account the disruption and your preferences to avoid crowded stations. We find that in many such situations, current navigation apps may fall short and fail to give a reasonable recommendation. To fill this gap, in this paper, we develop a prototype, TraveLLM, to plan routing of public transit in face of disruption that relies on Large Language Models (LLMs). LLMs have shown remarkable capabilities in reasoning and planning across various domains. Here we hope to investigate the potential of LLMs that lies in incorporating multi-modal user-specific queries and constraints into public transit route recommendations. Various test cases are designed under different scenarios, including varying weather conditions, emergency events, and the introduction of new transportation services. We then compare the performance of state-of-the-art LLMs, including GPT-4, Claude 3 and Gemini, in generating accurate routes. Our comparative analysis demonstrates the effectiveness of LLMs, particularly GPT-4 in providing navigation plans. Our findings hold the potential for LLMs to enhance existing navigation systems and provide a more flexible and intelligent method for addressing diverse user needs in face of disruptions. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# インフルエンサー:AIを駆使した探索とカスタマイズによるプロモーションポスト作成に毎日のユーザーを力づける
Influencer: Empowering Everyday Users in Creating Promotional Posts via AI-infused Exploration and Customization ( http://arxiv.org/abs/2407.14928v1 ) ライセンス: Link先を確認 | Xuye Liu, Annie Sun, Pengcheng An, Tengfei Ma, Jian Zhao, | (参考訳) ソーシャルプラットフォーム上でプロモーション投稿を作成することで、日々のユーザーは創造的な成果を広めたり、コミュニティ交換に従事したり、マイクロビジネスから追加の収入を得られる。
しかし、オリジナルで魅力的な画像と、効果的で効果的なキャプションを組み合わせた、目を引く投稿を作ることは、ほとんど設計初心者である日々のユーザーにとって、かなり困難で時間を要する。
Influenは、初心者クリエイターが高品質なプロモーションポストデザインを作成するのを助けるインタラクティブなツールであり、素早くデザインのアイデアとAIによるコンテンツ制作を実現する。
インフルエンサー内では、サンプルベースイメージとキャプションレコメンデーションを通じて、ユーザが直感的に新しいアイデアを生成できる多次元レコメンデーションフレームワークをコントリビュートする。
さらに、インフルエンサーは、ブランドメッセージやユーザ指定設計制約を考慮したコンテキスト認識イメージとキャプション探索、様々な画像やキャプションのフレキシブルな融合、トラッキングやポストレコーディングのためのマインドマップのようなレイアウトをサポートする総合的なプロモーションポストデザインシステムを実装する。
Google Search+Figmaを組み合わせたベースラインと比較し,インフルエンサーを12人のデザイン愛好家を対象に評価した。
定量的かつ質的な結果から, 設計初心者がアイデアを創出し, ユーザフレンドリーな対話を伴う創造的で多様なプロモーション投稿を創出するのに, sysname{} が有効であることが示唆された。
Creating promotional posts on social platforms enables everyday users to disseminate their creative outcomes, engage in community exchanges, or generate additional income from micro-businesses. However, creating eye-catching posts combining both original, appealing images and articulate, effective captions can be rather challenging and time-consuming for everyday users who are mostly design novices. We propose Influen, an interactive tool to assist novice creators in crafting high-quality promotional post designs, achieving quick design ideation and unencumbered content creation through AI. Within Influencer, we contribute a multi-dimensional recommendation framework that allows users to intuitively generate new ideas through example-based image and caption recommendation. Further, Influencer implements a holistic promotional post design system that supports context-aware image and caption exploration considering brand messages and user-specified design constraints, flexible fusion of various images and captions, and a mind-map-like layout for thinking tracking and post-recording. We evaluated Influencer with 12 design enthusiasts through an in-lab user study by comparing it to a baseline combining Google Search + Figma. Quantitative and qualitative results demonstrate that \sysname{} is effective in assisting design novices to generate ideas as well as creative and diverse promotional posts with user-friendly interaction. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# POGEMA: 協調型マルチエージェントナビゲーションのためのベンチマークプラットフォーム
POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation ( http://arxiv.org/abs/2407.14931v1 ) ライセンス: Link先を確認 | Alexey Skrynnik, Anton Andreychuk, Anatolii Borzilov, Alexander Chernyavskiy, Konstantin Yakovlev, Aleksandr Panov, | (参考訳) マルチエージェント強化学習(MARL)は, エージェントがほとんどなく, 完全可観測性もほとんどない, 様々な環境において, 協調的かつ競争的なマルチエージェント問題の解決に長けている。
さらに,従来の非学習的手法(例えばヒューリスティック検索)でアプローチされてきたマルチロボットナビゲーションや障害物回避といった,ロボット関連の重要なタスクは,現在,学習ベースの手法やハイブリッド手法によって解決されている。
しかし、この領域では、学習と評価の両方をサポートする統一されたフレームワークが欠如しているため、古典的、学習ベースの、ハイブリッドなアプローチを公平に比較することは不可能ではない。
この目的のために我々は,学習のための高速環境,問題インスタンスの生成,事前定義された問題の収集,視覚化ツールキット,自動評価が可能なベンチマークツールなどを含む総合的なツールのセットであるPOGEMAを紹介する。
本稿では,主評価指標(成功率や経路長など)の基本値に基づいて計算されたドメイン関連指標の範囲を定義した評価プロトコルを導入・指定し,適正なマルチフォールド比較を可能にする。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
Multi-agent reinforcement learning (MARL) has recently excelled in solving challenging cooperative and competitive multi-agent problems in various environments with, mostly, few agents and full observability. Moreover, a range of crucial robotics-related tasks, such as multi-robot navigation and obstacle avoidance, that have been conventionally approached with the classical non-learnable methods (e.g., heuristic search) is currently suggested to be solved by the learning-based or hybrid methods. Still, in this domain, it is hard, not to say impossible, to conduct a fair comparison between classical, learning-based, and hybrid approaches due to the lack of a unified framework that supports both learning and evaluation. To this end, we introduce POGEMA, a set of comprehensive tools that includes a fast environment for learning, a generator of problem instances, the collection of pre-defined ones, a visualization toolkit, and a benchmarking tool that allows automated evaluation. We introduce and specify an evaluation protocol defining a range of domain-related metrics computed on the basics of the primary evaluation indicators (such as success rate and path length), allowing a fair multi-fold comparison. The results of such a comparison, which involves a variety of state-of-the-art MARL, search-based, and hybrid methods, are presented. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# 危機への同意:AIデータコモンズの急激な衰退
Consent in Crisis: The Rapid Decline of the AI Data Commons ( http://arxiv.org/abs/2407.14933v1 ) ライセンス: Link先を確認 | Shayne Longpre, Robert Mahari, Ariel Lee, Campbell Lund, Hamidah Oderinwale, William Brannon, Nayan Saxena, Naana Obeng-Marnu, Tobin South, Cole Hunter, Kevin Klyman, Christopher Klamm, Hailey Schoelkopf, Nikhil Singh, Manuel Cherep, Ahmad Anis, An Dinh, Caroline Chitongo, Da Yin, Damien Sileo, Deividas Mataciunas, Diganta Misra, Emad Alghamdi, Enrico Shippole, Jianguo Zhang, Joanna Materzynska, Kun Qian, Kush Tiwary, Lester Miranda, Manan Dey, Minnie Liang, Mohammed Hamdy, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Shrestha Mohanty, Vipul Gupta, Vivek Sharma, Vu Minh Chien, Xuhui Zhou, Yizhi Li, Caiming Xiong, Luis Villa, Stella Biderman, Hanlin Li, Daphne Ippolito, Sara Hooker, Jad Kabbara, Sandy Pentland, | (参考訳) 汎用人工知能(AI)システムは、C4、RefinedWeb、Dolmaなどのコーパスに組み立てられた大量の公開Webデータに基づいて構築されている。
我々の知る限り、我々は、AIトレーニングコーパスを基盤とするWebドメインの同意プロトコルを、初めて大規模かつ長期にわたって監査する。
14,000のWebドメインに対する監査は、クローラブルなWebデータの広範なビューと、それを使うための同意の嗜好が時間とともにどのように変化しているかを提供する。
我々は、使用を制限するAI固有の条項の急増、AI開発者に対する制限の急激な相違、およびサービス規約におけるウェブサイトの表現意図とロボット.txtとの一般的な矛盾を観察する。
我々は、これらを非効率的なWebプロトコルの症状として診断し、AIのためのインターネットの広範な再調達に対処するために設計されていない。
我々の縦断的な分析によると、1年(2023-2024年)にWebソースからのデータ制限の急激なクレシデントが発生し、C4のすべてのトークンの約5%、C4の最も活発に維持されている重要なソースの28%以上が、完全に使用が制限されている。
サービスクローリングの制限については、C4の完全な45%が制限されている。
尊重されたり強制されたりした場合、これらの制限は汎用AIシステムの多様性、鮮度、スケーリングの法則を急速に偏っている。
私たちは、商用AIだけでなく、非商用AIや学術目的のために、オープンウェブの多くを隠蔽し、データ同意の新たな危機について説明したいと思っています。
General-purpose artificial intelligence (AI) systems are built on massive swathes of public web data, assembled into corpora such as C4, RefinedWeb, and Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit of the consent protocols for the web domains underlying AI training corpora. Our audit of 14,000 web domains provides an expansive view of crawlable web data and how consent preferences to use it are changing over time. We observe a proliferation of AI-specific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites' expressed intentions in their Terms of Service and their robots.txt. We diagnose these as symptoms of ineffective web protocols, not designed to cope with the widespread re-purposing of the internet for AI. Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use. For Terms of Service crawling restrictions, a full 45% of C4 is now restricted. If respected or enforced, these restrictions are rapidly biasing the diversity, freshness, and scaling laws for general-purpose AI systems. We hope to illustrate the emerging crisis in data consent, foreclosing much of the open web, not only for commercial AI, but non-commercial AI and academic purposes. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# ボソニックデフォーカス量子チャネルの識別
Discrimination of bosonic dephasing quantum channels ( http://arxiv.org/abs/2407.14935v1 ) ライセンス: Link先を確認 | Samad Khabbazi Oskouei, Laleh Memarzadeh, Milajiguli Rexiti, Stefano Mancini, | (参考訳) 本研究では,2つのボソニックデフォーカス量子チャネルの識別の可能性について検討する。
明白な差別は実現不可能であることを示す。
次に、非ゼロ誤差確率による判別を考慮し、入力制約がない場合、後者を最小化する。
入力エネルギー制約が存在する場合、誤差確率の上限を導出する。
最後に、これらの結果をシングルショットからマルチショットの識別に拡張し、漸近的な振る舞いを考察する。
We study the possibility of discriminating between two bosonic dephasing quantum channels. We show that unambiguous discrimination is not realizable. We then consider discrimination with nonzero error probability and minimize this latter in the absence of input constraints. In the presence of an input energy constraint, we derive an upper bound on the error probability. Finally, we extend these results from single-shot to multi-shot discrimination, envisaging the asymptotic behavior. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# 大規模言語モデル(LLM)における脅威モデルの運用
Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs) ( http://arxiv.org/abs/2407.14937v1 ) ライセンス: Link先を確認 | Apurv Verma, Satyapriya Krishna, Sebastian Gehrmann, Madhavan Seshadri, Anu Pradhan, Tom Ault, Leslie Barrett, David Rabinowitz, John Doucette, NhatHai Phan, | (参考訳) 大きな言語モデル(LLM)でセキュアでレジリエントなアプリケーションを作成するには、予期せぬ脅威を予測し、修正し、対処する必要がある。
現実のLLM実装の脆弱性を識別するための重要なテクニックとして、レッドチーム化が登場した。
本稿では,LLM に対するリピート攻撃に関する詳細な脅威モデルを提案し,知識の体系化(SoK)を提供する。
我々は,LLM開発および展開プロセスの段階に基づく攻撃の分類を開発し,過去の研究から様々な知見を抽出する。
また,実践者に対する防衛および実践的レッドチーム戦略の手法をコンパイルする。
本論文は,LLMシステムにおけるセキュリティとロバスト性向上のための枠組みとして,攻撃モチーフを明確化し,様々なエントリポイントに光を遮蔽する手法を提案する。
Creating secure and resilient applications with large language models (LLM) requires anticipating, adjusting to, and countering unforeseen threats. Red-teaming has emerged as a critical technique for identifying vulnerabilities in real-world LLM implementations. This paper presents a detailed threat model and provides a systematization of knowledge (SoK) of red-teaming attacks on LLMs. We develop a taxonomy of attacks based on the stages of the LLM development and deployment process and extract various insights from previous research. In addition, we compile methods for defense and practical red-teaming strategies for practitioners. By delineating prominent attack motifs and shedding light on various entry points, this paper provides a framework for improving the security and robustness of LLM-based systems. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# 広告識別器からグローバルプライバシコントロールへ:Androidにおける広告追跡のオプトアウトの現状と将来
From Ad Identifiers to Global Privacy Control: The Status Quo and Future of Opting Out of Ad Tracking on Android ( http://arxiv.org/abs/2407.14938v1 ) ライセンス: Link先を確認 | Sebastian Zimmeck, Nishant Aggarwal, Zachary Liu, Konrad Kollnig, | (参考訳) アプリとその統合されたサードパーティライブラリは、パーソナライズされた広告を表示するために、人々からさまざまなデータを収集することが多い。
この習慣は、しばしばプライバシーを侵害する。
2013年以降、Googleはユーザーがシステム設定でAndroidの広告追跡を制限することを許可している。
さらに、2018年のカリフォルニア州消費者プライバシ法(CCPA)の下では、アプリはグローバルプライバシコントロール(GPC)の下での広告追跡からオプトアウトを尊重しなければならない。
広告追跡を制限する2つの方法の有効性は, これまでの研究では研究されていない。
弊社の法的および技術的分析では、GPCがモバイルアプリにどのように適用され、Androidに直接統合され、Android上でGPCのリファレンスデザインが開発されるかが詳細に説明されています。
トップランクの1,896のAndroidアプリの実証分析によると、AndroidのシステムレベルのオプトアウトとGPCシグナルの両方が、広告追跡を制限することは滅多にない。
我々の見解では、AdIDを削除し、CCPAの下でオプトアウトすることは、同じ意味である。
したがって、現在のAdID設定とAPIはGPCに向けて進化し、AndroidのPrivacy Sandboxに統合されるべきである。
Apps and their integrated third party libraries often collect a variety of data from people to show them personalized ads. This practice is often privacy-invasive. Since 2013, Google has therefore allowed users to limit ad tracking on Android via system settings. Further, under the 2018 California Consumer Privacy Act (CCPA), apps must honor opt-outs from ad tracking under the Global Privacy Control (GPC). The efficacy of these two methods to limit ad tracking has not been studied in prior work. Our legal and technical analysis details how the GPC applies to mobile apps and how it could be integrated directly into Android, thereby developing a reference design for GPC on Android. Our empirical analysis of 1,896 top-ranked Android apps shows that both the Android system-level opt-out and the GPC signal rarely restrict ad tracking. In our view, deleting the AdID and opting out under the CCPA has the same meaning. Thus, the current AdID setting and APIs should be evolved towards GPC and integrated into Android's Privacy Sandbox. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# ASR-Transcribed Dialogueにおける競合中断検出のための会話ルーベルト
Conversational Rubert for Detecting Competitive Interruptions in ASR-Transcribed Dialogues ( http://arxiv.org/abs/2407.14940v1 ) ライセンス: Link先を確認 | Dmitrii Galimzianov, Viacheslav Vyshegorodtsev, | (参考訳) 対話の中断は、現在の話者が話す前にリスナーがスピーチを開始するときに起こる。
割り込みは、協力的(リスナーがスピーカーを支持したい場合)と競争的(リスナーが話者の意志に反して会話を制御しようとする場合)の2つのグループに分けられる。
割り込みを自動的に分類するシステムは、コールセンター、特に顧客満足度モニタリングとエージェントモニタリングのタスクで利用することができる。
本研究では、ASRで書き起こされた顧客サポート電話対話からなる社内データセットをロシア語で作成し、テキストベースの割り込み分類モデルを開発した。
データセット上でReversational RuBERTを微調整し,ハイパーパラメータを最適化した。
さらなる改良により,提案手法を自動監視システムに適用することができる。
Interruption in a dialogue occurs when the listener begins their speech before the current speaker finishes speaking. Interruptions can be broadly divided into two groups: cooperative (when the listener wants to support the speaker), and competitive (when the listener tries to take control of the conversation against the speaker's will). A system that automatically classifies interruptions can be used in call centers, specifically in the tasks of customer satisfaction monitoring and agent monitoring. In this study, we developed a text-based interruption classification model by preparing an in-house dataset consisting of ASR-transcribed customer support telephone dialogues in Russian. We fine-tuned Conversational RuBERT on our dataset and optimized hyperparameters, and the model performed well. With further improvements, the proposed model can be applied to automatic monitoring systems. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# 生成機械学習モデルにおけるプロンプトを用いたファッション画像の自動生成
Automatic Generation of Fashion Images using Prompting in Generative Machine Learning Models ( http://arxiv.org/abs/2407.14944v1 ) ライセンス: Link先を確認 | Georgia Argyrou, Angeliki Dimitriou, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou, | (参考訳) 人工知能の出現は、ファッション産業の画期的な変革に寄与し、創造性と革新を前例のない方法で再定義した。
本研究では、2つの異なる大言語モデルと、ファッション画像作成のための安定拡散モデルを用いて、カスタマイズされたファッション記述を生成する手法について検討する。
AI駆動のファッションクリエイティビティにおける適応性を強調するため、私たちは従来のアプローチから離れ、ゼロショットや少数ショット学習といったテクニックや、さまざまな色やテクスチャをもたらすChain-of-Thought(CoT)など、アウトプットの多様性を高めることに重点を置いています。
我々の方法論の中心は、ファッションソースからの洞察でモデルを強化し、現代表現を確実にする、検索型拡張生成(RAG)である。
評価は、CLIPscoreのような定量的メトリクスと質的な人間の判断を組み合わせることで、創造性、コヒーレンス、さまざまなスタイルの美的魅力を強調します。
参加者のうち、RAGと数発の学習技術は、より関連性が高く魅力的なファッション記述を作成する能力に好まれる。
私たちのコードはhttps://github.com/georgiarg/AutoFashion.comで提供されています。
The advent of artificial intelligence has contributed in a groundbreaking transformation of the fashion industry, redefining creativity and innovation in unprecedented ways. This work investigates methodologies for generating tailored fashion descriptions using two distinct Large Language Models and a Stable Diffusion model for fashion image creation. Emphasizing adaptability in AI-driven fashion creativity, we depart from traditional approaches and focus on prompting techniques, such as zero-shot and few-shot learning, as well as Chain-of-Thought (CoT), which results in a variety of colors and textures, enhancing the diversity of the outputs. Central to our methodology is Retrieval-Augmented Generation (RAG), enriching models with insights from fashion sources to ensure contemporary representations. Evaluation combines quantitative metrics such as CLIPscore with qualitative human judgment, highlighting strengths in creativity, coherence, and aesthetic appeal across diverse styles. Among the participants, RAG and few-shot learning techniques are preferred for their ability to produce more relevant and appealing fashion descriptions. Our code is provided at https://github.com/georgiarg/AutoFashion. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# 効率的な侵入検出:UNSW-NB15データセット上の$ ^2$特徴選択とCNN-BiLSTMを組み合わせる
Efficient Intrusion Detection: Combining $χ^2$ Feature Selection with CNN-BiLSTM on the UNSW-NB15 Dataset ( http://arxiv.org/abs/2407.14945v1 ) ライセンス: Link先を確認 | Mohammed Jouhari, Hafsa Benaddi, Khalil Ibrahimi, | (参考訳) 侵入検知システム(IDS)は、従来のコンピュータシステムにおけるサイバー攻撃の検出と防止に重要な役割を果たしてきた。
この技術が、サイバー脅威に対するセキュアなモノのインターネット(IoT)ネットワークに適用されていることは、驚くにあたらない。
しかし、IoTデバイスで利用可能な限られた計算リソースは、従来のコンピューティングベースのIDSをデプロイする上での課題である。
IoT環境用に設計されたIDSは、高い分類性能を示し、低複雑さモデルを使用する必要がある。
IoT分野における侵入検出モデルの開発は、大きな進歩を遂げている。
しかし、高い分類性能と複雑さの低減のバランスを取ることは、依然として困難な試みである。
本研究では,軽量畳み込みニューラルネットワーク(CNN)と双方向長短期記憶(BiLSTM)を組み合わせた効果的なIDSモデルを提案する。
さらに,モデルに入力される特徴の数を最小限に抑えるために,特徴選択手法を採用し,その複雑さを低減する。
このアプローチにより、提案されたモデルはリソース制約のあるIoTデバイスに非常に適しており、計算能力要件を満たすことが保証される。
IoTデバイスの要求を満たし、精度を向上するモデルを作成することは、難しい課題です。
しかし,本提案モデルは,2進分類で1.1秒の予測時間内で,顕著な精度97.90%を達成することにより,従来の文献よりも優れていた。
さらに、マルチクラス化の予測時間2.10秒で97.09%の精度を達成する。
Intrusion Detection Systems (IDSs) have played a significant role in the detection and prevention of cyber-attacks in traditional computing systems. It is not surprising that this technology is now being applied to secure Internet of Things (IoT) networks against cyber threats. However, the limited computational resources available on IoT devices pose a challenge for deploying conventional computing-based IDSs. IDSs designed for IoT environments must demonstrate high classification performance, and utilize low-complexity models. Developing intrusion detection models in the field of IoT has seen significant advancements. However, achieving a balance between high classification performance and reduced complexity remains a challenging endeavor. In this research, we present an effective IDS model that addresses this issue by combining a lightweight Convolutional Neural Network (CNN) with bidirectional Long Short-Term Memory (BiLSTM). Additionally, we employ feature selection techniques to minimize the number of features inputted into the model, thereby reducing its complexity. This approach renders the proposed model highly suitable for resource-constrained IoT devices, ensuring it meets their computation capability requirements. Creating a model that meets the demands of IoT devices and attains enhanced precision is a challenging task. However, our suggested model outperforms previous works in the literature by attaining a remarkable accuracy rate of 97.90% within a prediction time of 1.1 seconds for binary classification. Furthermore, it achieves an accuracy rate of 97.09% within a prediction time of 2.10 seconds for multiclassification. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# CoCoG-2:人間の概念表現を理解するための視覚刺激の制御可能な生成
CoCoG-2: Controllable generation of visual stimuli for understanding human concept representation ( http://arxiv.org/abs/2407.14949v1 ) ライセンス: Link先を確認 | Chen Wei, Jiachen Zou, Dietmar Heinke, Quanying Liu, | (参考訳) 人間は、食品の選択やリスク回避といった意思決定作業を容易にする抽象概念を用いて、複雑な視覚刺激を解釈する。
類似性判定タスクはこれらの概念を探索するのに有効である。
しかし,概念空間における制御可能な画像生成法は未開発である。
本研究では,生成した視覚刺激を類似性判定タスクに統合するCoCoG-2という新しいフレームワークを提案する。
CoCoG-2は、トレーニング不要誘導アルゴリズムを使用して、生成の柔軟性を向上させる。
CoCoG-2フレームワークは、人間の概念に基づいて実験的刺激を創出し、視覚刺激の発生を導く様々な戦略を支援し、これらの刺激が様々な実験的仮説をどのように検証するかを示すのに最適である。
CoCoG-2は視覚刺激を発生させることにより,概念表現と行動の因果関係の理解を深める。
コードは \url{https://github.com/ncclab-sustech/CoCoG-2} で公開されている。
Humans interpret complex visual stimuli using abstract concepts that facilitate decision-making tasks such as food selection and risk avoidance. Similarity judgment tasks are effective for exploring these concepts. However, methods for controllable image generation in concept space are underdeveloped. In this study, we present a novel framework called CoCoG-2, which integrates generated visual stimuli into similarity judgment tasks. CoCoG-2 utilizes a training-free guidance algorithm to enhance generation flexibility. CoCoG-2 framework is versatile for creating experimental stimuli based on human concepts, supporting various strategies for guiding visual stimuli generation, and demonstrating how these stimuli can validate various experimental hypotheses. CoCoG-2 will advance our understanding of the causal relationship between concept representations and behaviors by generating visual stimuli. The code is available at \url{https://github.com/ncclab-sustech/CoCoG-2}. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# 非可逆空間における強等方性ニューラル最適輸送
Strongly Isomorphic Neural Optimal Transport Across Incomparable Spaces ( http://arxiv.org/abs/2407.14957v1 ) ライセンス: Link先を確認 | Athina Sotiropoulou, David Alvarez-Melis, | (参考訳) Optimal Transport (OT)は、分散間の最小変位マップを学習するための強力なフレームワークとして最近登場した。
主なアプローチは、一般に両方の分布に対して同じ空間を仮定する OT のモンジュ定式化のニューラルパラメトリゼーションである。
しかし、Gromov-Wasserstein 距離に対応する '`incomparable space' (eg , of different dimensionality)' にまたがる設定は未探検のままであり、既存の手法はコスト関数に制限的な仮定を課すことが多い。
本稿では,Gromov-Monge(GM)問題をその基本的性質の1つ,強同型への不変性に根ざした新しいニューラル定式化を提案する。
学習可能なOTマップを2つのコンポーネントに分解することで、この特性を運用する。
(i)ソース分布と中間基準分布との近似強同型、及び
(ii)この基準と対象分布の間のGM-最適写像。
我々の定式化は、Uscidda & Cuturi (2023) の Monge gap regularizer を活用して、他の OT 手法の複雑なアーキテクチャ要件を排除し、理論的保証を好む単純で実用的な方法をもたらす。
予備的な実験結果から,本フレームワークは多様な空間にまたがるOTマップを学習するための有望なアプローチを提供することが示された。
Optimal Transport (OT) has recently emerged as a powerful framework for learning minimal-displacement maps between distributions. The predominant approach involves a neural parametrization of the Monge formulation of OT, typically assuming the same space for both distributions. However, the setting across ``incomparable spaces'' (e.g., of different dimensionality), corresponding to the Gromov- Wasserstein distance, remains underexplored, with existing methods often imposing restrictive assumptions on the cost function. In this paper, we present a novel neural formulation of the Gromov-Monge (GM) problem rooted in one of its fundamental properties: invariance to strong isomorphisms. We operationalize this property by decomposing the learnable OT map into two components: (i) an approximate strong isomorphism between the source distribution and an intermediate reference distribution, and (ii) a GM-optimal map between this reference and the target distribution. Our formulation leverages and extends the Monge gap regularizer of Uscidda & Cuturi (2023) to eliminate the need for complex architectural requirements of other neural OT methods, yielding a simple but practical method that enjoys favorable theoretical guarantees. Our preliminary empirical results show that our framework provides a promising approach to learn OT maps across diverse spaces. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# リグフリー・モーション・トランスファーのための時間的残留ジャコビアン
Temporal Residual Jacobians For Rig-free Motion Transfer ( http://arxiv.org/abs/2407.14958v1 ) ライセンス: Link先を確認 | Sanjeev Muralikrishnan, Niladri Shekhar Dutt, Siddhartha Chaudhuri, Noam Aigerman, Vladimir Kim, Matthew Fisher, Niloy J. Mitra, | (参考訳) 本稿では,データ駆動型動き伝達を実現するための新しい表現として,時間的残留ヤコビアンを紹介する。
我々の手法は、リギングや中間形状のキーフレームへのアクセスを前提とせず、幾何学的かつ時間的に一貫した動きを生成し、長い動き列の転送に使用できる。
我々のアプローチの中心は、最終的なアニメーションメッシュを生成するために、局所的な幾何学的変化と時間的変化を個別に予測する2つの結合ニューラルネットワークである。
2つのネットワークは共同で訓練され、空間的信号と時間的信号を生成するために互いに補完し、直接3D位置情報で管理される。
推論中、キーフレームがない場合、本手法は基本的に運動外挿問題の解法である。
そこで我々は,様々なメッシュ(合成およびスキャンされた形状)のセットアップを試行し,SoTAの代替品に対して,見えない身体形状のアニメーションをリアルかつ自然に生成する上で,その優位性を実証した。
補足ビデオとコードはhttps://temporaljacobians.github.io/で公開されている。
We introduce Temporal Residual Jacobians as a novel representation to enable data-driven motion transfer. Our approach does not assume access to any rigging or intermediate shape keyframes, produces geometrically and temporally consistent motions, and can be used to transfer long motion sequences. Central to our approach are two coupled neural networks that individually predict local geometric and temporal changes that are subsequently integrated, spatially and temporally, to produce the final animated meshes. The two networks are jointly trained, complement each other in producing spatial and temporal signals, and are supervised directly with 3D positional information. During inference, in the absence of keyframes, our method essentially solves a motion extrapolation problem. We test our setup on diverse meshes (synthetic and scanned shapes) to demonstrate its superiority in generating realistic and natural-looking animations on unseen body shapes against SoTA alternatives. Supplemental video and code are available at https://temporaljacobians.github.io/ . | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# Cox Proportional Hazards Modelのフェデレーション学習におけるデータ不均一性への対処
Addressing Data Heterogeneity in Federated Learning of Cox Proportional Hazards Models ( http://arxiv.org/abs/2407.14960v1 ) ライセンス: Link先を確認 | Navid Seidi, Satyaki Roy, Sajal K. Das, Ardhendu Tripathy, | (参考訳) 病院と医療専門家の疾患プロファイルの多様性と治療アプローチは、医療における患者中心のパーソナライズされた戦略の必要性を浮き彫りにしている。
これに加えて、患者間の疾患進行の類似性を利用して、生存分析の予測モデルを改善することができる。
患者プライバシと予測モデルの実用性の必要性は、フェデレートラーニング(FL)のフレームワークで同時に対処することができる。
本稿では,フェデレーション・サバイバル分析の分野,特にCox Proportional Hazards(CoxPH)モデルにおけるアプローチについて概説する。
本稿では,Surveillance, Epidemiology, End Results (SEER)データベースを含む,合成データセットと実世界のアプリケーション間のモデル精度を向上させるために,特徴ベースのクラスタリングを利用するFLアプローチを提案する。
さらに、局所的なデータ変化に対応することによって、モデル適応に対する動的アプローチを提供するイベントベースのレポート戦略についても検討する。
本実験は,本手法の有効性を示し,医療におけるFLの実用化に向けた今後の方向性について考察する。
The diversity in disease profiles and therapeutic approaches between hospitals and health professionals underscores the need for patient-centric personalized strategies in healthcare. Alongside this, similarities in disease progression across patients can be utilized to improve prediction models in survival analysis. The need for patient privacy and the utility of prediction models can be simultaneously addressed in the framework of Federated Learning (FL). This paper outlines an approach in the domain of federated survival analysis, specifically the Cox Proportional Hazards (CoxPH) model, with a specific focus on mitigating data heterogeneity and elevating model performance. We present an FL approach that employs feature-based clustering to enhance model accuracy across synthetic datasets and real-world applications, including the Surveillance, Epidemiology, and End Results (SEER) database. Furthermore, we consider an event-based reporting strategy that provides a dynamic approach to model adaptation by responding to local data changes. Our experiments show the efficacy of our approach and discuss future directions for a practical application of FL in healthcare. | 翻訳日:2024-07-23 19:58:07 公開日:2024-07-20 |
# 生成型AIと大規模言語モデルの最近の進歩:現状,課題,展望
Recent Advances in Generative AI and Large Language Models: Current Status, Challenges, and Perspectives ( http://arxiv.org/abs/2407.14962v1 ) ライセンス: Link先を確認 | Desta Haileselassie Hagos, Rick Battle, Danda B. Rawat, | (参考訳) 生成人工知能(AI)とLarge Language Models(LLMs)の出現は、さまざまなドメインに革命をもたらす前例のない機能を導入し、自然言語処理(NLP)の新しい時代を象徴している。
本稿では,これらの最先端技術の現状を概観し,その顕著な進歩と広範囲な応用を実証する。
本稿では,ジェネレーティブAIとLLMの進化途上における技術的基盤,実践的応用,新たな課題に関する総合的な視点の提供に寄与する。
我々は、AIシステムの生成能力とLLMの特定のコンテキストを理解することは、研究者、実践者、政策立案者にとって、これらの技術の責任と倫理的統合を様々な領域に協調的に形成することが不可欠であると考えている。
さらに、主要な研究ギャップを特定し、対処し、AI研究コミュニティにおける将来の研究成果をガイドするための貴重な洞察を提供する。
The emergence of Generative Artificial Intelligence (AI) and Large Language Models (LLMs) has marked a new era of Natural Language Processing (NLP), introducing unprecedented capabilities that are revolutionizing various domains. This paper explores the current state of these cutting-edge technologies, demonstrating their remarkable advancements and wide-ranging applications. Our paper contributes to providing a holistic perspective on the technical foundations, practical applications, and emerging challenges within the evolving landscape of Generative AI and LLMs. We believe that understanding the generative capabilities of AI systems and the specific context of LLMs is crucial for researchers, practitioners, and policymakers to collaboratively shape the responsible and ethical integration of these technologies into various domains. Furthermore, we identify and address main research gaps, providing valuable insights to guide future research endeavors within the AI research community. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# Qudit non-Clifford interleaved benchmarking
Qudit non-Clifford interleaved benchmarking ( http://arxiv.org/abs/2407.14963v1 ) ライセンス: Link先を確認 | David Amaro-Alcalá, Barry C. Sanders, Hubert de Guise, | (参考訳) クリフォードゲートの集合とは異なる雑音を持つクーディットTゲートを特徴付けるスキームを導入する。
我々は表現論と環論を通じて、非クリフォードインターリーブ付きベンチマークをキューディシステムに一般化する手法を開発した。
qubitの場合に制限を加えることにより、二面体ベンチマークスキームを復元する。
提案手法は,完全キュートライブラリのキャラクタリゼーションを提供することにより,普遍的なキュートゲートセットのキャラクタリゼーションとランダム化ベンチマーク研究の進展を実現するための実用的手法である。
We introduce a scheme to characterise a qudit T gate that has different noise than a set of Clifford gates. We developed our scheme through representation theory and ring theory to generalise non-Clifford interleaved benchmarking to qudit systems. By restricting to the qubit case, we recover the dihedral benchmarking scheme. Our characterisation scheme provides experimental physicists a practical method for characterising universal qudit gate sets and advances randomised benchmarking research by providing the characterisation of a complete qudit library. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# マルチ出力CNNを用いた数学的表現のベースおよび指数予測
Base and Exponent Prediction in Mathematical Expressions using Multi-Output CNN ( http://arxiv.org/abs/2407.14967v1 ) ライセンス: Link先を確認 | Md Laraib Salam, Akash S Balsaraf, Gaurav Gupta, | (参考訳) 画像処理におけるニューラルネットワークとディープラーニング技術の利用は、その分野を著しく進歩させ、高精度な認識結果を可能にした。
しかし、高い認識率を達成するには、しばしば複雑なネットワークモデルを必要とする。
本研究は,多出力畳み込みニューラルネットワーク(CNN)を用いた数学的表現の画像から基底と指数の両方を予測するための,単純化された効果的なアプローチを提案する。
このモデルは、実世界の条件をシミュレートするために、ランダムノイズ、フォントサイズの変化、およびブラーインテンシティを組み込んだ、指数式を含む10,900の合成画像に基づいて訓練される。
提案したCNNモデルは、効率的なトレーニング時間で堅牢な性能を示す。
実験結果から,モデルがベースおよび指数値の予測において高い精度を達成し,ノイズや入力画像の変化に対するこのアプローチの有効性が証明された。
The use of neural networks and deep learning techniques in image processing has significantly advanced the field, enabling highly accurate recognition results. However, achieving high recognition rates often necessitates complex network models, which can be challenging to train and require substantial computational resources. This research presents a simplified yet effective approach to predicting both the base and exponent from images of mathematical expressions using a multi-output Convolutional Neural Network (CNN). The model is trained on 10,900 synthetically generated images containing exponent expressions, incorporating random noise, font size variations, and blur intensity to simulate real-world conditions. The proposed CNN model demonstrates robust performance with efficient training time. The experimental results indicate that the model achieves high accuracy in predicting the base and exponent values, proving the efficacy of this approach in handling noisy and varied input images. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# LIMO生成分子の特性改善
Technical report: Improving the properties of molecules generated by LIMO ( http://arxiv.org/abs/2407.14968v1 ) ライセンス: Link先を確認 | Vineet Thumuluri, Peter Eckmann, Michael K. Gilson, Rose Yu, | (参考訳) この技術報告では、生成分子の性質を改善するために、LIMO(Latent Inceptionism on Molecules)フレームワークの変異について検討する。
分子表現、デコーダモデル、代理モデルトレーニングスキームのアブレーティブな研究を行う。
実験により,GroupSELFIESを用いた自己回帰トランスフォーマーデコーダが,ランダム生成タスクの最適平均特性を達成することが示唆された。
This technical report investigates variants of the Latent Inceptionism on Molecules (LIMO) framework to improve the properties of generated molecules. We conduct ablative studies of molecular representation, decoder model, and surrogate model training scheme. The experiments suggest that an autogressive Transformer decoder with GroupSELFIES achieves the best average properties for the random generation task. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# Sim-CLIP:ロバストおよびセマンティック・リッチビジョン・ランゲージモデルのための教師なしシームズ逆調整
Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models ( http://arxiv.org/abs/2407.14971v1 ) ライセンス: Link先を確認 | Md Zarif Hossain, Ahmed Imteaj, | (参考訳) 視覚言語モデル(VLM)は、近年では特にマルチモーダルなタスクにおいて大きな進歩を遂げているが、そのビジョンコンポーネントに対する敵の攻撃の影響を受けやすいままである。
そこで本研究では,CLIPビジョンエンコーダの攻撃に対する堅牢性を向上し,意味的豊かさと特異性を維持しつつ,教師なしの逆向き微調整手法であるSim-CLIPを提案する。
Sim-CLIPは、コサイン類似性の損失を伴うSiameseアーキテクチャを利用することで、大きなバッチサイズや運動量エンコーダを必要とせずに、意味的に意味があり、攻撃耐性のある視覚表現を学習する。
以上の結果から,Sim-CLIPの微調整CLIPエンコーダにより拡張されたVLMは,摂動画像の意味を保ちながら,対角攻撃に対するロバスト性を大幅に向上することが示された。
特に、Sim-CLIPはVLM自体のトレーニングや微調整を必要とせず、元のビジョンエンコーダを細調整したSim-CLIPサファイスに置き換えて堅牢性を提供する。
この研究は、下流のVLMアプリケーションの信頼性を保護し、よりセキュアで効果的なマルチモーダルシステムを実現するために、CLIPのような基盤モデルを強化することの重要性を強調している。
Vision-language models (VLMs) have achieved significant strides in recent times specially in multimodal tasks, yet they remain susceptible to adversarial attacks on their vision components. To address this, we propose Sim-CLIP, an unsupervised adversarial fine-tuning method that enhances the robustness of the widely-used CLIP vision encoder against such attacks while maintaining semantic richness and specificity. By employing a Siamese architecture with cosine similarity loss, Sim-CLIP learns semantically meaningful and attack-resilient visual representations without requiring large batch sizes or momentum encoders. Our results demonstrate that VLMs enhanced with Sim-CLIP's fine-tuned CLIP encoder exhibit significantly enhanced robustness against adversarial attacks, while preserving semantic meaning of the perturbed images. Notably, Sim-CLIP does not require additional training or fine-tuning of the VLM itself; replacing the original vision encoder with our fine-tuned Sim-CLIP suffices to provide robustness. This work underscores the significance of reinforcing foundational models like CLIP to safeguard the reliability of downstream VLM applications, paving the way for more secure and effective multimodal systems. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# ARoFace:低品質の顔認識を改善するためのアライメントロバストネス
ARoFace: Alignment Robustness to Improve Low-Quality Face Recognition ( http://arxiv.org/abs/2407.14972v1 ) ライセンス: Link先を確認 | Mohammad Saeed Ebrahimi Saadabadi, Sahar Rahimi Malakshan, Ali Dabouei, Nasser M. Nasrabadi, | (参考訳) 低品質(LQ)入力における顔認識(FR)の向上を目的とした最近の研究は、合成LQサンプルをトレーニングに組み込むことを示唆している。
有望ではあるが、これらの作品で考慮される品質要因は、FR固有の、 \eg、大気の乱流、分解能、 \etc よりも一般的である。
現状のFRモデルの脆弱性をLQ画像の小さな顔アライメントエラー(FAE)まで観測した結果,FAEをFRに適合した別の品質要因とみなす単純かつ効果的な手法が提示された。
我々は、FAEに対するFRモデルの堅牢性を高めることにより、LQ FRを改善することを目指している。
この目的のために, FRにおける微分可能な空間変換と対角データ拡張の組合せとして問題を定式化する。
我々は、制御可能な空間変換を用いてトレーニングサンプルのアライメントを摂動させ、FAEを表現したサンプルでトレーニングを強化した。
IJB-B, IJB-C, IJB-S (+4.3\% Rank1) および TinyFace (+2.63\%) の評価を行った。
\href{https://github.com/msed-Ebrahimi/ARoFace}{https://github.com/msed-Ebrahimi/ARoFace}
Aiming to enhance Face Recognition (FR) on Low-Quality (LQ) inputs, recent studies suggest incorporating synthetic LQ samples into training. Although promising, the quality factors that are considered in these works are general rather than FR-specific, \eg, atmospheric turbulence, resolution, \etc. Motivated by the observation of the vulnerability of current FR models to even small Face Alignment Errors (FAE) in LQ images, we present a simple yet effective method that considers FAE as another quality factor that is tailored to FR. We seek to improve LQ FR by enhancing FR models' robustness to FAE. To this aim, we formalize the problem as a combination of differentiable spatial transformations and adversarial data augmentation in FR. We perturb the alignment of the training samples using a controllable spatial transformation and enrich the training with samples expressing FAE. We demonstrate the benefits of the proposed method by conducting evaluations on IJB-B, IJB-C, IJB-S (+4.3\% Rank1), and TinyFace (+2.63\%). \href{https://github.com/msed-Ebrahimi/ARoFace}{https://github.com/msed-Ebrahimi/ARoFace} | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# 突発性外部:グループアノテーションなしでの突発性相関による堅牢性向上
Out of spuriousity: Improving robustness to spurious correlations without group annotations ( http://arxiv.org/abs/2407.14974v1 ) ライセンス: Link先を確認 | Phuong Quynh Le, Jörg Schlötterer, Christin Seifert, | (参考訳) 機械学習モデルは、急激な相関、すなわち、クラスラベルと強い関係を持つが因果関係を持たない特徴を学習することが知られている。
これらの相関を考慮すれば、これらの相関や一般化能力の欠如なしに、データグループの性能が低下する。
機械学習モデルのロバスト性を改善するために,スプリアス相関に依存しない完全に訓練されたネットワークからサブネットワークを抽出する手法を提案する。
サブネットワークは,ERMを用いたトレーニングにおいて,同じスプリアス特性を持つデータポイントが表現空間において互いに近接しているという仮定により,新しい方法で教師付きコントラスト損失を用いて,スプリアス接続を開放する。
提案手法の最悪のグループ性能の増大は, 分類タスクにおける不変特徴のみを使用する責任を負う, 完全訓練された高密度ネットワークにサブネットワークが存在するという仮説の強化に寄与する。
Machine learning models are known to learn spurious correlations, i.e., features having strong relations with class labels but no causal relation. Relying on those correlations leads to poor performance in the data groups without these correlations and poor generalization ability. To improve the robustness of machine learning models to spurious correlations, we propose an approach to extract a subnetwork from a fully trained network that does not rely on spurious correlations. The subnetwork is found by the assumption that data points with the same spurious attribute will be close to each other in the representation space when training with ERM, then we employ supervised contrastive loss in a novel way to force models to unlearn the spurious connections. The increase in the worst-group performance of our approach contributes to strengthening the hypothesis that there exists a subnetwork in a fully trained dense network that is responsible for using only invariant features in classification tasks, therefore erasing the influence of spurious features even in the setup of multi spurious attributes and no prior knowledge of attributes labels. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# 観測可能なシステム行動に基づく自律性の尺度
A Measure for Level of Autonomy Based on Observable System Behavior ( http://arxiv.org/abs/2407.14975v1 ) ライセンス: Link先を確認 | Jason M. Pittman, | (参考訳) 現代の人工知能システムは、様々な領域における人間の効率性と安全性を高める上で重要な存在である。
そのような領域の1つは自律システムであり、特に自動車や防衛のユースケースにおいてである。
人工知能は、自律システムにおける目標指向の行動と人間の独立性に学習と意思決定の強化をもたらす。
しかし、自律システムに関する明確な理解の欠如は、人間-機械間相互作用や機械-機械間相互作用を阻害する。
これは、安全性、説明責任、説明可能性の目的のために、様々なレベルの人間の関与を必要とする。
しかし、自律システムにおけるレベルの自律能力を測定することは、課題である。
2つの尺度が存在するが、自律性の測定は、野生では利用できない様々な要素を前提としている。
そのため、既存の自律性の尺度は、設計、テスト、評価フェーズでのみ運用される。
観察されたシステムの振る舞いに基づく自律性のレベルは現時点では存在しない。
これを解決するために、観測可能な行動を用いて自律性のレベルを予測するための潜在的尺度を概説する。
また,提案手法を取り入れたアルゴリズムを提案する。
この測定とアルゴリズムは、実行時に自律システムを比較する方法に興味のある研究者や実践者にとって重要である。
反自律性は、自律システムの堅牢な識別に依存するため、防衛ベースの実装も可能である。
Contemporary artificial intelligence systems are pivotal in enhancing human efficiency and safety across various domains. One such domain is autonomous systems, especially in automotive and defense use cases. Artificial intelligence brings learning and enhanced decision-making to autonomy system goal-oriented behaviors and human independence. However, the lack of clear understanding of autonomy system capabilities hampers human-machine or machine-machine interaction and interdiction. This necessitates varying degrees of human involvement for safety, accountability, and explainability purposes. Yet, measuring the level autonomous capability in an autonomous system presents a challenge. Two scales of measurement exist, yet measuring autonomy presupposes a variety of elements not available in the wild. This is why existing measures for level of autonomy are operationalized only during design or test and evaluation phases. No measure for level of autonomy based on observed system behavior exists at this time. To address this, we outline a potential measure for predicting level of autonomy using observable actions. We also present an algorithm incorporating the proposed measure. The measure and algorithm have significance to researchers and practitioners interested in a method to blind compare autonomous systems at runtime. Defense-based implementations are likewise possible because counter-autonomy depends on robust identification of autonomous systems. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# RGB2Point: 単一のRGB画像から3Dポイントクラウドを生成する
RGB2Point: 3D Point Cloud Generation from Single RGB Images ( http://arxiv.org/abs/2407.14979v1 ) ライセンス: Link先を確認 | Jae Joong Lee, Bedrich Benes, | (参考訳) トランスフォーマーをベースとした3Dポイントクラウド生成に,未提示のシングルビューRGB画像であるRGB2Pointを導入する。
RGB2Pointはオブジェクトの入力画像を取り込み、密度の高い3Dポイントクラウドを生成する。
CNNレイヤと拡散デノゲーションアプローチに基づく以前の作業とは対照的に、トレーニング済みのTransformerレイヤは高速で、利用可能なカテゴリよりも一貫した品質で高品質な点雲を生成する。
我々の生成した点雲は、現在の最先端と比較して、チャムファー距離(51.15%)とアース・マーバー距離(45.96%)の改善によって証明されたように、現実世界のデータセット上で高い品質を示す。
さらに、我々の手法は、合成データセット上でより良い品質を示し、より優れたチャンファー距離(39.26%)、アースマーバー距離(26.95%)、Fスコア(47.16%)を実現している。
さらに,本手法では,先行研究と比較して,様々な対象カテゴリに対して63.1%の高品質な結果が得られる。
さらに、RGB2Pointは計算効率が高く、2.3GBのVRAMしか必要とせず、単一のRGB画像から3Dポイントの雲を再構成する必要があり、我々はSOTA拡散モデルよりも15,133倍高速に結果を生成する。
We introduce RGB2Point, an unposed single-view RGB image to a 3D point cloud generation based on Transformer. RGB2Point takes an input image of an object and generates a dense 3D point cloud. Contrary to prior works based on CNN layers and diffusion denoising approaches, we use pre-trained Transformer layers that are fast and generate high-quality point clouds with consistent quality over available categories. Our generated point clouds demonstrate high quality on a real-world dataset, as evidenced by improved Chamfer distance (51.15%) and Earth Mover's distance (45.96%) metrics compared to the current state-of-the-art. Additionally, our approach shows a better quality on a synthetic dataset, achieving better Chamfer distance (39.26%), Earth Mover's distance (26.95%), and F-score (47.16%). Moreover, our method produces 63.1% more consistent high-quality results across various object categories compared to prior works. Furthermore, RGB2Point is computationally efficient, requiring only 2.3GB of VRAM to reconstruct a 3D point cloud from a single RGB image, and our implementation generates the results 15,133x faster than a SOTA diffusion-based model. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# 技術的AIガバナンスにおけるオープンな問題
Open Problems in Technical AI Governance ( http://arxiv.org/abs/2407.14981v1 ) ライセンス: Link先を確認 | Anka Reuel, Ben Bucknall, Stephen Casper, Tim Fist, Lisa Soder, Onni Aarne, Lewis Hammond, Lujain Ibrahim, Alan Chan, Peter Wills, Markus Anderljung, Ben Garfinkel, Lennart Heim, Andrew Trask, Gabriel Mukobi, Rylan Schaeffer, Mauricio Baker, Sara Hooker, Irene Solaiman, Alexandra Sasha Luccioni, Nitarshan Rajkumar, Nicolas Moës, Jeffrey Ladish, Neel Guha, Jessica Newman, Yoshua Bengio, Tobin South, Alex Pentland, Sanmi Koyejo, Mykel J. Kochenderfer, Robert Trager, | (参考訳) AIの進歩は、さまざまなリスクや機会を生み出していますが、どのようにナビゲートすべきかはよくわかりません。
多くの場合、直面した障壁と不確実性は少なくとも部分的には技術的である。
技術的AIガバナンス(Technical AI Governance)は、AIの効果的なガバナンスを支援する技術分析とツールを指して、このような課題に対処しようとしている。
助かります。
(a)介入が必要な地域を特定する。
b)潜在的統治行為の有効性を特定し評価し、
(c) 執行、インセンティブ、コンプライアンスのメカニズムを設計することで、ガバナンスの選択肢を強化する。
本稿では、技術的AIガバナンスとは何か、なぜ重要なのかを説明し、そのオープンな問題の分類と不完全なカタログを提示する。
本論文は、AIガバナンスへの貢献を目指す技術研究者や研究資金提供者のためのリソースとして意図されている。
AI progress is creating a growing range of risks and opportunities, but it is often unclear how they should be navigated. In many cases, the barriers and uncertainties faced are at least partly technical. Technical AI governance, referring to technical analysis and tools for supporting the effective governance of AI, seeks to address such challenges. It can help to (a) identify areas where intervention is needed, (b) identify and assess the efficacy of potential governance actions, and (c) enhance governance options by designing mechanisms for enforcement, incentivization, or compliance. In this paper, we explain what technical AI governance is, why it is important, and present a taxonomy and incomplete catalog of its open problems. This paper is intended as a resource for technical researchers or research funders looking to contribute to AI governance. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# GreenStableYolo: テキスト・ツー・イメージ生成の推論時間と画質を最適化する
GreenStableYolo: Optimizing Inference Time and Image Quality of Text-to-Image Generation ( http://arxiv.org/abs/2407.14982v1 ) ライセンス: Link先を確認 | Jingzhi Gong, Sisi Li, Giordano d'Aloisio, Zishuo Ding, Yulong Ye, William B. Langdon, Federica Sarro, | (参考訳) AIベースのテキスト・ツー・イメージ生成を改善するためのパラメータとプロンプトのチューニングは、依然として大きな課題であり続けている。
そこで、GreenStableYoloを導入し、パラメータを改善し、安定拡散によりGPUの推論時間を短縮し、NSGA-IIとYoloを用いた画像生成品質を向上させる。
画像品質はStableYolo(画像品質のみを考慮)に比べ,画像品質のトレードオフが比較的小さい(38%)にもかかわらず,GreenStableYoloは推論時間の大幅な削減(266%)と526%の高ボリュームを実現し,テキスト・画像生成の最先端化を実現している。
Tuning the parameters and prompts for improving AI-based text-to-image generation has remained a substantial yet unaddressed challenge. Hence we introduce GreenStableYolo, which improves the parameters and prompts for Stable Diffusion to both reduce GPU inference time and increase image generation quality using NSGA-II and Yolo. Our experiments show that despite a relatively slight trade-off (18%) in image quality compared to StableYolo (which only considers image quality), GreenStableYolo achieves a substantial reduction in inference time (266% less) and a 526% higher hypervolume, thereby advancing the state-of-the-art for text-to-image generation. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# システムブラーとノイズモデルを用いた深層学習CT画像復元
Deep Learning CT Image Restoration using System Blur and Noise Models ( http://arxiv.org/abs/2407.14983v1 ) ライセンス: Link先を確認 | Yijie Yuan, Grace J. Gang, J. Webster Stayman, | (参考訳) ぼかしやノイズによる画像の復元は広く研究されており、CT(Computed tomography)のような医療画像モダリティにも応用できる可能性がある。
CT画像のぼかしやノイズは様々なシステム要因に起因する可能性があるが、これらの画像特性を正確にモデル化し、予測し、古典的な復元手法でデコンボリューションやデノナイジングを行うことができる。
古典的なアプローチでは、同時的なデコンボリューションとデノベーションは困難であり、しばしば競合する目標を表す。
近年、ディープラーニングアプローチは、古典的限界を超える画質向上の可能性を示しているが、ほとんどのディープラーニングモデルは、ブラインド復元問題を試行し、画像ノイズやぼやけ特性を直接知ることなく、画像入力のみをベースとしている。
本研究では,劣化した画像の入力と,システムの曖昧さとノイズのキャラクタリゼーションを併用して,モデリングとディープラーニングのアプローチを組み合わせる手法を提案する。
これらの補助入力を統合する様々な方法が提示される。
すなわち、畳み込みブロックの前後のパラメータベクトルとして補助入力が組み込まれ、任意のCNNアーキテクチャに容易に統合できる入力変種と重量変種アプローチである。
提案モデルでは, 補助入力を欠いたベースラインモデルに比べ, 優れた性能を示す。
評価は、平均ピーク信号対雑音比(PSNR)、様々なアプローチにおける良質かつ劣悪な性能の選択例、および異なるノイズとぼけが性能に与える影響を評価するための入力空間解析に基づく。
その結果、画像復元作業におけるモデルの性能を高めるために、システムボケとノイズ特性を表す補助入力を備えた深層学習モデルの有効性が示された。
The restoration of images affected by blur and noise has been widely studied and has broad potential for applications including in medical imaging modalities like computed tomography (CT). Although the blur and noise in CT images can be attributed to a variety of system factors, these image properties can often be modeled and predicted accurately and used in classical restoration approaches for deconvolution and denoising. In classical approaches, simultaneous deconvolution and denoising can be challenging and often represent competing goals. Recently, deep learning approaches have demonstrated the potential to enhance image quality beyond classic limits; however, most deep learning models attempt a blind restoration problem and base their restoration on image inputs alone without direct knowledge of the image noise and blur properties. In this work, we present a method that leverages both degraded image inputs and a characterization of the system blur and noise to combine modeling and deep learning approaches. Different methods to integrate these auxiliary inputs are presented. Namely, an input-variant and a weight-variant approach wherein the auxiliary inputs are incorporated as a parameter vector before and after the convolutional block, respectively, allowing easy integration into any CNN architecture. The proposed model shows superior performance compared to baseline models lacking auxiliary inputs. Evaluations are based on the average Peak Signal-to-Noise Ratio (PSNR), selected examples of good and poor performance for varying approaches, and an input space analysis to assess the effect of different noise and blur on performance. Results demonstrate the efficacy of providing a deep learning model with auxiliary inputs, representing system blur and noise characteristics, to enhance the performance of the model in image restoration tasks. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# 注意に基づくディープラーニングモデルによるマイクログリッド性能予測の強化
Enhancing Microgrid Performance Prediction with Attention-based Deep Learning Models ( http://arxiv.org/abs/2407.14984v1 ) ライセンス: Link先を確認 | Vinod Kumar Maddineni, Naga Babu Koganti, Praveen Damacharla, | (参考訳) 本研究では、マイクログリッドシステムの運用上の課題に対処するために、グリッド不安定性に寄与する電力振動を特徴とする取り組みを行う。
畳み込みとGRU(Gated Recurrent Unit)の強みを活かした統合戦略が提案されている。
このアプローチは、エネルギーデータセットから時間データを効果的に抽出し、マイクログリッドの挙動予測の精度を向上させることを目的としている。
さらに、注意層を用いて時系列データ内の重要な特徴をアンダースコアし、予測プロセスを最適化する。
このフレームワークはMulti-Layer Perceptron (MLP)モデルで固定されており、包括的な負荷予測と異常グリッドの挙動の同定を行う。
提案手法は,Root Mean Square Error (RMSE), Mean Absolute Error (MAE), and the coefficient of determination (r2-score) を主指標として,マイクログリッドを用いた厳密な評価を行った。
この手法は、MAEが0.39、RMSEが0.28、r2スコアが98.89 %、そしてほぼ完全なゼロ状態予測精度(約99.9 %)で実証された模範的な性能を示した。
ベクトル回帰やランダムフォレスト回帰などの従来の機械学習モデルよりも顕著に優れているが、我々のモデルの合理化アーキテクチャは特にリアルタイムアプリケーションに適しているため、より効果的で信頼性の高いマイクログリッド管理が容易である。
In this research, an effort is made to address microgrid systems' operational challenges, characterized by power oscillations that eventually contribute to grid instability. An integrated strategy is proposed, leveraging the strengths of convolutional and Gated Recurrent Unit (GRU) layers. This approach is aimed at effectively extracting temporal data from energy datasets to improve the precision of microgrid behavior forecasts. Additionally, an attention layer is employed to underscore significant features within the time-series data, optimizing the forecasting process. The framework is anchored by a Multi-Layer Perceptron (MLP) model, which is tasked with comprehensive load forecasting and the identification of abnormal grid behaviors. Our methodology underwent rigorous evaluation using the Micro-grid Tariff Assessment Tool dataset, with Root Mean Square Error (RMSE), Mean Absolute Error (MAE), and the coefficient of determination (r2-score) serving as the primary metrics. The approach demonstrated exemplary performance, evidenced by a MAE of 0.39, RMSE of 0.28, and an r2-score of 98.89\% in load forecasting, along with near-perfect zero state prediction accuracy (approximately 99.9\%). Significantly outperforming conventional machine learning models such as support vector regression and random forest regression, our model's streamlined architecture is particularly suitable for real-time applications, thereby facilitating more effective and reliable microgrid management. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# 一般化対メモ化:事前学習データに言語モデルの能力を引き戻す
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data ( http://arxiv.org/abs/2407.14985v1 ) ライセンス: Link先を確認 | Antonis Antoniades, Xinyi Wang, Yanai Elazar, Alfonso Amayuelas, Alon Albalak, Kexun Zhang, William Yang Wang, | (参考訳) 大規模言語モデル(LLM)が現実のアプリケーションで有効であることが証明されているにもかかわらず、そのような機能を実現するために大規模な事前学習テキストコーパスをどのように活用するかについては理解されていない。
本研究では,事前学習したLLMにおける一般化と記憶の相互作用を,学習データの総合的な$n$-gram解析により検討する。
本実験では,3種類のタスクタイプ(翻訳,質問応答,複数選択推論)に着目した。
各種のオープンソースLCMとその事前学習コーパスを用いて、モデルのサイズが大きくなるにつれて、タスク関連$n$-gramのペアデータの重要性が増し、タスク性能が向上し、記憶力の低下、一般化の強化、創発的能力の向上が期待できる。
その結果, LLMの能力は, 十分なタスク関連事前学習データを用いて, 記憶と一般化の微妙なバランスから生まれるという仮説を支持し, それらのモデルの理解を深めることのできる大規模分析への道を示す。
Despite the proven utility of large language models (LLMs) in real-world applications, there remains a lack of understanding regarding how they leverage their large-scale pretraining text corpora to achieve such capabilities. In this work, we investigate the interplay between generalization and memorization in pretrained LLMs at scale, through a comprehensive $n$-gram analysis of their training data. Our experiments focus on three general task types: translation, question-answering, and multiple-choice reasoning. With various sizes of open-source LLMs and their pretraining corpora, we observe that as the model size increases, the task-relevant $n$-gram pair data becomes increasingly important, leading to improved task performance, decreased memorization, stronger generalization, and emergent abilities. Our results support the hypothesis that LLMs' capabilities emerge from a delicate balance of memorization and generalization with sufficient task-related pretraining data, and point the way to larger-scale analyses that could further improve our understanding of these models. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# 分散量子コンピューティングのための非同期テレゲートとテレデータプロトコル
Asynchronous Telegate and Teledata Protocols for Distributed Quantum Computing ( http://arxiv.org/abs/2407.14987v1 ) ライセンス: Link先を確認 | Jacob Peckham, Dwight Makaroff, Steven Rayan, | (参考訳) テレゲートやテレデータプロトコルのような分散量子演算のコストは、絡み合った光子や古典的な情報の分散によるレイテンシが高い。
本稿では,分散量子演算のコストを隠蔽する非同期古典通信を実現するために,テレゲートプロトコルとテレデータプロトコルの拡張を提案する。
次に、これらの非同期プロトコルの利点と制限について議論し、非単体演算子を用いてこれらの非同期プロトコルを改善する潜在的方法を提案する。
最後に、量子ネットワークカードは、非同期量子演算がどのように使われるかの例として記述される。
The cost of distributed quantum operations such as the telegate and teledata protocols is high due to latencies from distributing entangled photons and classical information. This paper proposes an extension to the telegate and teledata protocols to allow for asynchronous classical communication which hides the cost of distributed quantum operations. We then discuss the benefits and limitations of these asynchronous protocols and propose a potential way to improve these asynchronous protocols using nonunitary operators. Finally, a quantum network card is described as an example of how asynchronous quantum operations might be used. | 翻訳日:2024-07-23 19:48:22 公開日:2024-07-20 |
# 雪だるまの活用に関する研究 : 灰色文献レビュー
Investigating the use of Snowballing on Gray Literature Reviews ( http://arxiv.org/abs/2407.14991v1 ) ライセンス: Link先を確認 | Felipe Gomes, Thiago Mendes, Sávio Freire, Rodrigo Spínola, Manoel Mendonça, | (参考訳) 背景: 灰色の文学(GL)の使用は、ソフトウェア開発の専門家が広く使用しているため、特に質問と回答(Q&A)のサイトを考慮に入れた研究において、ソフトウェア工学の研究において成長している。
スノーボール(SB)技術は、体系的な文献レビューでは標準的な手法であるが、それらをグレーの文献レビューに適用する方法については、ほとんど知られていない。
Aims: 灰色文献レビュー中のQ&AサイトにおけるSBアプローチの活用方法を検討した。
方法: 前回の研究では,ソフトウェア工学の技術的負債(TD)に関するStack Exchange Project Management(SEPM)の一連の議論をまとめ,分析した。
これらの研究は、SEPMから抽出された108の有効な議論からなるデータセットを使用した。
この開始データセットに基づいて、リンクベースと類似性ベースのSBという2つの異なるアプローチを用いて前方および後方SBを実行する。
次に、これらの2つのSBアプローチの精度とリコールを、元の研究の検索ベースアプローチと比較する。
結果: 雪玉を1回だけ繰り返した結果, 解析のための新たな議論が291件あり, そのうち130件が本研究に有効と考えられた。
これは、元のデータセット(リコール)よりも約120%増加する。
また,SBプロセスは,探索に基づくアプローチ(精度)と比較して,有効な議論の検索率も同等に向上した。
結論:本論文は,2つのSBアプローチを適用して,レビューのための新たな有効な議論を見つける方法についてのガイドラインを提供する。
我々の知る限り、これはQ&AウェブサイトにおけるSBの使用を分析する最初の研究である。
SBの適用により,新たな議論の特定が可能となり,灰色文献レビューの関連データセットが大幅に増加した。
Background: The use of gray literature (GL) has grown in software engineering research, especially in studies that consider Questions and Answers (Q&A) sites, since software development professionals widely use them. Though snowballing (SB) techniques are standard in systematic literature reviews, little is known about how to apply them to gray literature reviews. Aims: This paper investigates how to use SB approaches on Q&A sites during gray literature reviews to identify new valid discussions for analysis. Method: In previous studies, we compiled and analyzed a set of Stack Exchange Project Management (SEPM) discussions related to software engineering technical debt (TD). Those studies used a data set consisting of 108 valid discussions extracted from SEPM. Based on this start data set, we perform forward and backward SB using two different approaches: link-based and similarity-based SB. We then compare the precision and recall of those two SB approaches against the search-based approach of the original study. Results: In just one snowballing iteration, the approaches yielded 291 new discussions for analysis, 130 of which were considered valid for our study. That is an increase of about 120% over the original data set (recall). The SB process also yielded a similar rate of valid discussion retrieval when compared to the search-based approach (precision). Conclusion: This paper provides guidelines on how to apply two SB approaches to find new valid discussions for review. To our knowledge, this is the first study that analyzes the use of SB on Q&A websites. By applying SB, it was possible to identify new discussions, significantly increasing the relevant data set for a gray literature review. | 翻訳日:2024-07-23 19:38:37 公開日:2024-07-20 |
# 医用画像の非参照品質評価 : 合成脳MRIへの応用
Non-Reference Quality Assessment for Medical Imaging: Application to Synthetic Brain MRIs ( http://arxiv.org/abs/2407.14994v1 ) ライセンス: Link先を確認 | Karl Van Eeden Risager, Torkan Gholamalizadeh, Mostafa Mehdipour Ghazi, | (参考訳) 高品質な合成データを生成することは、ドメイン適応、データ不足、プライバシの懸念といった医療画像の課題に対処するために重要である。
既存の画像品質のメトリクスは、しばしば参照画像に依存し、グループ比較のために調整されるか、2次元の自然画像のために意図され、医療画像のような複雑な領域での有効性を制限している。
本研究では,3次元ResNetをトレーニングすることで脳MRI品質を評価するための,ディープラーニングに基づく新しい非参照手法を提案する。
このネットワークは、MRIスキャンでよく見られる6つの異なるアーティファクトで品質を推定するように設計されている。
さらに、拡散モデルは、多種多様なデータセットに基づいて訓練され、高忠実度の合成3D画像を生成する。
このアプローチでは、トレーニングと総合的な品質評価にいくつかのデータセットを活用し、実際の画像と合成画像の最先端メトリクスに対してベンチマークを行う。
その結果、歪みを正確に推定し、複数の視点から画質を反映する性能が向上した。
特に,提案手法は参照画像なしで動作し,深部生成モデル評価への適用性を示す。
さらに,[0, 1]領域の品質スコアは,異種データセット間の画像品質を直感的に評価する。
生成された画像の評価は、特定のアーティファクトに関する詳細な洞察を与え、高品質な合成画像を生成するために生成モデルを改善するための指針となる。
本研究は,MRIにおける実画像と合成画像の品質を基準画像に頼らずに総合的に評価する手法である。
Generating high-quality synthetic data is crucial for addressing challenges in medical imaging, such as domain adaptation, data scarcity, and privacy concerns. Existing image quality metrics often rely on reference images, are tailored for group comparisons, or are intended for 2D natural images, limiting their efficacy in complex domains like medical imaging. This study introduces a novel deep learning-based non-reference approach to assess brain MRI quality by training a 3D ResNet. The network is designed to estimate quality across six distinct artifacts commonly encountered in MRI scans. Additionally, a diffusion model is trained on diverse datasets to generate synthetic 3D images of high fidelity. The approach leverages several datasets for training and comprehensive quality assessment, benchmarking against state-of-the-art metrics for real and synthetic images. Results demonstrate superior performance in accurately estimating distortions and reflecting image quality from multiple perspectives. Notably, the method operates without reference images, indicating its applicability for evaluating deep generative models. Besides, the quality scores in the [0, 1] range provide an intuitive assessment of image quality across heterogeneous datasets. Evaluation of generated images offers detailed insights into specific artifacts, guiding strategies for improving generative models to produce high-quality synthetic images. This study presents the first comprehensive method for assessing the quality of real and synthetic 3D medical images in MRI contexts without reliance on reference images. | 翻訳日:2024-07-23 19:38:36 公開日:2024-07-20 |
# グラフニューラルネットワークにおけるメッセージパッシングのための大規模言語モデルの効率的な統合
All Against Some: Efficient Integration of Large Language Models for Message Passing in Graph Neural Networks ( http://arxiv.org/abs/2407.14996v1 ) ライセンス: Link先を確認 | Ajay Jaiswal, Nurendra Choudhary, Ravinarayana Adkathimar, Muthu P. Alagappan, Gaurush Hiranandani, Ying Ding, Zhangyang Wang, Edward W Huang, Karthik Subbian, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを中心に構築された多数の実世界のアプリケーションによって、過去10年間で大きな注目を集めている。
一方、広範囲に事前訓練された知識と強力な意味理解能力を持つLarge Language Models (LLMs) は、近年、視覚とテキストデータを使用したアプリケーションにメリットをもたらす顕著な能力を示している。
本稿では, LLM を計算的に効率的に活用し, グラフ構造データに富む手法について検討する。
この領域における以前の研究は、LLMを利用して、アドホックな方法で全てのノード機能を増強し(大きなグラフには拡張性がない)、自然言語を使ってグラフの複雑な構造情報を記述したり、GNNと組み合わせて計算的に高価なLPMの微調整を行う。
E-LLaGNN(E-LLaGNN)は,グラフから限られたノード数を増やすことで,グラフ学習のメッセージパッシング手順を充実させるオンデマンドLLMサービスを備えたフレームワークである。
E-LLaGNN は LLM を用いた高品質な地区のサンプリングに頼っており、続いて我々のプロンプトカタログからの多様なプロンプトを用いたオンデマンド地区機能の強化と、従来の GNN アーキテクチャからのメッセージパッシングによる情報集約が続く。
数百万のノードを扱う場合, LLMの計算量やメモリフットプリントを制限するために, ヒューリスティックスに基づくアクティブノード選択手法について検討する。
さまざまなスケール(Cora,PubMed,ArXiv,およびProducts)のグラフベンチマークに関する広範な実験とアブレーションを通じて、E-LLaGNNフレームワークの有効性を説明し、深いGNNの勾配フローの改善、LLMのない推論機能など、多くの興味深い機能を明らかにします。
Graph Neural Networks (GNNs) have attracted immense attention in the past decade due to their numerous real-world applications built around graph-structured data. On the other hand, Large Language Models (LLMs) with extensive pretrained knowledge and powerful semantic comprehension abilities have recently shown a remarkable ability to benefit applications using vision and text data. In this paper, we investigate how LLMs can be leveraged in a computationally efficient fashion to benefit rich graph-structured data, a modality relatively unexplored in LLM literature. Prior works in this area exploit LLMs to augment every node features in an ad-hoc fashion (not scalable for large graphs), use natural language to describe the complex structural information of graphs, or perform computationally expensive finetuning of LLMs in conjunction with GNNs. We propose E-LLaGNN (Efficient LLMs augmented GNNs), a framework with an on-demand LLM service that enriches message passing procedure of graph learning by enhancing a limited fraction of nodes from the graph. More specifically, E-LLaGNN relies on sampling high-quality neighborhoods using LLMs, followed by on-demand neighborhood feature enhancement using diverse prompts from our prompt catalog, and finally information aggregation using message passing from conventional GNN architectures. We explore several heuristics-based active node selection strategies to limit the computational and memory footprint of LLMs when handling millions of nodes. Through extensive experiments & ablation on popular graph benchmarks of varying scales (Cora, PubMed, ArXiv, & Products), we illustrate the effectiveness of our E-LLaGNN framework and reveal many interesting capabilities such as improved gradient flow in deep GNNs, LLM-free inference ability etc. | 翻訳日:2024-07-23 19:38:36 公開日:2024-07-20 |
# 引用文生成の改善:長さ制御における限界を克服する
Improving Citation Text Generation: Overcoming Limitations in Length Control ( http://arxiv.org/abs/2407.14997v1 ) ライセンス: Link先を確認 | Biswadip Mandal, Xiangci Li, Jessica Ouyang, | (参考訳) 引用テキスト生成における重要な課題は、生成されたテキストの長さがターゲットの長さとしばしば異なり、生成の質が低下することである。
従来の研究は、長さ制御された生成を調査してきたが、その有効性は、適切な生成長を知ることに依存する。
本研究では,科学的引用文長の予測限界について詳細な研究を行い,所望の長さのヒューリスティックな推定値の利用について検討する。
A key challenge in citation text generation is that the length of generated text often differs from the length of the target, lowering the quality of the generation. While prior works have investigated length-controlled generation, their effectiveness depends on knowing the appropriate generation length. In this work, we present an in-depth study of the limitations of predicting scientific citation text length and explore the use of heuristic estimates of desired length. | 翻訳日:2024-07-23 19:38:36 公開日:2024-07-20 |
# 無人無人機に対するステルス攻撃のための機械学習ベースのフレームワークRequiem for a Drone
Requiem for a drone: a machine-learning based framework for stealthy attacks against unmanned autonomous vehicles ( http://arxiv.org/abs/2407.15003v1 ) ライセンス: Link先を確認 | Kyo Hyun Kim, Denizhan Kara, Vineetha Paruchuri, Sibin Mohan, Greg Kimberly, Jae Kim, Josh Eckhardt, | (参考訳) センサリーダのノイズや環境要因,あるいはモデル誤差による自律システムの車体力学のモデル化には,不確実性が存在する。
ソフトウェアのみのブラックボックスアプローチであるRequiemは、この空間をステルスな方法で利用し、例えば無人航空機(UAV)の目標システムをミッションパラメータから著しく逸脱させる。
本システムでは, センサの値を変更することで, 異常検出装置による検出を回避しつつ, センサ値の修正を行う。
Requiemフレームワークは、複数のディープラーニングモデル("サロゲート"と"スプーン"と呼ぶ)の組み合わせと、ソフトウェア・イン・ザ・ループ四重項UAVシステムにおける広範囲で現実的なシミュレーションを使用する。
Requiemは、センサー(タイプの)とオンボード状態推定アルゴリズム(s)のどちらについても仮定しない。
複数のミッションにまたがる様々な攻撃と,複数の統計分析を用いたシステムの有効性を実証する。
我々は、Requiemがモデリングエラー(すなわち、計画されたミッションパラメータから重大な逸脱を引き起こす)をうまく利用し、ステルス性を維持しながら({tens ofmeters} 以降も検出されない)、一般化可能であることを示した。
There is a space of uncertainty in the modeling of vehicular dynamics of autonomous systems due to noise in sensor readings, environmental factors or modeling errors. We present Requiem, a software-only, blackbox approach that exploits this space in a stealthy manner causing target systems, e.g., unmanned aerial vehicles (UAVs), to significantly deviate from their mission parameters. Our system achieves this by modifying sensor values, all while avoiding detection by onboard anomaly detectors (hence, "stealthy"). The Requiem framework uses a combination of multiple deep learning models (that we refer to as "surrogates" and "spoofers") coupled with extensive, realistic simulations on a software-in-the-loop quadrotor UAV system. Requiem makes no assumptions about either the (types of) sensors or the onboard state estimation algorithm(s) -- it works so long as the latter is "learnable". We demonstrate the effectiveness of our system using various attacks across multiple missions as well as multiple sets of statistical analyses. We show that Requiem successfully exploits the modeling errors (i.e., causes significant deviations from planned mission parameters) while remaining stealthy (no detection even after {tens of meters of deviations}) and are generalizable (Requiem has potential to work across different attacks and sensor types). | 翻訳日:2024-07-23 19:38:36 公開日:2024-07-20 |
# 行動のクローン化は必要か? : 模倣学習における水平理解
Is Behavior Cloning All You Need? Understanding Horizon in Imitation Learning ( http://arxiv.org/abs/2407.15007v1 ) ライセンス: Link先を確認 | Dylan J. Foster, Adam Block, Dipendra Misra, | (参考訳) イミテーションラーニング(IL)は、実証から学ぶことによって、連続的な意思決定タスクにおいて専門家の行動を模倣することを目的としており、ロボット工学、自律運転、自動回帰テキスト生成に広く応用されている。
ILに対する最も単純なアプローチである振舞いクローニング(BC)は、問題水平線に対する好ましくない二次的依存を伴うサンプル複雑性を生じさせ、データと学習者の専門家へのアクセスに対する強い仮定の下で線形水平線依存を改善する様々なオンラインアルゴリズムを動機付けていると考えられている。
我々は、学習理論の観点から、オフラインとオンラインILの明らかなギャップを再考し、ディープニューラルネットワークを含む一般的なポリシークラスに焦点を当てる。
対数損失を伴う行動クローニングの新しい解析を通じて,オフラインILにおける水平非依存のサンプル複雑性を実現することが可能であることを示す。
一 累積支払額の範囲を規制し、
(二)政策クラスにおける教師付き学習複雑性の適切な概念を規定する。
決定的かつ定常的なポリシーに照らし合わせると、オフラインとオンラインのILのギャップは基本的なものではないことが分かる。
(i)オフラインILの地平線への線形依存を高報酬(かつてはオンラインILでしか達成できなかったものに適合)下で達成することが可能であり、
(i) ポリシークラスにさらなる仮定がなければ、オンラインILは対数損失を伴うオフラインILよりも、良質なMDPでも改善できない。
理論的結果と標準RLタスクと自己回帰言語生成の実験を補完し,本研究の実践的妥当性を検証した。
Imitation learning (IL) aims to mimic the behavior of an expert in a sequential decision making task by learning from demonstrations, and has been widely applied to robotics, autonomous driving, and autoregressive text generation. The simplest approach to IL, behavior cloning (BC), is thought to incur sample complexity with unfavorable quadratic dependence on the problem horizon, motivating a variety of different online algorithms that attain improved linear horizon dependence under stronger assumptions on the data and the learner's access to the expert. We revisit the apparent gap between offline and online IL from a learning-theoretic perspective, with a focus on general policy classes up to and including deep neural networks. Through a new analysis of behavior cloning with the logarithmic loss, we show that it is possible to achieve horizon-independent sample complexity in offline IL whenever (i) the range of the cumulative payoffs is controlled, and (ii) an appropriate notion of supervised learning complexity for the policy class is controlled. Specializing our results to deterministic, stationary policies, we show that the gap between offline and online IL is not fundamental: (i) it is possible to achieve linear dependence on horizon in offline IL under dense rewards (matching what was previously only known to be achievable in online IL); and (ii) without further assumptions on the policy class, online IL cannot improve over offline IL with the logarithmic loss, even in benign MDPs. We complement our theoretical results with experiments on standard RL tasks and autoregressive language generation to validate the practical relevance of our findings. | 翻訳日:2024-07-23 19:38:36 公開日:2024-07-20 |
# 一様ランダムウォークにおける点予測のための動きの融合とナイーブ予測
Fusion of Movement and Naive Predictions for Point Forecasting in Univariate Random Walks ( http://arxiv.org/abs/2406.14469v4 ) ライセンス: Link先を確認 | Cheng Zhang, | (参考訳) 単変数のランダムウォークにおけるポイント予測は、多くの研究者を惹きつけてきた重要だが挑戦的な研究トピックである。
残念なことに、このタスクの従来の回帰手法は、データ予測不能のため、単純なベンチマークを超えないことが多い。
決定融合の観点からは,将来値のランダムな誤差項を方向記号で乗算した正のランダムな誤差として表現する,ランダムウォークの変種定義から導かれる新しい予測法を提案する。
本手法は,動作の融合とナイーブ予測に基づいて最適化のための損失関数を必要とせず,検証セット上での動作予測精度を推定して最適化することができる。
この特徴は、融合法が従来の回帰法に戻るのを防ぎ、運動予測のために様々な機械学習モデルとディープラーニングモデルを統合できるようにする。
この手法の有効性はシミュレーションや実世界のデータ実験を通じて実証される。
S&P500指数やBitcoin価格の予測において、ARIMA、線形回帰、MLP、LSTMネットワークなどのベースラインモデルよりも優れている。
この方法は、正確な点予測が困難な場合に特に有利であるが、正確な運動予測が達成可能であり、ランダムウォークコンテキストにおける点予測に移動予測を変換する。
Point forecasting in univariate random walks is an important but challenging research topic that has attracted numerous researchers. Unfortunately, traditional regression methods for this task often fail to surpass naive benchmarks due to data unpredictability. From a decision fusion perspective, this study proposes a novel forecasting method, which is derived from a variant definition of random walks, where the random error term for the future value is expressed as a positive random error multiplied by a direction sign. This method, based on the fusion of movement and naive predictions, does not require a loss function for optimization and can be optimized by estimating movement prediction accuracy on the validation set. This characteristic prevents the fusion method from reverting to traditional regression methods and allows it to integrate various machine learning and deep learning models for movement prediction. The method's efficacy is demonstrated through simulations and real-world data experiments. It reliably outperforms naive forecasts with moderate movement prediction accuracies, such as 0.55, and is superior to baseline models such as the ARIMA, linear regression, MLP, and LSTM networks in forecasting the S&P 500 index and Bitcoin prices. This method is particularly advantageous when accurate point predictions are challenging but accurate movement predictions are attainable, translating movement predictions into point forecasts in random walk contexts. | 翻訳日:2024-07-23 11:30:02 公開日:2024-07-20 |
# CodeV:マルチレベル要約によるVerilog生成のためのLLMの強化
CodeV: Empowering LLMs for Verilog Generation through Multi-Level Summarization ( http://arxiv.org/abs/2407.10424v4 ) ライセンス: Link先を確認 | Yang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Ziyuan Nan, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen, | (参考訳) プロセッサ設計の複雑さとコストの増大により、プロセッサ設計の自動化に対する需要が急増した。
命令調整型大規模言語モデル(LLM)は、Pythonのような汎用プログラミング言語のコードを自動的に生成する際、顕著な性能を示している。
しかし、GPT-3.5のような先進的なLCMでさえ、Verilog生成において限られた性能を示すため、高品質な命令チューニングデータが不足しているため、これらの手法はVerilogのようなハードウェア記述言語(HDL)では失敗する。
この問題に関して,(1)実世界から収集したVerilogコードは,LLMが生成したコードよりも高品質であることを示す。
2) GPT-3.5 のような LLM は、生成するのではなく、Verilog コードの要約に優れている。
そこで本研究では,オープンソースの命令調整型Verilog生成用LLMであるCodeVを紹介する。
まず、先進的なLLMから対応するコードを生成する代わりに、VerilogコードでLLMをプロンプトし、多レベル要約により対応する自然言語記述を生成する。
実験の結果、CodeVは以前のオープンソースSOTAの14.4%(VerilogEvalのBetterV)と11.3%(RTLCoderのRTLCoder)を比較的上回り、またVerilogEvalの商用SOTA GPT-4の22.1%を上回った。
The increasing complexity and high costs associated with modern processor design have led to a surge in demand for processor design automation. Instruction-tuned large language models (LLMs) have demonstrated remarkable performance in automatically generating code for general-purpose programming languages like Python. However, these methods fail on hardware description languages (HDLs) like Verilog due to the scarcity of high-quality instruction tuning data, as even advanced LLMs like GPT-3.5 exhibit limited performance on Verilog generation. Regarding this issue, we observe that (1) Verilog code collected from the real world has higher quality than those generated by LLMs. (2) LLMs like GPT-3.5 excel in summarizing Verilog code rather than generating it. Based on these observations, this paper introduces CodeV, a series of open-source instruction-tuned Verilog generation LLMs. Instead of generating descriptions first and then getting the corresponding code from advanced LLMs, we prompt the LLM with Verilog code and let the LLM generate the corresponding natural language description by multi-level summarization. Experimental results show that CodeV relatively surpasses the previous open-source SOTA by 14.4% (BetterV in VerilogEval) and 11.3% (RTLCoder in RTLLM) respectively, and also relatively outperforms previous commercial SOTA GPT-4 by 22.1% in VerilogEval. | 翻訳日:2024-07-23 11:30:02 公開日:2024-07-20 |
# A2E:ドライバーレスタクシーサービスへのアクセスのための属性に基づく匿名化認証
A2E: Attribute-based Anonymity-Enhanced Authentication for Accessing Driverless Taxi Service ( http://arxiv.org/abs/2407.11320v2 ) ライセンス: Link先を確認 | Yanwei Gong, Xiaolin Chang, Jelena Mišić, Vojislav B. Mišić, | (参考訳) タクシーとしての無人車は、都市交通効率を高める可能性から注目を集めている。
しかし、未管理の物理的利用者の無人タクシー(DT)による予期せぬ事故と、DTに乗る場合の個人化のニーズの両方が、ユーザアイデンティティと属性の認証を必要としている。
さらに、ユーザIDのプライバシを保護し、DTの採用を強化する必要があれば、悪意のあるユーザを迅速にトレースすることは、依然として課題である。
本稿では,DTサービスにアクセスするためのA2E(Attribute-based Anonymity Enhanced)認証方式を提案する。
セキュリティ面から、A2Eは属性検証可能性を持ち、再実行可能なシグネチャに基づいてユーザ属性クレデンシャルを設計することで達成される。
一方、この属性クレデンシャルはリンク不能と偽造不能も満足している。
さらに、A2Eは、リングシグネチャとシークレット共有を利用した分散型クレデンシャル発行機構を設計し、匿名IDとの関連性からユーザ属性を保護することで、匿名性を向上した。
さらに、このメカニズムはユーザに対してトレーサビリティと非フレーム性を提供します。
パフォーマンス面では、悪意のあるユーザをトレースし、資格情報を更新する場合、A2Eはオーバーヘッドを低くする。
さらに、スケーラビリティも軽量さも満足しており、A2Eの実践性に貢献している。
我々は,A2Eのセキュリティと性能について,セキュリティ分析と性能評価を行う。
Driverless vehicle as a taxi is gaining more attention due to its potential to enhance urban transportation efficiency. However, both unforeseen incidents led by unsupervised physical users' driverless taxi (DT) rides and personalized needs of users when riding in a DT necessitate the authentication of user identity and attributes. Moreover, safeguarding user identity privacy and quickly tracing malicious users if necessary to enhance the adoption of DTs remains a challenge. This paper proposes a novel Attribute-based Anonymity Enhanced (A2E) authentication scheme for users to access DT service. From the security aspect, A2E has attribute verifiability, which is achieved by designing a user attribute credential based on redactable signature. Meanwhile, this attribute credential also satisfies unlinkability and unforgeability. In addition, A2E has enhanced anonymity, which is achieved by designing a decentralized credential issuance mechanism utilizing ring signature and secret sharing, safeguarding user attributes from association with anonymous identities. Moreover, this mechanism provides traceability and non-frameability to users. From the performance aspect, A2E causes low overhead when tracing malicious users and updating credentials. Besides, both scalability and lightweight are satisfied, which contributes to A2E's practicability. We conduct security analysis and performance evaluation to the security and performance capabilities of A2E. | 翻訳日:2024-07-23 11:30:02 公開日:2024-07-20 |
# Trust No Bot: 野生の人間とLLMの会話で個人的情報開示が発見される
Trust No Bot: Discovering Personal Disclosures in Human-LLM Conversations in the Wild ( http://arxiv.org/abs/2407.11438v2 ) ライセンス: Link先を確認 | Niloofar Mireshghallah, Maria Antoniak, Yash More, Yejin Choi, Golnoosh Farnadi, | (参考訳) ヒューマン・チャットボットのインタラクションにおける個人の開示を測定することで、ユーザのAIリテラシーをよりよく理解し、大規模言語モデル(LLM)のプライバシー調査を容易にすることができる。
我々は、実際のユーザによる商用GPTモデルへの個人情報開示を詳細に分析し、個人を識別し、機密性の高い情報の漏洩を調査した。
ユーザがチャットボットに開示するコンテキストを理解するために,自然発生会話の質的・定量的分析に基づいて,タスクやセンシティブなトピックの分類を開発する。
個人の識別可能な情報(PII)は,(1)翻訳やコード編集などの予期せぬ状況に現れ,(2)PII検出だけでは,詳細な性的嗜好や特定の薬物使用習慣など,人間とチャットボットの相互作用に共通するセンシティブなトピックを捉えるには不十分である。
これらの情報開示率は研究者やデータキュレーターにとって非常に重要であると我々は信じており、ユーザによるインタラクションの緩和を支援するための適切なヌード機構の設計を求めている。
Measuring personal disclosures made in human-chatbot interactions can provide a better understanding of users' AI literacy and facilitate privacy research for large language models (LLMs). We run an extensive, fine-grained analysis on the personal disclosures made by real users to commercial GPT models, investigating the leakage of personally identifiable and sensitive information. To understand the contexts in which users disclose to chatbots, we develop a taxonomy of tasks and sensitive topics, based on qualitative and quantitative analysis of naturally occurring conversations. We discuss these potential privacy harms and observe that: (1) personally identifiable information (PII) appears in unexpected contexts such as in translation or code editing (48% and 16% of the time, respectively) and (2) PII detection alone is insufficient to capture the sensitive topics that are common in human-chatbot interactions, such as detailed sexual preferences or specific drug use habits. We believe that these high disclosure rates are of significant importance for researchers and data curators, and we call for the design of appropriate nudging mechanisms to help users moderate their interactions. | 翻訳日:2024-07-23 11:30:02 公開日:2024-07-20 |
# テキストから3次元生成のための連続蒸留とスコア蒸留の接続
Connecting Consistency Distillation to Score Distillation for Text-to-3D Generation ( http://arxiv.org/abs/2407.13584v2 ) ライセンス: Link先を確認 | Zongrui Li, Minghui Hu, Qian Zheng, Xudong Jiang, | (参考訳) 近年のテキスト・ツー・3D生成の進歩は、生成品質を著しく向上させたが、詳細度の制限や忠実度の低さといった問題は引き続き持続しており、さらなる改善が必要である。
これらの問題の本質を理解するため, 整合蒸留の理論を結合させて, スコア蒸留法を徹底的に分析した。
解析によって得られた知見に基づいて,これらの問題を緩和するために3Dガウススプラッティング(3DGS)と統合されたGCS ( Guided Consistency Sampling) という最適化フレームワークを提案する。
さらに,生成した3D資産のレンダリングビューにおいて,持続的な過飽和が観察された。
実験の結果,3DGSの最適化時に不要な蓄積輝度が原因であることが判明した。
この問題を軽減するため、3DGSレンダリングにおいてBEG(Brightness-Equalized Generation)方式を導入する。
実験により,本手法は最先端手法よりも細部と忠実度の高い3Dアセットを生成することが示された。
コードはhttps://github.com/LMozart/ECCV2024-GCS-BEGで公開されている。
Although recent advancements in text-to-3D generation have significantly improved generation quality, issues like limited level of detail and low fidelity still persist, which requires further improvement. To understand the essence of those issues, we thoroughly analyze current score distillation methods by connecting theories of consistency distillation to score distillation. Based on the insights acquired through analysis, we propose an optimization framework, Guided Consistency Sampling (GCS), integrated with 3D Gaussian Splatting (3DGS) to alleviate those issues. Additionally, we have observed the persistent oversaturation in the rendered views of generated 3D assets. From experiments, we find that it is caused by unwanted accumulated brightness in 3DGS during optimization. To mitigate this issue, we introduce a Brightness-Equalized Generation (BEG) scheme in 3DGS rendering. Experimental results demonstrate that our approach generates 3D assets with more details and higher fidelity than state-of-the-art methods. The codes are released at https://github.com/LMozart/ECCV2024-GCS-BEG. | 翻訳日:2024-07-23 11:30:02 公開日:2024-07-20 |
# EarthMarker: 領域レベルとポイントレベルのリモートセンシング画像理解のためのビジュアルプロンプト学習
EarthMarker: Visual Prompt Learning for Region-level and Point-level Remote Sensing Imagery Comprehension ( http://arxiv.org/abs/2407.13596v2 ) ライセンス: Link先を確認 | Wei Zhang, Miaoxin Cai, Tong Zhang, Jun Li, Yin Zhuang, Xuerui Mao, | (参考訳) 自然画像領域における視覚的プロンプトの最近の進歩により、ユーザーはボックス、ポイント、フリーフォームなどの様々な視覚的マークを通して人工知能(AI)ツールと対話できるようになった。
しかし、自然とリモートセンシング(RS)画像の間に大きな違いがあるため、既存の視覚刺激モデルでは、RSシナリオの課題に直面している。
さらに、RS MLLMは主に画像レベルのRSデータの解釈に重点を置いており、言語命令とのインタラクションのみをサポートし、現実世界の柔軟性を制限している。
これらの制限に対処するため、画像レベル、領域レベル、点レベルRSの解釈に優れるEarthMarkerという最初の視覚的プロンプトモデルが提案されている。
具体的には、画像とテキストが大きな言語モデル(LLM)に入力され、特定の予測やタスクに適応する。
その後、マルチスケール画像特徴と視覚的プロンプト情報を均一に洗練するために、共有視覚符号化方式を導入する。
さらに,EarthMarkerに多彩な多粒性視覚知覚能力を与えるため,クロスドメイン位相学習戦略を開発し,自然知識とRS知識の両方を活用することで,解離パラメータを軽量に最適化する。
さらに、RSの視覚的プロンプトデータ不足に対処するため、マルチモーダルな微細な視覚的プロンプトを特徴とするRSVPというデータセットを構築した。
提案したEarthMarkerの競合性能の実証実験を行い、視覚的プロンプト学習フレームワークの下での多粒性RS画像解釈の大幅な進歩を示す。
Recent advances in visual prompting in the natural image area have allowed users to interact with artificial intelligence (AI) tools through various visual marks such as box, point, and free-form shapes. However, due to the significant difference between the natural and remote sensing (RS) images, existing visual prompting models face challenges in RS scenarios. Moreover, RS MLLMs mainly focus on interpreting image-level RS data and only support interaction with language instruction, restricting flexibility applications in the real world. To address those limitations, the first visual prompting model named EarthMarker is proposed, which excels in image-level, region-level, and point-level RS imagery interpretation. Specifically, the visual prompts alongside images and text instruction input into the large language model (LLM), adapt models toward specific predictions and tasks. Subsequently, a sharing visual encoding method is introduced to refine multi-scale image features and visual prompt information uniformly. Furthermore, to endow the EarthMarker with versatile multi-granularity visual perception abilities, the cross-domain phased learning strategy is developed, and the disjoint parameters are optimized in a lightweight manner by leveraging both the natural and RS domain-specific knowledge. In addition, to tackle the lack of RS visual prompting data, a dataset named RSVP featuring multi-modal fine-grained visual prompting instruction is constructed. Extensive experiments are conducted to demonstrate the proposed EarthMarker's competitive performance, representing a significant advance in multi-granularity RS imagery interpretation under the visual prompting learning framework. | 翻訳日:2024-07-23 11:30:02 公開日:2024-07-20 |