このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240401となっている論文です。

PDF登録状況(公開日: 20240401)

TitleAuthorsAbstract論文公表日・翻訳日
# LEO衛星インターネットのプライバシ対応スペクトル価格と電力制御最適化

Privacy-Aware Spectrum Pricing and Power Control Optimization for LEO Satellite Internet-of-Things ( http://arxiv.org/abs/2407.00814v1 )

ライセンス: Link先を確認
Bowen Shen, Kwok-Yan Lam, Feng Li, (参考訳) 低地球軌道(LEO)衛星システムは、遠隔地や基地局を費用効率よく展開できない孤立した地域において、広範囲のグローバルな通信網を提供できるため、次世代通信網において重要な役割を担っている。 LEO衛星システムの普及に伴い、特にLEO Internet-of-Things(IoT)シナリオでは、大規模なサービス要求と地上端末からの高帯域要求により、そのスペクトルリソース管理要件が複雑化している。 例えば、地球上のユーザーにスペクトルをリースし、アップリンク送信電力を制御する場合、衛星は通常、位置、予算、QoS(Quality of Service)要求などの機密情報である機械学習目的のユーザーデータを収集する。 データのプライバシを保持しながらLEO IoTでのモデルトレーニングを容易にするために、ブロックチェーン駆動のフェデレーションラーニング(FL)は、完全に分散化されたアーキテクチャを活用して広く使用されている。 本稿では,ブロックチェーン技術とFLを組み合わせたLEO IoTのためのハイブリッドスペクトル価格と電力制御フレームワークを提案する。 まず、LEO衛星システムのための局所的な深層強化学習アルゴリズムを設計し、収益最大化価格と電力制御方式を学習する。 そして、エージェントが協力してFLシステムを形成する。 また、FLのグローバルモデル集約フェーズで使用される評判に基づくブロックチェーンを提案する。 評価機構に基づいて、各グローバルトレーニングラウンド毎にノードを選択してモデルアグリゲーションとブロック生成を行い、ネットワークの分散化をさらに促進し、信頼を保証する。 提案手法の性能評価のためにシミュレーション試験を行った。 本結果から,LEO衛星システムの最大収益化手法は,各エージェントのプライバシを保ちながら,効率よく得られることを示した。

Low earth orbit (LEO) satellite systems play an important role in next generation communication networks due to their ability to provide extensive global coverage with guaranteed communications in remote areas and isolated areas where base stations cannot be cost-efficiently deployed. With the pervasive adoption of LEO satellite systems, especially in the LEO Internet-of-Things (IoT) scenarios, their spectrum resource management requirements have become more complex as a result of massive service requests and high bandwidth demand from terrestrial terminals. For instance, when leasing the spectrum to terrestrial users and controlling the uplink transmit power, satellites collect user data for machine learning purposes, which usually are sensitive information such as location, budget and quality of service (QoS) requirement. To facilitate model training in LEO IoT while preserving the privacy of data, blockchain-driven federated learning (FL) is widely used by leveraging on a fully decentralized architecture. In this paper, we propose a hybrid spectrum pricing and power control framework for LEO IoT by combining blockchain technology and FL. We first design a local deep reinforcement learning algorithm for LEO satellite systems to learn a revenue-maximizing pricing and power control scheme. Then the agents collaborate to form a FL system. We also propose a reputation-based blockchain which is used in the global model aggregation phase of FL. Based on the reputation mechanism, a node is selected for each global training round to perform model aggregation and block generation, which can further enhance the decentralization of the network and guarantee the trust. Simulation tests are conducted to evaluate the performances of the proposed scheme. Our results show the efficiency of finding the maximum revenue scheme for LEO satellite systems while preserving the privacy of each agent.
翻訳日:2024-07-22 22:38:24 公開日:2024-04-01
# MIT App Inventor上の生成AIエージェントのための高速モバイルアプリ開発

Rapid Mobile App Development for Generative AI Agents on MIT App Inventor ( http://arxiv.org/abs/2405.01561v1 )

ライセンス: Link先を確認
Jaida Gao, Calab Su, Etai Miller, Kevin Lu, Yu Meng, (参考訳) 人工知能(AI)の進化は、教育、持続可能性、安全といった様々な分野にまたがる応用を見つけ、社会を形作る重要な力である。 モバイルアプリケーションでAIを活用することで、そのトランスフォーメーションポテンシャルを触媒として、公開が容易になる。 本稿では,MIT App Inventorが提供する開発プラットフォームを用いたAIエージェントアプリケーションの迅速な開発手法を提案する。 その有効性を示すために、持続可能なコミュニティを育成するためのSynchroNet、プロクラシネーションに取り組むためのProductiviTeams、コミュニティの安全性を高めるためのiHELPの3つの異なるモバイルアプリケーションの開発過程を共有します。 3つのアプリケーションはいずれも、OpenAI APIを活用して、さまざまな生成AI機能をシームレスに統合する。 さらに、さまざまなツールやAI機能を統合する上での課題の克服から得られた洞察も提供します。

The evolution of Artificial Intelligence (AI) stands as a pivotal force shaping our society, finding applications across diverse domains such as education, sustainability, and safety. Leveraging AI within mobile applications makes it easily accessible to the public, catalyzing its transformative potential. In this paper, we present a methodology for the rapid development of AI agent applications using the development platform provided by MIT App Inventor. To demonstrate its efficacy, we share the development journey of three distinct mobile applications: SynchroNet for fostering sustainable communities; ProductiviTeams for addressing procrastination; and iHELP for enhancing community safety. All three applications seamlessly integrate a spectrum of generative AI features, leveraging OpenAI APIs. Furthermore, we offer insights gleaned from overcoming challenges in integrating diverse tools and AI functionalities, aiming to inspire young developers to join our efforts in building practical AI agent applications.
翻訳日:2024-07-01 11:09:59 公開日:2024-04-01
# 海産漁業におけるYOLOv5 vs. YOLOv8: クラス検出のバランシングとインスタンスカウント

YOLOv5 vs. YOLOv8 in Marine Fisheries: Balancing Class Detection and Instance Count ( http://arxiv.org/abs/2405.02312v1 )

ライセンス: Link先を確認
Mahmudul Islam Masum, Arif Sarwat, Hugo Riggs, Alicia Boymelgreen, Preyojon Dey, (参考訳) 本稿では, YOLOv5 と YOLOv8 を用いて, 動脈, 嚢胞, 排便の3つの異なるクラスについて, 対象物検出法の比較検討を行った。 本研究は, これらのモデルの性能を, 精度, 精度, リコールなどの観点から分析するものである。 しかし、排他物を検出するということになると、YOLOv5は顕著な課題と限界に直面した。 これは、YOLOv8が検出タスクにおいてより汎用性と適応性を提供するのに対して、YOLOv5は困難な状況に苦しむ可能性があり、パフォーマンスを高めるためにさらなる微調整や専門的なトレーニングが必要であることを示唆している。 これらの結果から, 海洋環境問題における YOLOv5 と YOLOv8 の適合性に関する知見が得られた。

This paper presents a comparative study of object detection using YOLOv5 and YOLOv8 for three distinct classes: artemia, cyst, and excrement. In this comparative study, we analyze the performance of these models in terms of accuracy, precision, recall, etc. where YOLOv5 often performed better in detecting Artemia and cysts with excellent precision and accuracy. However, when it came to detecting excrement, YOLOv5 faced notable challenges and limitations. This suggests that YOLOv8 offers greater versatility and adaptability in detection tasks while YOLOv5 may struggle in difficult situations and may need further fine-tuning or specialized training to enhance its performance. The results show insights into the suitability of YOLOv5 and YOLOv8 for detecting objects in challenging marine environments, with implications for applications such as ecological research.
翻訳日:2024-07-01 10:40:42 公開日:2024-04-01
# BloodCell-Net: 人体の全顕微鏡的血液細胞像の分類のための軽量畳み込みニューラルネットワーク

BloodCell-Net: A lightweight convolutional neural network for the classification of all microscopic blood cell images of the human body ( http://arxiv.org/abs/2405.14875v1 )

ライセンス: Link先を確認
Sohag Kumar Mondal, Md. Simul Hasan Talukder, Mohammad Aljaidi, Rejwan Bin Sulaiman, Md Mohiuddin Sarker Tushar, Amjad A Alsuwaylimi, (参考訳) 血液の分類と測定は、貧血、白血病、血小板減少症などの様々な血液関連疾患の診断に不可欠である。 手動による血液細胞分類と数え上げのプロセスは、時間がかかり、エラーを起こしやすく、労働集約的である。 そこで本研究では,マイクロスミア画像から血液細胞分類と計数を行うためのDLベースの自動システムを提案する。 赤血球,赤血球,好中球,好中球,好酸球,好酸球,リンパ球,単球,未成熟顆粒球,血小板の計9種類の血液細胞を同定した。 画像のリサイズ、再スケーリング、コントラスト強化、拡張など、いくつかの前処理ステップを利用する。 細胞を顕微鏡画像全体から分離するために,U-Netモデルを用いた。 このセグメンテーション技術は、複雑でノイズの多い背景要素を取り除き、関心領域(ROI)を抽出するのに役立つ。 精度、精度、感度などの画素レベルの指標と、IOU(Intersection over Union)やDice係数のようなオブジェクトレベルの評価指標の両方が、U-Netモデルの性能を包括的に評価すると考えられる。 セグメンテーションモデルは98.23%の精度、98.40%の精度、98.25%の感度、95.97%のインターセクション・オーバー・ユニオン(IOU)、97.92%のディス係数を含む優れたパフォーマンス指標を達成した。 その後、分割された画像に流域アルゴリズムを適用して、重複した血液細胞を分離し、個々の細胞を抽出する。 我々は、カスタム軽量畳み込みニューラルネットワーク(LWCNN)を組み込んだBloodCell-Netアプローチを提案し、個々の血液細胞を9つのタイプに分類した。 分類器の性能の総合評価は、精度、精度、リコール、F1スコアなどの指標を用いて行われる。 分類器の平均精度は97.10%、精度は97.19%、リコールは97.01%、F1スコアは97.10%だった。

Blood cell classification and counting are vital for the diagnosis of various blood-related diseases, such as anemia, leukemia, and thrombocytopenia. The manual process of blood cell classification and counting is time-consuming, prone to errors, and labor-intensive. Therefore, we have proposed a DL based automated system for blood cell classification and counting from microscopic blood smear images. We classify total of nine types of blood cells, including Erythrocyte, Erythroblast, Neutrophil, Basophil, Eosinophil, Lymphocyte, Monocyte, Immature Granulocytes, and Platelet. Several preprocessing steps like image resizing, rescaling, contrast enhancement and augmentation are utilized. To segment the blood cells from the entire microscopic images, we employed the U-Net model. This segmentation technique aids in extracting the region of interest (ROI) by removing complex and noisy background elements. Both pixel-level metrics such as accuracy, precision, and sensitivity, and object-level evaluation metrics like Intersection over Union (IOU) and Dice coefficient are considered to comprehensively evaluate the performance of the U-Net model. The segmentation model achieved impressive performance metrics, including 98.23% accuracy, 98.40% precision, 98.25% sensitivity, 95.97% Intersection over Union (IOU), and 97.92% Dice coefficient. Subsequently, a watershed algorithm is applied to the segmented images to separate overlapped blood cells and extract individual cells. We have proposed a BloodCell-Net approach incorporated with custom light weight convolutional neural network (LWCNN) for classifying individual blood cells into nine types. Comprehensive evaluation of the classifier's performance is conducted using metrics including accuracy, precision, recall, and F1 score. The classifier achieved an average accuracy of 97.10%, precision of 97.19%, recall of 97.01%, and F1 score of 97.10%.
翻訳日:2024-07-01 08:39:42 公開日:2024-04-01
# 2D kV画像からの患者特異的3次元CT画像の合成による不要画像量のない正確な患者の配位

Accurate Patient Alignment without Unnecessary Imaging Dose via Synthesizing Patient-specific 3D CT Images from 2D kV Images ( http://arxiv.org/abs/2405.19338v1 )

ライセンス: Link先を確認
Yuzhen Ding, Jason M. Holmes, Hongying Feng, Baoxin Li, Lisa A. McGee, Jean-Claude M. Rwigema, Sujay A. Vora, Daniel J. Ma, Robert L. Foote, Samir H. Patel, Wei Liu, (参考訳) 放射線治療では,3D-on-board imaging(OBI)が使用できない場合,2次元直射kV画像が患者のアライメントに使用される。 しかし、腫瘍の視認性は、患者の解剖学が2次元平面に投影されることによって制約され、重大な設定ミスを引き起こす可能性がある。 コーンビームCT(CBCT)などの3D-OBI治療室では、CBCTの視野(FOV)は不要な高画像量で制限されるため、小児患者には好ましくない。 このジレンマの解決策は、治療位置で得られたkV画像から3DCTを再構成することである。 本稿では,階層型ViTブロックで構築したデュアルモデルフレームワークを提案する。 概念実証法とは違って,kV画像を単独入力とみなし,正確な3DCTをリアルタイムに(ミリ秒で)合成することができる。 画像品質 (MAE: <45HU), 線量測定精度 (Gamma pass rate (2%/2mm/10%)>97%) および患者位置の不確実性 (シフトエラー: <0.4mm) を用いた頭頸部癌10例に対するアプローチの有効性を実証した。 提案フレームワークは, リアルタイムの患者位置を忠実に反映した3次元CTを高精度に生成し, 患者の設定精度を大幅に向上し, 画像量を最小限に抑え, 治療精度を維持できる。

In radiotherapy, 2D orthogonally projected kV images are used for patient alignment when 3D-on-board imaging(OBI) unavailable. But tumor visibility is constrained due to the projection of patient's anatomy onto a 2D plane, potentially leading to substantial setup errors. In treatment room with 3D-OBI such as cone beam CT(CBCT), the field of view(FOV) of CBCT is limited with unnecessarily high imaging dose, thus unfavorable for pediatric patients. A solution to this dilemma is to reconstruct 3D CT from kV images obtained at the treatment position. Here, we propose a dual-models framework built with hierarchical ViT blocks. Unlike a proof-of-concept approach, our framework considers kV images as the solo input and can synthesize accurate, full-size 3D CT in real time(within milliseconds). We demonstrate the feasibility of the proposed approach on 10 patients with head and neck (H&N) cancer using image quality(MAE: <45HU), dosimetrical accuracy(Gamma passing rate (2%/2mm/10%)>97%) and patient position uncertainty(shift error: <0.4mm). The proposed framework can generate accurate 3D CT faithfully mirroring real-time patient position, thus significantly improving patient setup accuracy, keeping imaging dose minimum, and maintaining treatment veracity.
翻訳日:2024-07-01 08:19:53 公開日:2024-04-01
# 政策透明性向上のためのデモによる閉ループ教育

Closed-loop Teaching via Demonstrations to Improve Policy Transparency ( http://arxiv.org/abs/2406.11850v1 )

ライセンス: Link先を確認
Michael S. Lee, Reid Simmons, Henny Admoni, (参考訳) デモは、AIポリシーの透明性を高める強力な方法です。 情報的なデモンストレーションは、機械教育のパラダイムを通じて先駆者を選ぶことができるが、学生の学習は、選択されたカリキュラムから外される可能性がある。 そこで本稿では, 近近開発ゾーンやテスト効果といった教育文献の原則に着想を得た, 閉ループ教育フレームワークによるカリキュラムの強化について検討する。 本研究は,学習過程を通じて,そのループに近接するテストを利用して,人間の信念の新たな粒子フィルタモデルを維持することで,人間の現在の理解をリアルタイムにターゲットとした実演を行う。 ユーザスタディでは,提案したクローズドループ学習フレームワークにより,人間のテスト応答の後悔度をベースライン上で43%削減できることがわかった。

Demonstrations are a powerful way of increasing the transparency of AI policies. Though informative demonstrations may be selected a priori through the machine teaching paradigm, student learning may deviate from the preselected curriculum in situ. This paper thus explores augmenting a curriculum with a closed-loop teaching framework inspired by principles from the education literature, such as the zone of proximal development and the testing effect. We utilize tests accordingly to close to the loop and maintain a novel particle filter model of human beliefs throughout the learning process, allowing us to provide demonstrations that are targeted to the human's current understanding in real time. A user study finds that our proposed closed-loop teaching framework reduces the regret in human test responses by 43% over a baseline.
翻訳日:2024-07-01 07:40:34 公開日:2024-04-01
# ディバージェントモデルとディバージェントモデル:Twitterにおける抑うつ検出のクロスカルチャー評価

Diverse Perspectives, Divergent Models: Cross-Cultural Evaluation of Depression Detection on Twitter ( http://arxiv.org/abs/2406.15362v1 )

ライセンス: Link先を確認
Nuredin Ali, Charles Chuankai Zhang, Ned Mayo, Stevie Chancellor, (参考訳) ソーシャルメディアデータは、うつ病などの精神疾患の患者を検出するために使われてきた。 異文化間の表現のグローバルな重要性とモデルパフォーマンスに対する潜在的な影響にもかかわらず、公開データセットには、この側面に関連する重要なメタデータが欠如していることが多い。 本研究では、異文化間Twitterデータに基づくAIモデルを構築するためのベンチマークデータセットの一般化を評価する。 テストデータセットとして、7カ国の落ち込んだユーザのジオロケーションされたカスタムTwitterデータセットを収集します。 以上の結果から,抑うつ検出モデルが世界規模で一般化しないことが示唆された。 このモデルは、Global Northと比べてGlobal Southのユーザにとっては悪いパフォーマンスだ。 事前訓練された言語モデルは、ロジスティック回帰と比較して最高の一般化を達成するが、落ち込んだユーザーと非西洋人ユーザーには依然として大きな差がある。 我々はこの知見を定量化し、この問題を軽減するためにいくつかの実用的な提案を行う。

Social media data has been used for detecting users with mental disorders, such as depression. Despite the global significance of cross-cultural representation and its potential impact on model performance, publicly available datasets often lack crucial metadata related to this aspect. In this work, we evaluate the generalization of benchmark datasets to build AI models on cross-cultural Twitter data. We gather a custom geo-located Twitter dataset of depressed users from seven countries as a test dataset. Our results show that depression detection models do not generalize globally. The models perform worse on Global South users compared to Global North. Pre-trained language models achieve the best generalization compared to Logistic Regression, though still show significant gaps in performance on depressed and non-Western users. We quantify our findings and provide several actionable suggestions to mitigate this issue.
翻訳日:2024-07-01 07:21:03 公開日:2024-04-01
# ICD符号化のためのLLMマルチエージェントの探索

Exploring LLM Multi-Agents for ICD Coding ( http://arxiv.org/abs/2406.15363v1 )

ライセンス: Link先を確認
Rumeng Li, Xun Wang, Hong Yu, (参考訳) 大規模言語モデル(LLM)は、ドメイン固有の訓練を受けずに、臨床テキストからゼロや少数ショットの情報を抽出するなど、様々な領域に利益をもたらす、印象的で多様な能力を示してきた。 しかし、ICD符号化タスクでは、しばしば鍵の詳細を幻覚させ、ICD符号の高次元かつ歪んだ分布のために、高いリコールと低い精度で結果を生成する。 既存のLCMベースの手法では、患者、医師、プログラマといったコーディングに関わる人間のエージェント間の複雑な動的相互作用を考慮できないため、解釈可能性や信頼性が欠如している。 本稿では, 患者エージェント, 医師エージェント, コーダエージェント, レビューエージェント, 調整エージェントの5つのエージェントで, 現実のコーディングプロセスを模倣した新しいICD符号化手法を提案する。 各エージェントは特定の機能を持ち、LSMベースのモデルを使用して実行する。 提案手法をMIMIC-IIIデータセット上で評価した結果,提案手法は,CoTとの自己整合性を促進させるZero-shot Chain(CoT)と比較して,一般的な符号と稀な符号の両方の性能を大幅に向上させることがわかった。 アブレーション研究は、提案されたエージェントロールの有効性を確認する。 また,本手法は,コーディング精度,希少符号精度,説明可能性の観点から,事前学習や微調整を必要とする最先端のICD符号化手法と一致する。

Large Language Models (LLMs) have demonstrated impressive and diverse abilities that can benefit various domains, such as zero and few-shot information extraction from clinical text without domain-specific training. However, for the ICD coding task, they often hallucinate key details and produce high recall but low precision results due to the high-dimensional and skewed distribution of the ICD codes. Existing LLM-based methods fail to account for the complex and dynamic interactions among the human agents involved in coding, such as patients, physicians, and coders, and they lack interpretability and reliability. In this paper, we present a novel multi-agent method for ICD coding, which mimics the real-world coding process with five agents: a patient agent, a physician agent, a coder agent, a reviewer agent, and an adjuster agent. Each agent has a specific function and uses a LLM-based model to perform it. We evaluate our method on the MIMIC-III dataset and show that our proposed multi-agent coding framework substantially improves performance on both common and rare codes compared to Zero-shot Chain of Thought (CoT) prompting and self-consistency with CoT. The ablation study confirms the proposed agent roles' efficacy. Our method also matches the state-of-the-art ICD coding methods that require pre-training or fine-tuning, in terms of coding accuracy, rare code accuracy, and explainability.
翻訳日:2024-07-01 07:21:03 公開日:2024-04-01
# 混合塗料:多変量線形回帰を用いた複数座標空間における色値変換の解析

Mixing Paint: An analysis of color value transformations in multiple coordinate spaces using multivariate linear regression ( http://arxiv.org/abs/2406.15364v1 )

ライセンス: Link先を確認
Alexander Messick, (参考訳) 2つの異なる色の塗料を物理的に混合する際に、色座標空間で起こる数学的変換について検討する。 私は120対の16色をテストし、線形回帰を使ってRGB空間と他の色空間の両方で入力パラメータの最も正確な組み合わせを見つけました。 I found that the fit with the highest coefficient of determination was a geometryly symmetrized linear combination of the color in CIEXYZ space, this same mapping in RGB space will return a better mean squared error。

I explore the mathematical transformation that occurs in color coordinate space when physically mixing paints of two different colors. I tested 120 pairs of 16 paint colors and used a linear regression to find the most accurate combination of input parameters, both in RGB space and several other color spaces. I found that the fit with the strongest coefficient of determination was a geometrically symmetrized linear combination of the colors in CIEXYZ space, while this same mapping in RGB space returns a better mean squared error.
翻訳日:2024-07-01 07:21:03 公開日:2024-04-01
# ビスケットでリスクを負うこともあります」 : 学生のリスクテイキングのポートレート

"Sometimes You Just Gotta Risk it for the Biscuit": A Portrait of Student Risk-Taking ( http://arxiv.org/abs/2405.01477v1 )

ライセンス: Link先を確認
Juho Leinonen, Paul Denny, (参考訳) 学生を含む個人がどのようにリスクを含む意思決定を行うかを理解することは、行動研究の基本的な側面である。 生命の様々な側面におけるリスクの多様さにもかかわらず、実験的な限られた研究は、コンピュータ教育における学生のリスクテイク行動を探究してきた。 本研究は,学生のリスクテイク行動に関する先行研究を部分的に再現し,リスクテイク選択に影響を与える要因に光を当てることを目的としている。 本研究では,リスクの高い選択肢と安全な選択肢のどちらを選択するかを選択するために,コースプロジェクトの期限に間に合う仮説的なシナリオを提示した。 これらの選択に影響を及ぼす可能性のある要因として、決定のフレーミング(潜在的な利得や損失)、プログラミングの楽しさ、プログラミングの難しさの認識、そのコースにおける学業成績などについて検討した。 その結果,学生のリスクテイク行動に対する興味深い洞察が得られた。 第一に、以前の作業におけるソフトウェアエンジニアと同様、決定のフレーミングは学生の選択に大きな影響を与え、損失フレーミングはリスクの高い選択の可能性が高かった。 意外なことに、学生は以前の研究に比べてリスクテイクの傾向が高かった。 さらに,学生の授業前の学業成績やプログラミングの楽しさがリスクテイクの傾向に微妙な影響を与えていることも確認した。 特に,プログラミングの難易度と学生のリスクテイク行動との間に統計的に有意な相関はみられなかった。

Understanding how individuals, including students, make decisions involving risk is a fundamental aspect of behavioral research. Despite the ubiquity of risk in various aspects of life, limited empirical work has explored student risk-taking behavior in computing education. This study aims to partially replicate prior research on risk-taking behavior in software engineers while focusing on students, shedding light on the factors that affect their risk-taking choices. In our work, students were presented with a hypothetical scenario related to meeting a course project deadline, where they had to choose between a risky option and a safer alternative. We examined several factors that might influence these choices, including the framing of the decision (as a potential gain or loss), students' enjoyment of programming, perceived difficulty of programming, and their academic performance in the course. Our findings reveal intriguing insights into student risk-taking behavior. First, similar to software engineers in prior work, the framing of the decision significantly impacted the choices students made, with the loss framing leading to a higher likelihood for risky choices. Surprisingly, students displayed a greater inclination towards risk-taking compared to their professional counterparts in prior research. Furthermore, we observed that students' prior academic performance in the course and their enjoyment of programming had a subtle influence on their risk-taking tendencies, with better-performing students and those who enjoyed programming being marginally more prone to taking risks. Notably, we did not find statistically significant correlations between perceived difficulty of programming and risk-taking behavior among students.
翻訳日:2024-05-05 17:44:45 公開日:2024-04-01
# Batch $Q^*$ Learningにおけるデータ駆動型知識伝達

Data-Driven Knowledge Transfer in Batch $Q^*$ Learning ( http://arxiv.org/abs/2404.15209v1 )

ライセンス: Link先を確認
Elynn Chen, Xi Chen, Wenbo Jing, (参考訳) マーケティング、医療、教育におけるデータ駆動型意思決定においては、既存のベンチャーから大量のデータを活用して、高次元の特徴空間をナビゲートし、新しいベンチャーにおけるデータの不足に対処することが望ましい。 バッチ定常環境に集中し,マルコフ決定プロセス(MDP)のレンズによるタスクの相違を正式に定義することにより,動的意思決定における知識伝達について検討する。 本稿では,汎用関数近似を用いたTransferred Fitted $Q$-Iterationアルゴリズムのフレームワークを提案し,ターゲットデータとソースデータの両方を用いて最適な動作状態関数$Q^*$の直接推定を可能にする。 本研究は,情報伝達の有効性に関する統計性能とMDPタスクの不一致の関係を,情報源および対象サンプルサイズの影響を隠蔽し,タスク不一致が情報伝達に与える影響について検討する。 Q^*$関数の最終学習誤差は、理論的にも経験的にも単一のタスクレートから著しく改善されていることを示す。

In data-driven decision-making in marketing, healthcare, and education, it is desirable to utilize a large amount of data from existing ventures to navigate high-dimensional feature spaces and address data scarcity in new ventures. We explore knowledge transfer in dynamic decision-making by concentrating on batch stationary environments and formally defining task discrepancies through the lens of Markov decision processes (MDPs). We propose a framework of Transferred Fitted $Q$-Iteration algorithm with general function approximation, enabling the direct estimation of the optimal action-state function $Q^*$ using both target and source data. We establish the relationship between statistical performance and MDP task discrepancy under sieve approximation, shedding light on the impact of source and target sample sizes and task discrepancy on the effectiveness of knowledge transfer. We show that the final learning error of the $Q^*$ function is significantly improved from the single task rate both theoretically and empirically.
翻訳日:2024-04-28 11:06:36 公開日:2024-04-01
# 雑音脳記録からのロバスト筋活動再建のためのスパースベイジアン・コレントロピー学習

Sparse Bayesian Correntropy Learning for Robust Muscle Activity Reconstruction from Noisy Brain Recordings ( http://arxiv.org/abs/2404.15309v1 )

ライセンス: Link先を確認
Yuanhao Li, Badong Chen, Natsue Yoshimura, Yasuharu Koike, Okito Yamashita, (参考訳) スパースベイズ学習は、特に筋活動の再構築において、脳活動復号のための多くの効果的な枠組みを推進してきた。 しかし、既存のスパースベイズ学習は主に再構成タスクにおける誤り仮定としてガウス分布を用いており、これは現実世界の応用において必ずしも真であるとは限らない。 一方,脳波記録は非常にノイズが高く,非ガウス雑音が多く,疎ベイズ学習法の性能低下を招きかねない。 本研究の目的は,疎度と疎度を同時に実現するために,疎度ベイズ学習のための新しい頑健な実装を提案することである。 最大コレントロピー基準 (MCC) の強い堅牢性により, 疎ベイズ学習体制へのMCCの統合が提案された。 具体的には,MCCに固有の明示的な誤り仮定を導出し,その可能性関数に利用した。 一方,スパース分布に自動関係決定法(ARD)を用いた。 提案手法を十分に評価するために,2つの異なる脳機能を有する人工的データセットと実世界の筋活動再構築タスクを用いた。 実験の結果,提案した疎ベイズ相関学習フレームワークは雑音回帰タスクの頑健性を大幅に向上することがわかった。 実世界の筋活動再建作業において,高い相関係数と低いルート平均二乗誤差を実現することができる。 Sparse Bayesian correntropy learningは、脳-コンピュータインターフェースの開発を促進するニューラルネットワークの強力なツールを提供する。

Sparse Bayesian learning has promoted many effective frameworks for brain activity decoding, especially for the reconstruction of muscle activity. However, existing sparse Bayesian learning mainly employs Gaussian distribution as error assumption in the reconstruction task, which is not necessarily the truth in the real-world application. On the other hand, brain recording is known to be highly noisy and contains many non-Gaussian noises, which could lead to significant performance degradation for sparse Bayesian learning method. The goal of this paper is to propose a new robust implementation for sparse Bayesian learning, so that robustness and sparseness can be realized simultaneously. Motivated by the great robustness of maximum correntropy criterion (MCC), we proposed an integration of MCC into the sparse Bayesian learning regime. To be specific, we derived the explicit error assumption inherent in the MCC and then leveraged it for the likelihood function. Meanwhile, we used the automatic relevance determination (ARD) technique for the sparse prior distribution. To fully evaluate the proposed method, a synthetic dataset and a real-world muscle activity reconstruction task with two different brain modalities were employed. Experimental results showed that our proposed sparse Bayesian correntropy learning framework improves significantly the robustness in a noisy regression task. The proposed method can realize higher correlation coefficient and lower root mean squared error in the real-world muscle activity reconstruction tasks. Sparse Bayesian correntropy learning provides a powerful tool for neural decoding which can promote the development of brain-computer interfaces.
翻訳日:2024-04-28 10:56:51 公開日:2024-04-01
# マルチモーダル感情特徴とチャットGPTを活用した教室におけるエンコーゲーメントとウォームスの自動評価

Automated Assessment of Encouragement and Warmth in Classrooms Leveraging Multimodal Emotional Features and ChatGPT ( http://arxiv.org/abs/2404.15310v1 )

ライセンス: Link先を確認
Ruikun Hou, Tim Fütterer, Babette Bühler, Efe Bozkir, Peter Gerjets, Ulrich Trautwein, Enkelejda Kasneci, (参考訳) 授業観察プロトコルは、授業効果の評価を標準化し、教室の相互作用の理解を容易にする。 これらのプロトコルは教師に教育実践に関する具体的なフィードバックを提供するが、人間による手動のコーディングはリソース集約であり、しばしば信頼できない。 このことが、AI駆動でコスト効率のよい、このような総体的なコーディングを自動化する手法の開発への関心を喚起した。 本研究は,グローバル・インスツルメンテーション・インサイト(GTI)研究の観察プロトコルの重要な構成要素である,教室における励ましと暖かさの自動推定のためのマルチモーダルアプローチについて検討する。 この目的のために、感情分析を用いた顔と音声の感情認識を用いて、ビデオ、音声、および転写データから解釈可能な特徴を抽出した。 予測課題は分類法と回帰法の両方であった。 さらに,最近の大規模言語モデルの顕著なテキストアノテーション機能を考慮して,このスコアリングタスクにおいて,ChatGPTのゼロショット性能を評価した。 92の授業記録から367の16分間のビデオセグメントを含むGTIデータセットに対するアプローチを実証した。 GPT-4と最も訓練されたモデルでは、それぞれr = .341 と r = .441 の相関関係が得られた。 平均化によって両方のモデルからの推定値を組み合わせることで、アンサンブルの手法は r = .513 の相関を達成した。 モデル説明分析の結果,テキストの感情特徴がモデルの判断に主要な貢献者であることを示唆した。 さらに、GPT-4は、論理的、具体的推論を教師のガイドラインとして提供することができる。 本研究は,教師の授業指導を頻繁かつ価値あるフィードバックを通じて育成することを目的とした,高度でマルチモーダルな授業観察手法の活用に関する知見を提供する。

Classroom observation protocols standardize the assessment of teaching effectiveness and facilitate comprehension of classroom interactions. Whereas these protocols offer teachers specific feedback on their teaching practices, the manual coding by human raters is resource-intensive and often unreliable. This has sparked interest in developing AI-driven, cost-effective methods for automating such holistic coding. Our work explores a multimodal approach to automatically estimating encouragement and warmth in classrooms, a key component of the Global Teaching Insights (GTI) study's observation protocol. To this end, we employed facial and speech emotion recognition with sentiment analysis to extract interpretable features from video, audio, and transcript data. The prediction task involved both classification and regression methods. Additionally, in light of recent large language models' remarkable text annotation capabilities, we evaluated ChatGPT's zero-shot performance on this scoring task based on transcripts. We demonstrated our approach on the GTI dataset, comprising 367 16-minute video segments from 92 authentic lesson recordings. The inferences of GPT-4 and the best-trained model yielded correlations of r = .341 and r = .441 with human ratings, respectively. Combining estimates from both models through averaging, an ensemble approach achieved a correlation of r = .513, comparable to human inter-rater reliability. Our model explanation analysis indicated that text sentiment features were the primary contributors to the trained model's decisions. Moreover, GPT-4 could deliver logical and concrete reasoning as potential teacher guidelines. Our findings provide insights into using advanced, multimodal techniques for automated classroom observation, aiming to foster teacher training through frequent and valuable feedback.
翻訳日:2024-04-28 10:56:51 公開日:2024-04-01
# Forklift: 拡張性のあるニューラルリフター

Forklift: An Extensible Neural Lifter ( http://arxiv.org/abs/2404.16041v1 )

ライセンス: Link先を確認
Jordi Armengol-Estapé, Rodrigo C. O. Rocha, Jackson Woodruff, Pasquale Minervini, Michael F. P. O'Boyle, (参考訳) 異なるインストラクション・セット・アーキテクチャ(ISA)にまたがってレガシー・ソフトウェアを移行する要求がエスカレートし、アセンブリ・トゥ・アセンブリ・トランスレータの開発がそれぞれのアセンブリ・言語間でマッピングされるようになった。 しかし、これらのツールの開発には相当なエンジニアリングの努力が必要だ。 最先端のアプローチでは lifting というアーキテクチャに依存しない中間表現(例えば LLVM IR)にソースコードを変換し、既存のコンパイラを使ってIRをターゲットISAに再コンパイルする手法を使用している。 しかしながら、これらリフタが使用する手書きのルールは、コードを生成するために使用される特定のコンパイラや最適化レベルに敏感であり、新しいISAをサポートするためにかなりのエンジニアリング作業を必要とする。 トークンレベルのエンコーダ-デコーダ変換器を用いて,アセンブリをLLVM IRに変換する方法を学ぶ最初のニューラルリフトであるForkliftを提案する。 組立エンコーダを微調整し、IRデコーダを凍結することにより、新しいISAへのサポートを段階的に追加する方法を示し、全体的な精度と効率を向上させる。 並列なLLVM IR、x86、ARM、RISC-Vプログラムをコンパイラや最適化レベルにわたって収集し、Forkliftをトレーニングし、入出力ベースの精度ハーネスをセットアップします。 我々は、Forkliftを2つの挑戦的なベンチマークスイートで評価し、最先端の手書きリフタよりも2.5倍、GPT-4より4.4倍のx86プログラムを翻訳し、新しいISAからの翻訳を可能にした。

The escalating demand to migrate legacy software across different Instruction Set Architectures (ISAs) has driven the development of assembly-to-assembly translators to map between their respective assembly languages. However, the development of these tools requires substantial engineering effort. State-of-the-art approaches use lifting, a technique where source assembly code is translated to an architecture-independent intermediate representation (IR) (for example, the LLVM IR) and use a pre-existing compiler to recompile the IR to the target ISA. However, the hand-written rules these lifters employ are sensitive to the particular compiler and optimization level used to generate the code and require significant engineering effort to support each new ISA. We propose Forklift, the first neural lifter that learns how to translate assembly to LLVM IR using a token-level encoder-decoder Transformer. We show how to incrementally add support to new ISAs by fine tuning the assembly encoder and freezing the IR decoder, improving the overall accuracy and efficiency. We collect millions of parallel LLVM IR, x86, ARM, and RISC-V programs across compilers and optimization levels to train Forklift and set up an input/output-based accuracy harness. We evaluate Forklift on two challenging benchmark suites and translate 2.5x more x86 programs than a state-of-the-art hand-written lifter and 4.4x more x86 programs than GPT-4 as well as enabling translation from new ISAs.
翻訳日:2024-04-28 10:36:53 公開日:2024-04-01
# ストリーム・オブ・サーチ(SoS):言語による検索の学習

Stream of Search (SoS): Learning to Search in Language ( http://arxiv.org/abs/2404.03683v1 )

ライセンス: Link先を確認
Kanishk Gandhi, Denise Lee, Gabriel Grand, Muxin Liu, Winson Cheng, Archit Sharma, Noah D. Goodman, (参考訳) 言語モデルは、トレーニング中に実りの多い間違いを示すことはめったにない。 その後、彼らは次のトークンの向こうを見るのに苦労し、エラーの雪だるまに悩まされ、行動の結果を予測するのに苦労した。 本稿では,探索のストリームである平らな文字列(SoS)として,言語検索のプロセスを表現することによって,言語モデルがどのように探索を指導できるかを示す。 本稿では,複数のシンボル検索戦略を抽出する統一言語を提案する。 ここでは、入力数と算術演算を組み合わせ、対象数に到達させることを目標とする、単純なCountdownのゲームを用いて、我々のアプローチを実証する。 我々は、ヒューリスティックな解法によって生成される探索のストリームのデータセット上で、変換器に基づく言語モデルをスクラッチから事前訓練する。 SoS事前学習は最適な探索軌道のみを予測するために訓練されたモデルよりも25%精度が向上することがわかった。 さらに, このモデルを, アドバンテージ誘導政策調整(APA)と自己学習推論(STaR)の2つの政策改善手法で微調整する。 微調整されたSoSモデルは、これまで未解決だった問題の36%を解決している。 この結果から,言語モデルでは,探索による問題解決や,異なる探索戦略を柔軟に活用する自己改善,新たな探索手法の発見などが可能であることが示唆された。

Language models are rarely shown fruitful mistakes while training. They then struggle to look beyond the next token, suffering from a snowballing of errors and struggling to predict the consequence of their actions several steps ahead. In this paper, we show how language models can be taught to search by representing the process of search in language, as a flattened string -- a stream of search (SoS). We propose a unified language for search that captures an array of different symbolic search strategies. We demonstrate our approach using the simple yet difficult game of Countdown, where the goal is to combine input numbers with arithmetic operations to reach a target number. We pretrain a transformer-based language model from scratch on a dataset of streams of search generated by heuristic solvers. We find that SoS pretraining increases search accuracy by 25% over models trained to predict only the optimal search trajectory. We further finetune this model with two policy improvement methods: Advantage-Induced Policy Alignment (APA) and Self-Taught Reasoner (STaR). The finetuned SoS models solve 36% of previously unsolved problems, including problems that cannot be solved by any of the heuristic solvers. Our results indicate that language models can learn to solve problems via search, self-improve to flexibly use different search strategies, and potentially discover new ones.
翻訳日:2024-04-08 17:55:13 公開日:2024-04-01
# スーパーAIがどんなものか、Fermiのパラドックスを解説する

Cooperative Evolutionary Pressure and Diminishing Returns Might Explain the Fermi Paradox: On What Super-AIs Are Like ( http://arxiv.org/abs/2404.03685v1 )

ライセンス: Link先を確認
Daniel Vallstrom, (参考訳) 進化的アプローチでは、モラルの基盤は協力の問題への適応として説明できる。 広い意味での「進化」によって、進化の条件を満たす進化するAIは、生物学的実体と同じ協力的な進化の圧力を受けることになる。 ここでは、材料安全と富の増大としての協力の増加の適応性について論じ、人間、他の社会、AIについて論じる。 物質資源へのアクセスの増加による有益なリターンの最小化は、例えば銀河全体を植民地化する動機がない可能性も示唆している。 古い社会は、スーパーAIが実現可能で、より適している可能性が高いため、スーパーAIにエンゲージし、道を譲ることが可能である、とも主張されている。 クローシングは、道徳や目標が生活や社会に影響を与えるための効果的な方法、環境、文化、法律を強調し、食事の方法によって例示されるものである。 適応されたアルゴリズムは、例えば銀河を素早く植民地化するアルゴリズム、減少するリターンの下での協調と公正性の進化のモデル、およびシグナル発生をシミュレートするソフトウェアである。 また、各実体が一定の空間を占有するため、数学的理由から指数的植民地化や複製はできないことも注目されている。

With an evolutionary approach, the basis of morality can be explained as adaptations to problems of cooperation. With 'evolution' taken in a broad sense, evolving AIs that satisfy the conditions for evolution to apply will be subject to the same cooperative evolutionary pressure as biological entities. Here the adaptiveness of increased cooperation as material safety and wealth increase is discussed -- for humans, for other societies, and for AIs. Diminishing beneficial returns from increased access to material resources also suggests the possibility that, on the whole, there will be no incentive to for instance colonize entire galaxies, thus providing a possible explanation of the Fermi paradox, wondering where everybody is. It is further argued that old societies could engender, give way to, super-AIs, since it is likely that super-AIs are feasible, and fitter. Closing is an aside on effective ways for morals and goals to affect life and society, emphasizing environments, cultures, and laws, and exemplified by how to eat. Appended are an algorithm for colonizing for example a galaxy quickly, models of the evolution of cooperation and fairness under diminishing returns, and software for simulating signaling development. It is also noted that there can be no exponential colonization or reproduction, for mathematical reasons, as each entity takes up a certain amount of space.
翻訳日:2024-04-08 17:55:13 公開日:2024-04-01
# ソーシャルスペースの確保: サイバーいじめを根絶するためのディープラーニングのハーネス

Securing Social Spaces: Harnessing Deep Learning to Eradicate Cyberbullying ( http://arxiv.org/abs/2404.03686v1 )

ライセンス: Link先を確認
Rohan Biswas, Kasturi Ganguly, Arijit Das, Diganta Saha, (参考訳) 今日のデジタル世界では、サイバーいじめはソーシャルメディアを使う人々の精神的および身体的健康を害する深刻な問題である。 本稿は、サイバーいじめがいかに深刻か、そしてそれが被曝した個人にどのように影響するかを説明する。 また、オンライン空間の安全性を高めるために、より優れたサイバーいじめ検出方法を見つけることがいかに重要であるかを強調している。 さらに同社は、サイバーいじめを見つけるためのより正確なツールを作ることが、今後どのように役立つかについても語った。 本稿では,BERT と BiLSTM アーキテクチャを主体とした深層学習に基づく Ap-proach を提案する。 このアプローチは、大量の投稿を分析し、オンライン空間におけるサイバーいじめの潜在的な事例を予測するように設計されている。 以上の結果から,ヘイトスピーチ検出に焦点を当てたBERTの拡張であるHavtBERTモデルの優位性を示し,89.16%の精度を実現した。 この研究は「社会変革のためのコンピュータインテリジェンス(Computational Intelligence for Social Transformation)」への重要な貢献であり、より安全で包括的なデジタルランドスケープを推進している。

In today's digital world, cyberbullying is a serious problem that can harm the mental and physical health of people who use social media. This paper explains just how serious cyberbullying is and how it really affects indi-viduals exposed to it. It also stresses how important it is to find better ways to detect cyberbullying so that online spaces can be safer. Plus, it talks about how making more accurate tools to spot cyberbullying will be really helpful in the future. Our paper introduces a deep learning-based ap-proach, primarily employing BERT and BiLSTM architectures, to effective-ly address cyberbullying. This approach is designed to analyse large vol-umes of posts and predict potential instances of cyberbullying in online spaces. Our results demonstrate the superiority of the hateBERT model, an extension of BERT focused on hate speech detection, among the five mod-els, achieving an accuracy rate of 89.16%. This research is a significant con-tribution to "Computational Intelligence for Social Transformation," prom-ising a safer and more inclusive digital landscape.
翻訳日:2024-04-08 17:55:13 公開日:2024-04-01
# DRIVE: デュアルグラディエントに基づくラピッドイテレーティブプルーニング

DRIVE: Dual Gradient-Based Rapid Iterative Pruning ( http://arxiv.org/abs/2404.03687v1 )

ライセンス: Link先を確認
Dhananjay Saikumar, Blesson Varghese, (参考訳) 現代のディープニューラルネットワーク(DNN)は、数百万のパラメータで構成され、トレーニングと推論中にハイパフォーマンスコンピューティングを必要とする。 プルーニング(Pruning)は、DNNの空間と時間的複雑さを著しく低減する1つのソリューションである。 学習後推論の合理化に焦点をあてた従来の刈り込み手法は, 訓練前の刈り込みによって早期に疎水性を活用する試みが近年行われている。 イテレーティブ・マグニチュード・プルーニング(IMP)のようなプルーニング法は、元のモデルに匹敵する精度を維持しつつ、最大90%のパラメータ削減を実現している。 しかしこれは、冗長なパラメータを識別および排除するために、複数のトレイン・プルー・リセット・サイクルに依存するため、実践的な実行に繋がる。 これとは対照的に、SNIPやSynFlowといったトレーニング非依存のアーリープルーニング手法は高速プルーニングを提供するが、IMPが高頻度で達成した精度には劣る。 このギャップを埋めるために、初期エポックに対する密集したトレーニングを活用し、初期化に固有のランダム性に対処するDual Gradient-Based Rapid Iterative Pruning (DRIVE)を提案する。 その後、パラメータランキングにユニークな双対勾配に基づく計量を用いる。 CIFAR-10/100 と Tiny ImageNet 上の VGG と ResNet アーキテクチャや ImageNet 上の ResNet では,DRIVE が他のトレーニングに依存しない早期刈り出し手法よりも精度が高いことが実験的に実証されている。 特に DRIVE は IMP よりも 43$\times$ から 869$\times$ 速い。

Modern deep neural networks (DNNs) consist of millions of parameters, necessitating high-performance computing during training and inference. Pruning is one solution that significantly reduces the space and time complexities of DNNs. Traditional pruning methods that are applied post-training focus on streamlining inference, but there are recent efforts to leverage sparsity early on by pruning before training. Pruning methods, such as iterative magnitude-based pruning (IMP) achieve up to a 90% parameter reduction while retaining accuracy comparable to the original model. However, this leads to impractical runtime as it relies on multiple train-prune-reset cycles to identify and eliminate redundant parameters. In contrast, training agnostic early pruning methods, such as SNIP and SynFlow offer fast pruning but fall short of the accuracy achieved by IMP at high sparsities. To bridge this gap, we present Dual Gradient-Based Rapid Iterative Pruning (DRIVE), which leverages dense training for initial epochs to counteract the randomness inherent at the initialization. Subsequently, it employs a unique dual gradient-based metric for parameter ranking. It has been experimentally demonstrated for VGG and ResNet architectures on CIFAR-10/100 and Tiny ImageNet, and ResNet on ImageNet that DRIVE consistently has superior performance over other training-agnostic early pruning methods in accuracy. Notably, DRIVE is 43$\times$ to 869$\times$ faster than IMP for pruning.
翻訳日:2024-04-08 17:55:13 公開日:2024-04-01
# MetaVIM: 分散信号制御のための変分固有の動機付け強化学習

MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control ( http://arxiv.org/abs/2101.00746v5 )

ライセンス: Link先を確認
Liwen Zhu, Peixi Peng, Zongqing Lu, Xiangqian Wang, Yonghong Tian, (参考訳) 交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。 近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。 しかし、実際の世界での大規模な応用を制限するいくつかの課題がある。 新たな未知のシナリオに一般化可能なトレーニングシナリオから学習したポリシを実現するために,近隣情報を考慮した各交差点の分散ポリシを潜時的に学習するために,メタ変動固有モチベーション(MetaVIM)RL法を提案する。 具体的には、政策学習を一連の関連するタスクに対するメタラーニング問題として定式化し、各タスクは、隣人が状態の未観測部分と見なされる交差点での信号制御に対応する。 そして、学習された潜伏変数がタスクの特定の情報を表すために導入され、さらに学習ポリシーに組み込まれる。 さらに、政策学習を安定させるため、各エージェントの受信した報酬と観察遷移を、自身の履歴にのみ予測可能となるよう、新しい本質的な報酬を設計する。 CityFlowで行った大規模な実験により,提案手法は既存の手法よりも大幅に優れ,より優れた一般化性を示すことが示された。

Traffic signal control aims to coordinate traffic signals across intersections to improve the traffic efficiency of a district or a city. Deep reinforcement learning (RL) has been applied to traffic signal control recently and demonstrated promising performance where each traffic signal is regarded as an agent. However, there are still several challenges that may limit its large-scale application in the real world. To make the policy learned from a training scenario generalizable to new unseen scenarios, a novel Meta Variationally Intrinsic Motivated (MetaVIM) RL method is proposed to learn the decentralized policy for each intersection that considers neighbor information in a latent way. Specifically, we formulate the policy learning as a meta-learning problem over a set of related tasks, where each task corresponds to traffic signal control at an intersection whose neighbors are regarded as the unobserved part of the state. Then, a learned latent variable is introduced to represent the task's specific information and is further brought into the policy for learning. In addition, to make the policy learning stable, a novel intrinsic reward is designed to encourage each agent's received rewards and observation transition to be predictable only conditioned on its own history. Extensive experiments conducted on CityFlow demonstrate that the proposed method substantially outperforms existing approaches and shows superior generalizability.
翻訳日:2024-04-05 21:09:13 公開日:2024-04-01
# 信号カーネルの高次解法

A High Order Solver for Signature Kernels ( http://arxiv.org/abs/2404.02926v1 )

ライセンス: Link先を確認
Maud Lemercier, Terry Lyons, (参考訳) 署名カーネルは、多変量時系列を分析するための機械学習アルゴリズムの中核にある。 2つの有界変動パスの核(例えば時系列データの分数次線形補間)は、2つの独立時間変数における双曲偏微分方程式(PDE)のグールサット問題を解くことで計算される。 しかし、この手法は、署名カーネルを正確に回復するのに十分なスケールで解決する必要があるため、高振動の入力パスに対してかなり実用的ではないため、時間とメモリの複雑さが著しく低下する。 この問題を緩和するために、まず、より広い経路のクラスである「emph{smooth rough paths」のシグネチャカーネルが、結合方程式の系という形で PDE を満たすことを示す。 次に、この結果を用いて、シグネチャカーネルの数値近似のための新しいアルゴリズムを導入する。 有界変動経路(およびより一般には$p$-rough 経路)は、一回りの滑らかな粗な経路によって近似できるので、PDE は元のグールサット問題において、元の入力経路の最初の数個の反復積分から導かれる一回りの定数係数を持つ結合方程式の明示的な系によって、急速に変化する係数で置き換えることができる。 このアプローチでは、より多くの方程式を解く必要があるが、初期経路の複雑で微細な構造を振り返る必要はない。

Signature kernels are at the core of several machine learning algorithms for analysing multivariate time series. The kernel of two bounded variation paths (such as piecewise linear interpolations of time series data) is typically computed by solving a Goursat problem for a hyperbolic partial differential equation (PDE) in two independent time variables. However, this approach becomes considerably less practical for highly oscillatory input paths, as they have to be resolved at a fine enough scale to accurately recover their signature kernel, resulting in significant time and memory complexities. To mitigate this issue, we first show that the signature kernel of a broader class of paths, known as \emph{smooth rough paths}, also satisfies a PDE, albeit in the form of a system of coupled equations. We then use this result to introduce new algorithms for the numerical approximation of signature kernels. As bounded variation paths (and more generally geometric $p$-rough paths) can be approximated by piecewise smooth rough paths, one can replace the PDE with rapidly varying coefficients in the original Goursat problem by an explicit system of coupled equations with piecewise constant coefficients derived from the first few iterated integrals of the original input paths. While this approach requires solving more equations, they do not require looking back at the complex and fine structure of the initial paths, which significantly reduces the computational complexity associated with the analysis of highly oscillatory time series.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-01
# 政策最適化における潜在的に効率的な探索

Provably Efficient Exploration in Policy Optimization ( http://arxiv.org/abs/1912.05830v4 )

ライセンス: Link先を確認
Qi Cai, Zhuoran Yang, Chi Jin, Zhaoran Wang, (参考訳) 政策に基づく強化学習(RL)は、実際は極めて成功したが、理論的には、特に価値に基づくRLと比較して、明らかに理解されていない。 特に、探索を取り入れた証明可能な効率的なポリシー最適化アルゴリズムを設計する方法は、いまだ解明されていない。 このようなギャップを埋めるために,政策勾配方向の「最適バージョン」に従うOPPOアルゴリズムの最適変種を提案する。 本稿では, 線形関数近似, 未知遷移, および全情報フィードバックによる逆報酬を含むエピソードマルコフ決定過程の問題において, OPPO が $\tilde{O}(\sqrt{d^2 H^3 T} )$ regret を達成することを証明した。 ここで$d$は特徴次元、$H$はエピソード水平線、$T$はステップの総数である。 我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。

While policy-based reinforcement learning (RL) achieves tremendous successes in practice, it is significantly less understood in theory, especially compared with value-based RL. In particular, it remains elusive how to design a provably efficient policy optimization algorithm that incorporates exploration. To bridge such a gap, this paper proposes an Optimistic variant of the Proximal Policy Optimization algorithm (OPPO), which follows an ``optimistic version'' of the policy gradient direction. This paper proves that, in the problem of episodic Markov decision process with linear function approximation, unknown transition, and adversarial reward with full-information feedback, OPPO achieves $\tilde{O}(\sqrt{d^2 H^3 T} )$ regret. Here $d$ is the feature dimension, $H$ is the episode horizon, and $T$ is the total number of steps. To the best of our knowledge, OPPO is the first provably efficient policy optimization algorithm that explores.
翻訳日:2024-04-05 00:13:17 公開日:2024-04-01
# 時間差とQ学習は表現を学習できるか? 平均場理論

Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory ( http://arxiv.org/abs/2006.04761v2 )

ライセンス: Link先を確認
Yufeng Zhang, Qi Cai, Zhuoran Yang, Yongxin Chen, Zhaoran Wang, (参考訳) 時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。 彼らの経験的成功の核心は、学習された特徴表現であり、それは、リッチな観察、例えば画像やテキストを、意味構造をエンコードする潜在空間に埋め込む。 一方、このような特徴表現の進化は、時間差とQ-ラーニングの収束に不可欠である。 特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。 関数近似器がニューラルネットワークであるとき、関連する特徴表現はどのように進化しますか? 収束すると、最適値に収束するだろうか? 我々は、過パラメータ化された2層ニューラルネットワーク、時間差とQ-ラーニングを利用して、平均2乗予測されたベルマン誤差をサブ線形速度で最小化することを証明する。 さらに、関連する特徴表現は最適に収束し、関連する特徴表現が初期で安定化する神経タンジェント核状態において、Cai et al (2019) の以前の解析を一般化する。 解析の鍵は平均場パースペクティブ(英語版)であり、無限次元ワッサーシュタイン空間上の有限次元パラメータの進化をその極限に結びつける。 我々の分析は、政策勾配にさらに結びついているソフトQ-ラーニングに一般化する。

Temporal-difference and Q-learning play a key role in deep reinforcement learning, where they are empowered by expressive nonlinear function approximators such as neural networks. At the core of their empirical successes is the learned feature representation, which embeds rich observations, e.g., images and texts, into the latent space that encodes semantic structures. Meanwhile, the evolution of such a feature representation is crucial to the convergence of temporal-difference and Q-learning. In particular, temporal-difference learning converges when the function approximator is linear in a feature representation, which is fixed throughout learning, and possibly diverges otherwise. We aim to answer the following questions: When the function approximator is a neural network, how does the associated feature representation evolve? If it converges, does it converge to the optimal one? We prove that, utilizing an overparameterized two-layer neural network, temporal-difference and Q-learning globally minimize the mean-squared projected Bellman error at a sublinear rate. Moreover, the associated feature representation converges to the optimal one, generalizing the previous analysis of Cai et al. (2019) in the neural tangent kernel regime, where the associated feature representation stabilizes at the initial one. The key to our analysis is a mean-field perspective, which connects the evolution of a finite-dimensional parameter to its limiting counterpart over an infinite-dimensional Wasserstein space. Our analysis generalizes to soft Q-learning, which is further connected to policy gradient.
翻訳日:2024-04-05 00:13:17 公開日:2024-04-01
# 変分輸送:分布最適化のための収束粒子に基づくアルゴリズム

Variational Transport: A Convergent Particle-BasedAlgorithm for Distributional Optimization ( http://arxiv.org/abs/2012.11554v2 )

ライセンス: Link先を確認
Zhuoran Yang, Yufeng Zhang, Yongxin Chen, Zhaoran Wang, (参考訳) 確率分布の族上で定義された関数を最小化する最適化問題を考える。 このような分布最適化問題は、モンテカルロサンプリング、変分推論、ポリシー最適化、生成的敵ネットワークを例に、機械学習や統計学において広く発生する。 そこで本研究では,一組の粒子を反復的に押すことによって,確率分布の多様体上のワッサーシュタイン勾配降下を近似的に行う,変分輸送と呼ばれる新しい粒子ベースアルゴリズムを提案する。 具体的には、2階のワッサーシュタイン距離に対する関数勾配方向の測地線に沿って移動することは、粒子の集合を押して正確に近似できる確率分布へのプッシュフォワードマッピングと等価であることを示す。 具体的には、変分輸送の各イテレーションにおいて、まず、粒子を用いて目的関数に関連する変分問題を解き、その解はワッサーシュタイン勾配方向を導出する。 次に,各粒子をそのような溶液で指定された方向に沿って押し付けて電流分布を更新する。 ワッサーシュタイン勾配の推定における統計的誤差と最適化アルゴリズムの進歩の両方を特徴付けることにより、目的関数がポリアック-\L{}ojasiewicz (PL) (ポリアック, 1963) の関数バージョンを満たすとき、変動輸送は、ある統計誤差まで線形に収束し、粒子の数が無限大になるにつれて、下位に崩壊する。

We consider the optimization problem of minimizing a functional defined over a family of probability distributions, where the objective functional is assumed to possess a variational form. Such a distributional optimization problem arises widely in machine learning and statistics, with Monte-Carlo sampling, variational inference, policy optimization, and generative adversarial network as examples. For this problem, we propose a novel particle-based algorithm, dubbed as variational transport, which approximately performs Wasserstein gradient descent over the manifold of probability distributions via iteratively pushing a set of particles. Specifically, we prove that moving along the geodesic in the direction of functional gradient with respect to the second-order Wasserstein distance is equivalent to applying a pushforward mapping to a probability distribution, which can be approximated accurately by pushing a set of particles. Specifically, in each iteration of variational transport, we first solve the variational problem associated with the objective functional using the particles, whose solution yields the Wasserstein gradient direction. Then we update the current distribution by pushing each particle along the direction specified by such a solution. By characterizing both the statistical error incurred in estimating the Wasserstein gradient and the progress of the optimization algorithm, we prove that when the objective function satisfies a functional version of the Polyak-\L{}ojasiewicz (PL) (Polyak, 1963) and smoothness conditions, variational transport converges linearly to the global minimum of the objective functional up to a certain statistical error, which decays to zero sublinearly as the number of particles goes to infinity.
翻訳日:2024-04-05 00:13:17 公開日:2024-04-01
# GraphFM:特徴相互作用モデリングのためのグラフファクトリゼーションマシン

GraphFM: Graph Factorization Machines for Feature Interaction Modeling ( http://arxiv.org/abs/2105.11866v4 )

ライセンス: Link先を確認
Shu Wu, Zekun Li, Yunyue Su, Zeyu Cui, Xiaoyu Zhang, Liang Wang, (参考訳) ファクトリゼーションマシン(FM)は、高次元スパースデータを扱う際に、ペアワイズ(第2次)特徴相互作用をモデル化するための一般的な手法である。 しかし、FMは組合せ展開に苦しむ高次特徴相互作用を捉えることができない。 一方、各特徴間の相互作用を考慮した場合、ノイズが発生し、予測精度が低下する可能性がある。 そこで本研究では,グラフ構造の特徴を自然に表現し,グラフファクトリゼーションマシン(GraphFM)を提案する。 特に,有用な特徴間相互作用を選択し,特徴間のエッジとして定式化する機構を設計する。 次に,グラフニューラルネットワーク(GNN)の機能集約戦略にFMの相互作用関数を統合するモデルを提案する。 いくつかの実世界のデータセットに対する実験結果から,提案手法の合理性と有効性が確認された。 コードとデータは \href{https://github.com/CRIPAC-DIG/GraphCTR}{https://github.com/CRIPAC-DIG/GraphCTR} で公開されている。

Factorization machine (FM) is a prevalent approach to modeling pairwise (second-order) feature interactions when dealing with high-dimensional sparse data. However, on the one hand, FM fails to capture higher-order feature interactions suffering from combinatorial expansion. On the other hand, taking into account interactions between every pair of features may introduce noise and degrade prediction accuracy. To solve the problems, we propose a novel approach, Graph Factorization Machine (GraphFM), by naturally representing features in the graph structure. In particular, we design a mechanism to select the beneficial feature interactions and formulate them as edges between features. Then the proposed model, which integrates the interaction function of FM into the feature aggregation strategy of Graph Neural Network (GNN), can model arbitrary-order feature interactions on the graph-structured features by stacking layers. Experimental results on several real-world datasets have demonstrated the rationality and effectiveness of our proposed approach. The code and data are available at \href{https://github.com/CRIPAC-DIG/GraphCTR}{https://github.com/CRIPAC-DIG/GraphCTR}.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-01
# 回帰問題に対する有効予測区間

Valid prediction intervals for regression problems ( http://arxiv.org/abs/2107.00363v4 )

ライセンス: Link先を確認
Nicolas Dewolf, Bernard De Baets, Willem Waegeman, (参考訳) 過去数十年間、ベイズ法、アンサンブル法、直接区間推定法、共形予測法など、回帰設定における予測間隔を推定するための様々な手法が提案されてきた。 生成した予測間隔は、過度に保守的であることなく、事前に定義されたカバレッジレベルを持つべきである。 本稿では,概念的,実験的な観点から,上記の4つの手法のクラスを概観する。 さまざまなドメインのベンチマークデータセットの結果は、あるデータセットから別のデータセットへのパフォーマンスの大きな変動を浮き彫りにしている。 これらの観察は、あるクラスのメソッドに固有の特定の仮定の違反に起因する可能性がある。 本稿では, キャリブレーション手順を使わずに, 粗悪な結果をもたらす手法の一般的なキャリブレーション手順として, コンフォメーション予測をどのように利用できるかを説明する。

Over the last few decades, various methods have been proposed for estimating prediction intervals in regression settings, including Bayesian methods, ensemble methods, direct interval estimation methods and conformal prediction methods. An important issue is the calibration of these methods: the generated prediction intervals should have a predefined coverage level, without being overly conservative. In this work, we review the above four classes of methods from a conceptual and experimental point of view. Results on benchmark data sets from various domains highlight large fluctuations in performance from one data set to another. These observations can be attributed to the violation of certain assumptions that are inherent to some classes of methods. We illustrate how conformal prediction can be used as a general calibration procedure for methods that deliver poor results without a calibration step.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-01
# 1つの固定壁と1つの移動壁におけるディラック方程式の解

Solutions of the Dirac equation in one fixed and one moving wall well ( http://arxiv.org/abs/2107.05361v4 )

ライセンス: Link先を確認
Qiuyu Shan, (参考訳) 量子系のハミルトニアンが時間的変化、特にその幅が変化する可能性、この種の状況下でのシュレーディンガー方程式とクラインゴードン方程式は、いくつかの研究によって解決されているが、ディラック方程式は解決されていないので、この記事では、この種の状況におけるディラック方程式の解について議論する。

It is very important which the Hamiltonian of the quantum system is time changing, especially the potential well that its width can change, the schrodinger equation and klein Gordon equation of this kind of circumstance are solved by some studies, but the Dirac equation haven't be solved, so this article discussed the solution of the Dirac equation in this kind of circumstance.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-01
# 3次元点雲上での弱教師付きセマンティックセグメンテーションのためのデンス・スーパービジョン・プロパゲーション

Dense Supervision Propagation for Weakly Supervised Semantic Segmentation on 3D Point Clouds ( http://arxiv.org/abs/2107.11267v3 )

ライセンス: Link先を確認
Jiacheng Wei, Guosheng Lin, Kim-Hui Yap, Fayao Liu, Tzu-Yi Hung, (参考訳) 3Dポイントクラウド上のセマンティックセグメンテーションは、3Dシーン理解にとって重要なタスクである。 3Dデータの高密度なラベリングは高価で時間を要するが、よりシンプルで安価なラベルから学習することでラベリングコストを軽減するために、弱教師付きセマンティックポイントクラウドセグメンテーション手法に対処する作業はごくわずかである。 一方、既存の弱教師付きメソッドと最先端の完全教師付きメソッドの間には、依然として大きなパフォーマンスギャップがある。 本稿では,少数のポイントをラベル付けした意味点クラウドセグメンテーションネットワークを訓練する。 我々は、ラベル付き点から入力サンプル内および他の点への監督信号を密に伝播するので、限られた監視情報をより有効に活用することができると論じる。 具体的には、類似した特徴を伝達するクロスサンプル機能再配置モジュールを提案し、そのため、共通クラスを持つ2つのサンプルにまたがる勾配を再帰する。 公開データセットS3DISとScanNetについて広範な実験を行った。 ラベルの10%と1%しか持たない弱教師付き手法では、完全教師付き手法と互換性のある結果が得られる。

Semantic segmentation on 3D point clouds is an important task for 3D scene understanding. While dense labeling on 3D data is expensive and time-consuming, only a few works address weakly supervised semantic point cloud segmentation methods to relieve the labeling cost by learning from simpler and cheaper labels. Meanwhile, there are still huge performance gaps between existing weakly supervised methods and state-of-the-art fully supervised methods. In this paper, we train a semantic point cloud segmentation network with only a small portion of points being labeled. We argue that we can better utilize the limited supervision information as we densely propagate the supervision signal from the labeled points to other points within and across the input samples. Specifically, we propose a cross-sample feature reallocating module to transfer similar features and therefore re-route the gradients across two samples with common classes and an intra-sample feature redistribution module to propagate supervision signals on unlabeled points across and within point cloud samples. We conduct extensive experiments on public datasets S3DIS and ScanNet. Our weakly supervised method with only 10% and 1% of labels can produce compatible results with the fully supervised counterpart.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-01
# スパンニングルート森林を基盤とした役割類似性指標

Role Similarity Metric Based on Spanning Rooted Forest ( http://arxiv.org/abs/2110.07872v2 )

ライセンス: Link先を確認
Qi Bao, Zhongzhi Zhang, Haibin Kan, (参考訳) ネットワーク解析における根本的な問題として、構造ノードの類似性はアカデミアで注目され、幅広い応用で採用されている。 これらの構造ノード類似度尺度のうち、自己同型コンフォメーションを含むいくつかの公理的性質を満たすため、役割類似性は際立っている。 既存の役割類似度メトリクスは、高時間と空間コストのため、大規模な現実世界ネットワーク上のトップkクエリを処理できない。 本稿では,新しい役割類似度指標,すなわちtextsf{ForestSim}を提案する。 本研究は,<textsf{ForestSim} が許容される役割類似度尺度であることを証明し,事前計算が完了すると,トップkクエリを$O(k)$で処理できる対応するトップk類似度探索アルゴリズムである \textsf{ForestSimSearch} を考案する。 さらに、高速近似アルゴリズムを用いて事前計算の時間と空間の複雑さを、それぞれ$O(\epsilon^{-2}m\log^5{n}\log{\frac{1}{\epsilon}})$と$O(m\log^3{n})$に減少させる。 最後に,26の現実世界ネットワークについて広範な実験を行った。 その結果, \textsf{ForestSim} は100万規模のネットワーク上で効率的に動作し, 最先端の手法に匹敵する性能を発揮することがわかった。

As a fundamental issue in network analysis, structural node similarity has received much attention in academia and is adopted in a wide range of applications. Among these proposed structural node similarity measures, role similarity stands out because of satisfying several axiomatic properties including automorphism conformation. Existing role similarity metrics cannot handle top-k queries on large real-world networks due to the high time and space cost. In this paper, we propose a new role similarity metric, namely \textsf{ForestSim}. We prove that \textsf{ForestSim} is an admissible role similarity metric and devise the corresponding top-k similarity search algorithm, namely \textsf{ForestSimSearch}, which is able to process a top-k query in $O(k)$ time once the precomputation is finished. Moreover, we speed up the precomputation by using a fast approximate algorithm to compute the diagonal entries of the forest matrix, which reduces the time and space complexity of the precomputation to $O(\epsilon^{-2}m\log^5{n}\log{\frac{1}{\epsilon}})$ and $O(m\log^3{n})$, respectively. Finally, we conduct extensive experiments on 26 real-world networks. The results show that \textsf{ForestSim} works efficiently on million-scale networks and achieves comparable performance to the state-of-art methods.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-01
# LSA:局所感覚集約によるアスペクト知覚コヒーレンシのモデル化

LSA: Modeling Aspect Sentiment Coherency via Local Sentiment Aggregation ( http://arxiv.org/abs/2110.08604v4 )

ライセンス: Link先を確認
Heng Yang, Ke Li, (参考訳) アスペクト・センチメント・コヒーレンシー(Aspect sentiment coherency)は、アスペクトベースの感情分類の分野において、興味深いが未解明のトピックである。 この概念は、隣接する側面がしばしば同様の感情を共有する共通のパターンを反映している。 その流行にもかかわらず、現在の研究は、敵防衛におけるその影響を含め、側面の感情コヒーレンシーをモデル化する可能性を完全には認識していない。 アスペクトの感情コヒーレンシーをモデル化するために,差分重み付けされた感情アグリゲーションウィンドウを構築することに基づく,新たな局所的な感情アグリゲーション(LSA)パラダイムを提案する。 実験の結果, アスペクトコヒーレンシー予測とアスペクト感性分類の観点から, LSAの有効性を確認した。 例えば、既存のモデルを上回り、5つの公開データセットで最先端の感情分類のパフォーマンスを達成する。 さらに,感情コヒーレンシ・モデリングにより,ABSC敵防衛におけるLSAの有望な能力を示す。 この概念のさらなる探索と適用を促進するため、コードへのアクセスを公開しました。 これにより、将来の研究において、感情コヒーレンシーモデリングを探求する貴重なツールが提供される。

Aspect sentiment coherency is an intriguing yet underexplored topic in the field of aspect-based sentiment classification. This concept reflects the common pattern where adjacent aspects often share similar sentiments. Despite its prevalence, current studies have not fully recognized the potential of modeling aspect sentiment coherency, including its implications in adversarial defense. To model aspect sentiment coherency, we propose a novel local sentiment aggregation (LSA) paradigm based on constructing a differential-weighted sentiment aggregation window. We have rigorously evaluated our model through experiments, and the results affirm the proficiency of LSA in terms of aspect coherency prediction and aspect sentiment classification. For instance, it outperforms existing models and achieves state-of-the-art sentiment classification performance across five public datasets. Furthermore, we demonstrate the promising ability of LSA in ABSC adversarial defense, thanks to its sentiment coherency modeling. To encourage further exploration and application of this concept, we have made our code publicly accessible. This will provide researchers with a valuable tool to delve into sentiment coherency modeling in future research.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-01
# CGCL: 手作業によるグラフデータ拡張のない協調的なグラフコントラスト学習

CGCL: Collaborative Graph Contrastive Learning without Handcrafted Graph Data Augmentations ( http://arxiv.org/abs/2111.03262v2 )

ライセンス: Link先を確認
Tianyu Zhang, Yuxiang Ren, Wenzheng Feng, Weitao Du, Xuecang Zhang, (参考訳) 教師なしグラフ表現学習は非自明なトピックである。 構造化データの教師なし表現学習における対照的な手法の成功は、グラフ上で同様の試みを誘発する。 既存のグラフコントラスト学習(GCL)は、複数の拡張ビューにまたがる不変性を学習することを目的としており、手作りのグラフ拡張に大きく依存している。 しかし、不適切なグラフデータの増大は、そのような不変性を阻害する可能性がある。 本稿では,不適切な拡張の危険性を示すとともに,新しい協調グラフコントラスト学習フレームワーク(CGCL)を提案する。 このフレームワークは、グラフを観察するために複数のグラフエンコーダを利用する。 異なるエンコーダから観察される特徴は対照的な学習における対照的な視点として機能し、不安定な摂動を回避し、不変性を保証する。 多様なグラフエンコーダ間の協調を保証するため,設計原理として非対称なアーキテクチャと補完的なエンコーダの概念を提案する。 この合理性を更に証明するために,2つの定量値を用いて,それぞれCGCLの組立を計測する。 大規模実験は、教師なしグラフレベルの表現学習におけるCGCLの利点と協調フレームワークの可能性を示す。 再現性のためのソースコードはhttps://github.com/zhangtia16/CGCLで公開されている。

Unsupervised graph representation learning is a non-trivial topic. The success of contrastive methods in the unsupervised representation learning on structured data inspires similar attempts on the graph. Existing graph contrastive learning (GCL) aims to learn the invariance across multiple augmentation views, which renders it heavily reliant on the handcrafted graph augmentations. However, inappropriate graph data augmentations can potentially jeopardize such invariance. In this paper, we show the potential hazards of inappropriate augmentations and then propose a novel Collaborative Graph Contrastive Learning framework (CGCL). This framework harnesses multiple graph encoders to observe the graph. Features observed from different encoders serve as the contrastive views in contrastive learning, which avoids inducing unstable perturbation and guarantees the invariance. To ensure the collaboration among diverse graph encoders, we propose the concepts of asymmetric architecture and complementary encoders as the design principle. To further prove the rationality, we utilize two quantitative metrics to measure the assembly of CGCL respectively. Extensive experiments demonstrate the advantages of CGCL in unsupervised graph-level representation learning and the potential of collaborative framework. The source code for reproducibility is available at https://github.com/zhangtia16/CGCL
翻訳日:2024-04-05 00:07:06 公開日:2024-04-01
# Wasserstein Flow and Replicator Dynamics: a Mean-Field Analysis of Representation Learning in Actor-Critic

Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic ( http://arxiv.org/abs/2112.13530v2 )

ライセンス: Link先を確認
Yufeng Zhang, Siyu Chen, Zhuoran Yang, Michael I. Jordan, Zhaoran Wang, (参考訳) ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。 しかしながら、既存のACアルゴリズムの理論的サポートのほとんどは、トレーニング中に特徴表現が固定される線形関数近似や線形化ニューラルネットワークの場合に焦点を当てている。 このような制限は、実践的な問題において重要なニューラルネットワークにおける表現学習のキーとなる側面を捉えることに失敗する。 本研究では,特徴量に基づくニューラル交流の進化と収束について,平均場の観点から考察する。 具体的には、アクターと批評家が過度にパラメータ化された2層ニューラルネットワークで表現され、2段階の学習率で更新されるACのバージョンを検討する。 批評家は、時間差学習(TD)によってより大きなステップサイズで更新され、アクターは、より小さなステップサイズで、近位ポリシー最適化(PPO)によって更新される。 連続時間および無限幅制限系では、時間スケールが適切に分離された場合、ニューラルACがサブリニアレートで世界的最適ポリシーを見つけることが証明される。 さらに,批判ネットワークによって誘導される特徴表現が,初期近傍で進化することが証明された。

Actor-critic (AC) algorithms, empowered by neural networks, have had significant empirical success in recent years. However, most of the existing theoretical support for AC algorithms focuses on the case of linear function approximations, or linearized neural networks, where the feature representation is fixed throughout training. Such a limitation fails to capture the key aspect of representation learning in neural AC, which is pivotal in practical problems. In this work, we take a mean-field perspective on the evolution and convergence of feature-based neural AC. Specifically, we consider a version of AC where the actor and critic are represented by overparameterized two-layer neural networks and are updated with two-timescale learning rates. The critic is updated by temporal-difference (TD) learning with a larger stepsize while the actor is updated via proximal policy optimization (PPO) with a smaller stepsize. In the continuous-time and infinite-width limiting regime, when the timescales are properly separated, we prove that neural AC finds the globally optimal policy at a sublinear rate. Additionally, we prove that the feature representation induced by the critic network is allowed to evolve within a neighborhood of the initial one.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-01
# クライアントの高速化によるコミュニケーション効率のよいフェデレーション学習

Communication-Efficient Federated Learning with Accelerated Client Gradient ( http://arxiv.org/abs/2201.03172v2 )

ライセンス: Link先を確認
Geeho Kim, Jinkyu Kim, Bohyung Han, (参考訳) フェデレーション学習は、クライアントデータセットの不均一な特徴のために、遅くて不安定な収束に悩まされることが多い。 このような傾向は、クライアントから収集した情報が大きなバリエーションを持つため、クライアント参加比率が低い場合に増大する。 この課題に対処するために,クライアント間の一貫性を改善し,サーバモデルの収束を容易にする,シンプルで効果的なフェデレート学習フレームワークを提案する。 これはサーバがルックアヘッド勾配でグローバルモデルをブロードキャストすることによって実現される。 この戦略により、提案手法は、クライアントメモリの追加や通信コストの増大を伴わずに、提案したグローバルな更新情報を参加者に効果的に伝達することができる。 また、各クライアントをオーバーショットなグローバルモデルに合わせることで局所的な更新を規則化し、バイアスを低減し、アルゴリズムの安定性を向上させる。 我々は,提案アルゴリズムの理論的収束率を示し,特にクライアント参加率の低い手法と比較して,精度と通信効率の点で顕著な性能向上を示す。 ソースコードはプロジェクトのページで公開されています。

Federated learning often suffers from slow and unstable convergence due to the heterogeneous characteristics of participating client datasets. Such a tendency is aggravated when the client participation ratio is low since the information collected from the clients has large variations. To address this challenge, we propose a simple but effective federated learning framework, which improves the consistency across clients and facilitates the convergence of the server model. This is achieved by making the server broadcast a global model with a lookahead gradient. This strategy enables the proposed approach to convey the projected global update information to participants effectively without additional client memory and extra communication costs. We also regularize local updates by aligning each client with the overshot global model to reduce bias and improve the stability of our algorithm. We provide the theoretical convergence rate of our algorithm and demonstrate remarkable performance gains in terms of accuracy and communication efficiency compared to the state-of-the-art methods, especially with low client participation rates. The source code is available at our project page.
翻訳日:2024-04-04 23:57:15 公開日:2024-04-01
# StyleFool: スタイル転送によるビデオ分類システム

StyleFool: Fooling Video Classification Systems via Style Transfer ( http://arxiv.org/abs/2203.16000v4 )

ライセンス: Link先を確認
Yuxin Cao, Xi Xiao, Ruoxi Sun, Derui Wang, Minhui Xue, Sheng Wen, (参考訳) ビデオ分類システムは、敵対的攻撃に対して脆弱であり、ビデオ検証において深刻なセキュリティ問題を引き起こす可能性がある。 現在のブラックボックス攻撃では、多数のクエリを成功させる必要があり、結果として攻撃の過程で高い計算オーバーヘッドが発生する。 一方、制限された摂動による攻撃は、妄想や敵の訓練のような防衛には効果がない。 本稿では,制限のない摂動に着目し,映像分類システムを騙すために,スタイル転送によるブラックボックスビデオ対逆攻撃であるStyleFoolを提案する。 StyleFoolはまずカラーテーマに近づき、最高のスタイルのイメージを選択する。 一方、分類器の出力分布に影響を与えるターゲット攻撃においては、分類された映像を判定境界に近づいたり、あるいは向こう側に移動させたりすることで、対象クラスの信頼度も考慮する。 次に、逆方向の摂動をさらに最適化するために勾配のない手法を用いる。 UCF-101とHMDB-51の2つの標準データセット上でStyleFoolを評価するための広範な実験を行った。 実験の結果、StyleFoolは、クエリの数と既存の防御に対する堅牢性の両方の観点から、最先端の敵攻撃よりも優れていることが示された。 さらに、標的外攻撃におけるスタイリングされたビデオの50%は、既にビデオ分類モデルを騙すことができるため、クエリを一切必要としない。 さらに,本研究では,制限のない摂動にも拘わらず,StyleFoolの敵対的サンプルが人間の目には認められないことを示すために,ユーザスタディによる不明瞭さを評価した。

Video classification systems are vulnerable to adversarial attacks, which can create severe security problems in video verification. Current black-box attacks need a large number of queries to succeed, resulting in high computational overhead in the process of attack. On the other hand, attacks with restricted perturbations are ineffective against defenses such as denoising or adversarial training. In this paper, we focus on unrestricted perturbations and propose StyleFool, a black-box video adversarial attack via style transfer to fool the video classification system. StyleFool first utilizes color theme proximity to select the best style image, which helps avoid unnatural details in the stylized videos. Meanwhile, the target class confidence is additionally considered in targeted attacks to influence the output distribution of the classifier by moving the stylized video closer to or even across the decision boundary. A gradient-free method is then employed to further optimize the adversarial perturbations. We carry out extensive experiments to evaluate StyleFool on two standard datasets, UCF-101 and HMDB-51. The experimental results demonstrate that StyleFool outperforms the state-of-the-art adversarial attacks in terms of both the number of queries and the robustness against existing defenses. Moreover, 50% of the stylized videos in untargeted attacks do not need any query since they can already fool the video classification model. Furthermore, we evaluate the indistinguishability through a user study to show that the adversarial samples of StyleFool look imperceptible to human eyes, despite unrestricted perturbations.
翻訳日:2024-04-04 23:57:15 公開日:2024-04-01
# 正直なPinFiシステムにおけるブロックリワードの境界

Bounds of Block Rewards in Honest PinFi Systems ( http://arxiv.org/abs/2404.02174v1 )

ライセンス: Link先を確認
Qi He, Yunwei Mao, Ju Li, (参考訳) PinFiは、散逸資産の分散型価格設定のための新しいプロトコルのクラスであり、その価値は時間とともに自然に減少する。 プロトコルの機能と市場効率の中心は、流動性プロバイダ(LP)の役割である。 本研究は, プロトコルの信頼性と持続可能性に関する重要な課題, すなわち, プロトコルへの参加よりも外部市場での販売を優先するLPの適合性, LPとして貢献するのではなく, PinFiシステム内での販売を指向する同様の傾向, プロトコル内でのLPの販売を嫌うシナリオについて考察する。 ゲーム理論のアプローチを用いて、PinFiのメカニズムとそのより広範な影響を探求する。 以上の結果から,PinFiは様々な共通条件下で,パーセンテージの整合性を前提として,LP,売り手,買い手間の動的均衡を育むことができることが明らかとなった。 このバランスは、LPのブロック報酬を慎重に調整することで維持され、プロトコルの長期的な安定性と実用性を保証する。

PinFi is a class of novel protocols for decentralized pricing of dissipative assets, whose value naturally declines over time. Central to the protocol's functionality and its market efficiency is the role of liquidity providers (LPs). This study addresses critical stability and sustainability challenges within the protocol, namely: the propensity of LPs to prefer selling in external markets over participation in the protocol; a similar inclination towards selling within the PinFi system rather than contributing as LPs; and a scenario where LPs are disinclined to sell within the protocol. Employing a game-theoretic approach, we explore PinFi's mechanisms and its broader ramifications. Our findings reveal that, under a variety of common conditions and with an assumption of participant integrity, PinFi is capable of fostering a dynamic equilibrium among LPs, sellers, and buyers. This balance is maintained through a carefully calibrated range of block rewards for LPs, ensuring the protocol's long-term stability and utility.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-01
# 消費者反応の社会的ダイナミクス:統計物理学とマーケティングのダイナミクスを統合した統一的枠組み

Social Dynamics of Consumer Response: A Unified Framework Integrating Statistical Physics and Marketing Dynamics ( http://arxiv.org/abs/2404.02175v1 )

ライセンス: Link先を確認
Javier Marin, (参考訳) 消費者が広告インプットにどう反応するかを補完することは、広告戦略を最適化し、キャンペーンの有効性を向上させることを目的としたマーケターにとって不可欠である。 本研究では,物理と社会心理学から派生した理論的枠組みを適用し,消費者行動の複雑な性質を考察する。 本稿では, 広告費と消費者反応の関係を, 対称性, スケーリング法則, 位相遷移といった概念を用いて捉える。 ミハイル・メンテン方程式やヒル方程式のようなよく知られたモデルに対して方程式を検証することにより、消費者応答ダイナミクスの複雑さを正確に表す上での有効性を証明できる。 この分析は、消費者行動に影響を与えるマーケティング効果、応答感度、行動感度などの重要なモデルパラメータの重要性を強調している。 この研究は、広告主やマーケターにとっての実践的な意味を探求するとともに、限界と今後の研究方向性について議論する。 本研究は,広告戦略の最適化と資源配分に影響を及ぼす広告に対する消費者の反応の理解と予測を行うための,徹底的な枠組みを提供する。

Comprehending how consumers react to advertising inputs is essential for marketers aiming to optimize advertising strategies and improve campaign effectiveness. This study examines the complex nature of consumer behaviour by applying theoretical frameworks derived from physics and social psychology. We present an innovative equation that captures the relation between spending on advertising and consumer response, using concepts such as symmetries, scaling laws, and phase transitions. By validating our equation against well-known models such as the Michaelis-Menten and Hill equations, we prove its effectiveness in accurately representing the complexity of consumer response dynamics. The analysis emphasizes the importance of key model parameters, such as marketing effectiveness, response sensitivity, and behavioural sensitivity, in influencing consumer behaviour. The work explores the practical implications for advertisers and marketers, as well as discussing the limitations and future research directions. In summary, this study provides a thorough framework for comprehending and forecasting consumer reactions to advertising, which has implications for optimizing advertising strategies and allocating resources.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-01
# 価値誘導拡散政策による部分可観測性を考慮した垂直航法

Versatile Navigation under Partial Observability via Value-guided Diffusion Policy ( http://arxiv.org/abs/2404.02176v1 )

ライセンス: Link先を確認
Gengyu Zhang, Hao Tang, Yan Yan, (参考訳) 部分観測可能性の下での航路計画は、現代ロボット工学と自律運転において重要な役割を担っている。 既存のルートプランニングアプローチは、従来の自己回帰法と拡散法という2つの主要なクラスに分類される。 前者は、その神秘的な性質のためにしばしば失敗するが、後者は、専門家の行動クローンとの強い結合により、完全に観察可能であるか、未知のシナリオに適応するのに苦労する。 これらの欠陥に対処するために,部分観測可能条件下での2次元経路計画と3次元経路計画に多元的拡散に基づくアプローチを提案する。 具体的には、価値誘導拡散政策はまず、様々な段階にわたって行動を予測する計画を生成し、計画に十分な注意を払っている。 次に、状態推定を伴う微分可能なプランナーを使用して、値関数を導出し、エージェントの探索と目標探索を専門家を探すことなく指示し、部分的な可観測性に明示的に対処する。 推測中は、ベストプラン選択戦略により政策がさらに強化され、計画成功率が大幅に向上する。 さらに,RGB-D入力から導かれる点雲を,セマンティックセグメンテーションによる2次元グリッドベースの鳥眼ビューマップに投影し,3次元環境に一般化する。 このシンプルで効果的な適応は、2Dトレーニングされたポリシーから3Dへのゼロショット転送を可能にし、3Dポリシーの厳格なトレーニングを切断し、我々の汎用性を証明します。 実験の結果,特に専門家による実演以上の状況において,2次元シナリオと3次元シナリオの両方において,最先端の自己回帰的,拡散的ベースラインを超越した優れた性能を示した。

Route planning for navigation under partial observability plays a crucial role in modern robotics and autonomous driving. Existing route planning approaches can be categorized into two main classes: traditional autoregressive and diffusion-based methods. The former often fails due to its myopic nature, while the latter either assumes full observability or struggles to adapt to unfamiliar scenarios, due to strong couplings with behavior cloning from experts. To address these deficiencies, we propose a versatile diffusion-based approach for both 2D and 3D route planning under partial observability. Specifically, our value-guided diffusion policy first generates plans to predict actions across various timesteps, providing ample foresight to the planning. It then employs a differentiable planner with state estimations to derive a value function, directing the agent's exploration and goal-seeking behaviors without seeking experts while explicitly addressing partial observability. During inference, our policy is further enhanced by a best-plan-selection strategy, substantially boosting the planning success rate. Moreover, we propose projecting point clouds, derived from RGB-D inputs, onto 2D grid-based bird-eye-view maps via semantic segmentation, generalizing to 3D environments. This simple yet effective adaption enables zero-shot transfer from 2D-trained policy to 3D, cutting across the laborious training for 3D policy, and thus certifying our versatility. Experimental results demonstrate our superior performance, particularly in navigating situations beyond expert demonstrations, surpassing state-of-the-art autoregressive and diffusion-based baselines for both 2D and 3D scenarios.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-01
# コンピュータビジョンのための量子強化機械学習の探索:ノイズのある中間量子デバイスへの応用と展望

Exploring Quantum-Enhanced Machine Learning for Computer Vision: Applications and Insights on Noisy Intermediate-Scale Quantum Devices ( http://arxiv.org/abs/2404.02177v1 )

ライセンス: Link先を確認
Purnachandra Mandadapu, (参考訳) 中規模の量子コンピュータが進むにつれて、物理系、化学、最適化、暗号といった様々な分野にまたがる量子アルゴリズムの応用が一般的になる。 しかし、これらの量子コンピュータ(NISQ)はノイズの影響を受けやすいため、広範囲の誤り訂正手順を使わずに量子優位性に乗じられるアプリケーションを探す。 それ以来、機械学習(ML)、特にディープラーニング(DL)は、リソース集約的なトレーニングとアルゴリズムの不透明さによる課題に直面している。 そこで本研究では,コンピュータビジョンタスクに着目し,量子コンピューティングとMLの交わりについて検討する。 具体的には、小規模量子デバイスにおけるデータ再ロード方式やGAN(Generative Adversarial Networks)モデルなどのハイブリッド量子古典アルゴリズムの有効性を評価する。 実践的な実装とテストを通じて、この研究は従来のアルゴリズムと比較して、これらのアルゴリズムの同等または優れた性能を明らかにし、MLタスクで量子アルゴリズムを活用する可能性を強調した。

As medium-scale quantum computers progress, the application of quantum algorithms across diverse fields like simulating physical systems, chemistry, optimization, and cryptography becomes more prevalent. However, these quantum computers, known as Noisy Intermediate Scale Quantum (NISQ), are susceptible to noise, prompting the search for applications that can capitalize on quantum advantage without extensive error correction procedures. Since, Machine Learning (ML), particularly Deep Learning (DL), faces challenges due to resource-intensive training and algorithmic opacity. Therefore, this study explores the intersection of quantum computing and ML, focusing on computer vision tasks. Specifically, it evaluates the effectiveness of hybrid quantum-classical algorithms, such as the data re-uploading scheme and the patch Generative Adversarial Networks (GAN) model, on small-scale quantum devices. Through practical implementation and testing, the study reveals comparable or superior performance of these algorithms compared to classical counterparts, highlighting the potential of leveraging quantum algorithms in ML tasks.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-01
# ReLUニューラルネットワーク関数の局所的および大域的位相的複雑性測定

Local and global topological complexity measures OF ReLU neural network functions ( http://arxiv.org/abs/2204.06062v2 )

ライセンス: Link先を確認
J. Elisenda Grigsby, Kathryn Lindsey, Marissa Masden, (参考訳) Grunert-Kuhnel-Rote による Morse 理論の一般化されたピースワイズ線形(PL) バージョンを適用し、完全連結フィードフォワード ReLU ニューラルネットワーク関数 F: R^n -> R に対する局所的および大域的位相的複雑性の概念を定義し、研究する。 また、局所的な複雑さが任意に高いことを示す構成を与える。

We apply a generalized piecewise-linear (PL) version of Morse theory due to Grunert-Kuhnel-Rote to define and study new local and global notions of topological complexity for fully-connected feedforward ReLU neural network functions, F: R^n -> R. Along the way, we show how to construct, for each such F, a canonical polytopal complex K(F) and a deformation retract of the domain onto K(F), yielding a convenient compact model for performing calculations. We also give a construction showing that local complexity can be arbitrarily high.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-01
# 部分観察からの強化学習:確率的サンプル効率を考慮した線形関数近似

Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency ( http://arxiv.org/abs/2204.09787v3 )

ライセンス: Link先を確認
Qi Cai, Zhuoran Yang, Zhaoran Wang, (参考訳) 有限観測および状態空間を持つ部分観測マルコフ決定過程(POMDP)の強化学習について検討した。 この目的のために、線形構造を持つPOMDPのクラスに対して、部分観測可能性と関数近似をブリッジする最初の試みを行う。 本稿では,O(1/\epsilon^2)$のエピソード内で,$\epsilon$-optimal Policyを達成できる強化学習アルゴリズム(Optimistic Exploration via Adversarial Integral Equation, OP-TENET)を提案する。 特に、サンプル複雑性は線形構造の内在次元において多項式的にスケールし、観測空間や状態空間のサイズとは独立である。 OP-TENETのサンプル効率は、一連の成分によって実現される。 i) 再帰的に値関数を表す有限メモリのベルマン演算子 2) 線形構造に合わせた滑らかな判別器を特徴とする逆積分方程式によるそのような作用素の同定と推定 3) 対角積分方程式の不確かさの定量化に基づく楽観主義による観測と状態空間の探索。

We study reinforcement learning for partially observed Markov decision processes (POMDPs) with infinite observation and state spaces, which remains less investigated theoretically. To this end, we make the first attempt at bridging partial observability and function approximation for a class of POMDPs with a linear structure. In detail, we propose a reinforcement learning algorithm (Optimistic Exploration via Adversarial Integral Equation or OP-TENET) that attains an $\epsilon$-optimal policy within $O(1/\epsilon^2)$ episodes. In particular, the sample complexity scales polynomially in the intrinsic dimension of the linear structure and is independent of the size of the observation and state spaces. The sample efficiency of OP-TENET is enabled by a sequence of ingredients: (i) a Bellman operator with finite memory, which represents the value function in a recursive manner, (ii) the identification and estimation of such an operator via an adversarial integral equation, which features a smoothed discriminator tailored to the linear structure, and (iii) the exploration of the observation and state spaces via optimism, which is based on quantifying the uncertainty in the adversarial integral equation.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-01
# シーングラフ生成のためのダイアログによる視覚不足の補足

Supplementing Missing Visions via Dialog for Scene Graph Generations ( http://arxiv.org/abs/2204.11143v2 )

ライセンス: Link先を確認
Zhenghao Zhao, Ye Zhu, Xiaoguang Zhu, Yuzhang Shang, Yan Yan, (参考訳) 現在のAIシステムの多くは、入力された視覚データが様々なコンピュータビジョンタスクにおける競合的なパフォーマンスを達成するのに十分である、という前提に依存している。 しかし、古典的なタスク設定は、様々な理由(例えば、制限された視野範囲や閉塞)により、完全な視覚データがアクセスできないという、困難な、しかし一般的な現実的な状況を考えることは滅多にない。 この目的のために、不完全な視覚入力データを用いたコンピュータビジョンタスク設定について検討する。 具体的には、様々なレベルの視覚的データ不足を入力として、SGG(Scene Graph Generation)タスクを利用する。 視覚的インプットの不足は直感的に性能低下につながるが,自然言語対話による視覚の不足を補うことで,タスクの目的を達成することを提案する。 我々は、既存のほとんどのモデルと共同で学習できる、モデルに依存しない補助対話型対話型対話(SI-Dial)フレームワークを設計する。 本稿では,視覚的入力を欠いたタスク設定の実現可能性と,複数のベースラインに対して有望な性能向上を達成し,広範囲な実験と分析を通じて補助情報として提案するダイアログモジュールの有効性を実証する。

Most current AI systems rely on the premise that the input visual data are sufficient to achieve competitive performance in various computer vision tasks. However, the classic task setup rarely considers the challenging, yet common practical situations where the complete visual data may be inaccessible due to various reasons (e.g., restricted view range and occlusions). To this end, we investigate a computer vision task setting with incomplete visual input data. Specifically, we exploit the Scene Graph Generation (SGG) task with various levels of visual data missingness as input. While insufficient visual input intuitively leads to performance drop, we propose to supplement the missing visions via the natural language dialog interactions to better accomplish the task objective. We design a model-agnostic Supplementary Interactive Dialog (SI-Dial) framework that can be jointly learned with most existing models, endowing the current AI systems with the ability of question-answer interactions in natural language. We demonstrate the feasibility of such a task setting with missing visual input and the effectiveness of our proposed dialog module as the supplementary information source through extensive experiments and analysis, by achieving promising performance improvement over multiple baselines.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-01
# 部分観測による離散事象システムにおける事象の認識と認識可能性の強化

Event Concealment and Concealability Enforcement in Discrete Event Systems Under Partial Observation ( http://arxiv.org/abs/2205.03170v2 )

ライセンス: Link先を確認
Wei Duan, Christoforos N. Hadjicostis, Zhiwu Li, (参考訳) 外部の好奇心をそそる観測者にシステムの挙動を知らせるべきでないプライバシー問題に着想を得て, 部分観察下では非決定論的有限オートマトンとしてモデル化された離散イベントシステムにおいて, 事象の隠蔽と隠蔽性を検証した。 ある系における秘密事象のサブセットが与えられた場合、すべての秘密事象の発生が好奇心の強い観測者(盗聴者)に隠されている場合、隠蔽性は維持される。 秘密事象が(少なくともいくつかの実行中は)、有限数の観測の後、その発生を確実性で間接的に決定できるならば、(推測不可能である)。 システムの隠蔽性が保持されない場合(すなわち1つ以上のシークレットイベントは無視できない)、システムインターフェースにeavesdropperを配置したディフェンダーがどのように隠蔽性を強制するかを分析する。 ディフェンダーは、システムの観測された各イベントを入力として、イベント削除、挿入、置換を使用して、注意深く修正されたイベントシーケンス(盗聴者によって表示される)を出力する。 ディフェンダーがCエンフォースブルであるとは、シークレットイベントの発生に続いて、システムによって生成されたその後の活動に関係なく、常に観測を操作し、イベントを永久に隠蔽する戦略を展開できるということである。 そこで本研究では,C-Enforceability(C-Enforceability,C-Enforceability,C-Enforceability,C-Enforceability,C-Enforceabili ty,C-Enforceability,C-Enforceability,C-Enforceability,C-Enforceability,C-Enforceability,C-Enforceabi lity,C-Enforceability,C-Enforceability)について述べる。 また,C-エンフォースビリティのための必要条件と必要条件の1つを得るための多項式複雑性構成を提案する。

Inspired by privacy problems where the behavior of a system should not be revealed to an external curious observer, we investigate event concealment and concealability enforcement in discrete event systems modeled as non-deterministic finite automata under partial observation. Given a subset of secret events in a given system, concealability holds if the occurrence of all secret events remains hidden to a curious observer (an eavesdropper). A secret event is said to be (at least under some executions) unconcealable (inferable) if its occurrence can be indirectly determined with certainty after a finite number of observations. When concealability of a system does not hold (i.e., one or more secret events are unconcealable), we analyze how a defender, placed at the interface of the system with the eavesdropper, can be used to enforce concealability. The defender takes as input each observed event of the system and outputs a carefully modified event sequence (seen by the eavesdropper) using event deletion, insertion, or replacement. The defender is said to be C-enforceable if, following the occurrence of the secret events and regardless of subsequent activity generated by the system, it can always deploy a strategy to manipulate observations and conceal the events perpetually. We discuss systematic procedures to detect the presence of unconcealable secret events and verify C-Enforceability using techniques from state estimation and event diagnosis. We also propose a polynomial complexity construction for obtaining one necessary and one sufficient condition for C-Enforceability.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-01
# 部分観測システムへの埋め込み:確率的サンプル効率による表現学習

Embed to Control Partially Observed Systems: Representation Learning with Provable Sample Efficiency ( http://arxiv.org/abs/2205.13476v2 )

ライセンス: Link先を確認
Lingxiao Wang, Qi Cai, Zhuoran Yang, Zhaoran Wang, (参考訳) 部分的に観察されたマルコフ決定過程(POMDP)における強化学習は2つの課題に直面している。 (i)未来を予測するには、しばしば完全な歴史を要し、地平線と指数関数的にスケールするサンプルの複雑さを誘導する。 (II)観測空間と状態空間はしばしば連続であり、外生次元と指数関数的にスケールするサンプル複雑性を誘導する。 このような課題に対処するには、POMDPの構造を利用して観測と状態履歴の最小かつ十分な表現を学ぶ必要がある。 そこで本研究では,ポリシーを最適化しながら2段階の表現を学習するETC(Embed to Control)という強化学習アルゴリズムを提案する。 ~ i) 各ステップにおいて、ETCは、遷移カーネルを分解する低次元の特徴を持つ状態を表現することを学習する。 (ii)複数のステップにまたがって、ECCは、各ステップの特徴を組み立てる低次元の埋め込みを用いて、すべての履歴を表現することを学習する。 統合 (i)および (ii) 様々な推定器(最大極大推定器や生成逆数ネットワークを含む)を許容する統一的な枠組みにおいて。 遷移核に低ランク構造を持つPOMDPのクラスに対して、ECCは、水平線と内在次元(すなわちランク)と多項式的にスケールする$O(1/\epsilon^2)$サンプル複雑性を得る。 ここで$\epsilon$は最適性ギャップです。 我々の知る限り、ETCは、無限観測空間と状態空間を持つPOMDPにおける表現学習とポリシー最適化を橋渡しする最初のサンプル効率アルゴリズムである。

Reinforcement learning in partially observed Markov decision processes (POMDPs) faces two challenges. (i) It often takes the full history to predict the future, which induces a sample complexity that scales exponentially with the horizon. (ii) The observation and state spaces are often continuous, which induces a sample complexity that scales exponentially with the extrinsic dimension. Addressing such challenges requires learning a minimal but sufficient representation of the observation and state histories by exploiting the structure of the POMDP. To this end, we propose a reinforcement learning algorithm named Embed to Control (ETC), which learns the representation at two levels while optimizing the policy.~(i) For each step, ETC learns to represent the state with a low-dimensional feature, which factorizes the transition kernel. (ii) Across multiple steps, ETC learns to represent the full history with a low-dimensional embedding, which assembles the per-step feature. We integrate (i) and (ii) in a unified framework that allows a variety of estimators (including maximum likelihood estimators and generative adversarial networks). For a class of POMDPs with a low-rank structure in the transition kernel, ETC attains an $O(1/\epsilon^2)$ sample complexity that scales polynomially with the horizon and the intrinsic dimension (that is, the rank). Here $\epsilon$ is the optimality gap. To our best knowledge, ETC is the first sample-efficient algorithm that bridges representation learning and policy optimization in POMDPs with infinite observation and state spaces.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-01
# 共同創設者の顔におけるペシミズム--マルコフ決定過程における効果的なオフライン強化学習の可能性

Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes ( http://arxiv.org/abs/2205.13589v3 )

ライセンス: Link先を確認
Miao Lu, Yifei Min, Zhaoran Wang, Zhuoran Yang, (参考訳) 半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。 特に、潜伏状態に依存する可能性のある行動ポリシーによって収集されたデータセットから最適なポリシーを学習することを目的としている。 このようなデータセットは、潜在状態が既存のオフラインRLアルゴリズムで禁止されているアクションと観察に同時に影響を及ぼすという意味で構築されている。 この目的のために、一般関数近似の文脈において、共役バイアスと最適と振舞いポリシーの間の分布シフトに対処する、Shaunderline{P}roxy変数 \underline{P}essimistic \underline{P}olicy \underline{O}ptimization (\texttt{P3O})アルゴリズムを提案する。 texttt{P3O} の中核は、近位因果推論によって構築された悲観的信頼領域の結合配列であり、ミニマックス推定として定式化されている。 得られたデータセットに対する部分的カバレッジの仮定の下では、 \texttt{P3O} が$n^{-1/2}$-suboptimality を達成することを証明し、$n$ はデータセット内の軌跡の数である。 我々の知る限り、 \texttt{P3O} はPOMDP に対して、データセットを合成した最初の証明可能なオフライン RL アルゴリズムである。

We study offline reinforcement learning (RL) in partially observable Markov decision processes. In particular, we aim to learn an optimal policy from a dataset collected by a behavior policy which possibly depends on the latent state. Such a dataset is confounded in the sense that the latent state simultaneously affects the action and the observation, which is prohibitive for existing offline RL algorithms. To this end, we propose the \underline{P}roxy variable \underline{P}essimistic \underline{P}olicy \underline{O}ptimization (\texttt{P3O}) algorithm, which addresses the confounding bias and the distributional shift between the optimal and behavior policies in the context of general function approximation. At the core of \texttt{P3O} is a coupled sequence of pessimistic confidence regions constructed via proximal causal inference, which is formulated as minimax estimation. Under a partial coverage assumption on the confounded dataset, we prove that \texttt{P3O} achieves a $n^{-1/2}$-suboptimality, where $n$ is the number of trajectories in the dataset. To our best knowledge, \texttt{P3O} is the first provably efficient offline RL algorithm for POMDPs with a confounded dataset.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-01
# LUT-GEMM:大規模生成言語モデルにおける効率的な推論のためのLUTに基づく量子行列乗法

LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models ( http://arxiv.org/abs/2206.09557v4 )

ライセンス: Link先を確認
Gunho Park, Baeseong Park, Minsub Kim, Sungjae Lee, Jeonghoon Kim, Beomseok Kwon, Se Jung Kwon, Byeongwook Kim, Youngjoo Lee, Dongsoo Lee, (参考訳) 自己教師型学習とトランスフォーマーアーキテクチャの最近の進歩は自然言語処理(NLP)を著しく改善し、極めて低いパープレキシティを実現している。 しかし、NLPモデルのサイズが大きくなると、生成フェーズ中にメモリ壁の問題が発生する。 この問題を軽減するため、最近の研究は、アクティベーションの完全精度を維持しながら、モデルの重みをサブ4ビット精度に定量化することに重点を置いている。 しかし、これらの改善は主にメモリの移動を減らし、実際の計算の減少よりも資源集約的な減量化プロセスを必要とすることに起因する。 本稿では,量化行列乗算のための効率的なカーネルである LUT-GEMM について紹介する。これは資源集約型量子化処理を除去するだけでなく,重量限定量子化のための従来のカーネルと比較して計算コストを低減させる。 さらに,圧縮比と精度の間に柔軟なトレードオフをもたらすグループワイド量子化を提案する。 LUT-GEMMの影響は、低ビット量子化と効率的なLUTベースの演算により、高い圧縮比を実装することで促進される。 実験により,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化し,コストのかかるOPTQに比べて1つのGPUで2.1$\times$の改善を実現した。

Recent advances in self-supervised learning and the Transformer architecture have significantly improved natural language processing (NLP), achieving remarkably low perplexity. However, the growing size of NLP models introduces a memory wall problem during the generation phase. To mitigate this issue, recent efforts have focused on quantizing model weights to sub-4-bit precision while preserving full precision for activations, resulting in practical speed-ups during inference on a single GPU. However, these improvements primarily stem from reduced memory movement, which necessitates a resource-intensive dequantization process rather than actual computational reduction. In this paper, we introduce LUT-GEMM, an efficient kernel for quantized matrix multiplication, which not only eliminates the resource-intensive dequantization process but also reduces computational costs compared to previous kernels for weight-only quantization. Furthermore, we proposed group-wise quantization to offer a flexible trade-off between compression ratio and accuracy. The impact of LUT-GEMM is facilitated by implementing high compression ratios through low-bit quantization and efficient LUT-based operations. We show experimentally that when applied to the OPT-175B model with 3-bit quantization, LUT-GEMM substantially accelerates token generation latency, achieving a remarkable 2.1$\times$ improvement on a single GPU when compared to OPTQ, which relies on the costly dequantization process.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-01
# MapReduceおよび適応複雑度モデルにおけるサイズ制約付き部分モジュラ最大化のためのスケーラブル分散アルゴリズム

Scalable Distributed Algorithms for Size-Constrained Submodular Maximization in the MapReduce and Adaptive Complexity Models ( http://arxiv.org/abs/2206.09563v5 )

ライセンス: Link先を確認
Tonmoy Dey, Yixin Chen, Alan Kuhnle, (参考訳) MapReduce(MR)モデルにおける部分モジュラー関数の分散最大化は注目されており、標準的なグリードアルゴリズムと連続グリードアルゴリズムで満たされていたような一定の一貫性特性を満たす限り、近似を失わずに、集中型アルゴリズムをMR設定で実行可能にする2つのフレームワークに到達している。 適応的複雑性モデルにおいて、各スレッドが基底集合全体にアクセス可能な部分モジュラー最大化の並列化性について研究した。 単調および部分モジュラー関数のサイズ制約による最大化について、いくつかのサブ線形適応性(高並列化可能な)アルゴリズムがMR設定で動作するために必要な整合性を満たすことを示し、実用的で並列化可能な分散アルゴリズムが得られる。 本稿では,この問題に対する線形クエリの複雑さを考慮した分散アルゴリズムの開発を行う。 最後に,追加のMRラウンドを犠牲にして,MRアルゴリズムの最大濃度制約を増大させる手法を提案する。

Distributed maximization of a submodular function in the MapReduce (MR) model has received much attention, culminating in two frameworks that allow a centralized algorithm to be run in the MR setting without loss of approximation, as long as the centralized algorithm satisfies a certain consistency property - which had previously only been known to be satisfied by the standard greedy and continous greedy algorithms. A separate line of work has studied parallelizability of submodular maximization in the adaptive complexity model, where each thread may have access to the entire ground set. For the size-constrained maximization of a monotone and submodular function, we show that several sublinearly adaptive (highly parallelizable) algorithms satisfy the consistency property required to work in the MR setting, which yields practical, parallelizable and distributed algorithms. Separately, we develop the first distributed algorithm with linear query complexity for this problem. Finally, we provide a method to increase the maximum cardinality constraint for MR algorithms at the cost of additional MR rounds.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-01
# 比較可能なユーザ生成コンテンツからの単語埋め込みによる言語間消費者健康語彙の構築

Constructing Cross-lingual Consumer Health Vocabulary with Word-Embedding from Comparable User Generated Content ( http://arxiv.org/abs/2206.11612v2 )

ライセンス: Link先を確認
Chia-Hsuan Chang, Lei Wang, Christopher C. Yang, (参考訳) オンライン健康コミュニティ(OHC)は、平民が健康情報を共有するための主要なチャンネルである。 OHCsから健康消費者生成コンテンツ(HCGC)を解析するためには、一般人が使用する口語医療表現を特定することが重要な課題である。 オープンアクセスで協調的な消費者健康語彙(OAC CHV)は、このような課題に対処するための制御された語彙である。 それでも、OAC CHVは英語でのみ利用可能であり、他の言語にも適用可能である。 本研究は、英語のCHVを言語横断言語に拡張するための言語間自動用語認識フレームワークを提案する。 本研究の枠組みは,英語HCGCコーパスと非英語HCGCコーパス(中国語)を入力として必要とする。 2つの単言語単語ベクトル空間をスキップグラムアルゴリズムを用いて決定し、各空間が言語内の在来人からの共通単語関連を符号化する。 アイソメトリの仮定に基づき、このフレームワークは2つの単言語空間をバイリンガルワードベクトル空間に整列させ、コサイン類似性を言語間で意味論的に類似した単語を識別するための計量として利用する。 実験の結果,我々のフレームワークは言語間でCHVを識別する上で,他の2つの大きな言語モデルよりも優れていることが示された。 我々のフレームワークは生のHCGCコーパスと医療翻訳の限られたサイズしか必要とせず、言語横断CHVのコンパイルに人的労力を削減できる。

The online health community (OHC) is the primary channel for laypeople to share health information. To analyze the health consumer-generated content (HCGC) from the OHCs, identifying the colloquial medical expressions used by laypeople is a critical challenge. The open-access and collaborative consumer health vocabulary (OAC CHV) is the controlled vocabulary for addressing such a challenge. Nevertheless, OAC CHV is only available in English, limiting its applicability to other languages. This research proposes a cross-lingual automatic term recognition framework for extending the English CHV into a cross-lingual one. Our framework requires an English HCGC corpus and a non-English (i.e., Chinese in this study) HCGC corpus as inputs. Two monolingual word vector spaces are determined using the skip-gram algorithm so that each space encodes common word associations from laypeople within a language. Based on the isometry assumption, the framework aligns two monolingual spaces into a bilingual word vector space, where we employ cosine similarity as a metric for identifying semantically similar words across languages. The experimental results demonstrate that our framework outperforms the other two large language models in identifying CHV across languages. Our framework only requires raw HCGC corpora and a limited size of medical translations, reducing human efforts in compiling cross-lingual CHV.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-01
# 統一光マターフロケット理論と量子通信への応用

Unified Light-Matter Floquet Theory and its Application to Quantum Communication ( http://arxiv.org/abs/2207.08558v3 )

ライセンス: Link先を確認
Georg Engelhardt, Sayan Choudhury, W. Vincent Liu, (参考訳) 周期的に駆動される量子系は、フロケ理論を用いて解析できる興味深い非平衡現象の多元性を示すことができる。 当然、フロケ理論は強いレーザー場と相互作用する原子の力学を記述するために用いられる。 しかし、この半古典的な分析は、光の量子化された性質に依存する量子光学現象を説明できない。 本稿では、フルカウンティング統計の枠組みを用いて、フロッケ理論と量子光学を統一することにより、原子-光子結合系の半古典的記述を超えて、重要な一歩を踏み出す。 これは、フォトニックダイナミクスを追跡するカウントフィールドを導入することで達成される。 この形式主義は、標準的なフルカウント統計学で用いられる2点の射影測定ではなく、2点のトモグラフィー測定に基づいている。 興味深いことに、PRFTは、マルチモード電磁場と相互作用する原子がFloquet状態に基づいて原子サブシステムを完全に非コヒーレンスするときに、マクロマターの絡み合いが発生することを予測している。 このデコヒーレンスは光周波数系では急速に発生するが、無線周波数系では無視される。 この結果から,効率的な量子メモリと量子演算の設計の道を開いた。 最後に,PRFTを用いた量子通信プロトコルを提案する。 PRFTは、分光、熱力学、量子力学、量子シミュレーションなど、様々なフロケット設定の洞察につながる可能性がある。

Periodically-driven quantum systems can exhibit a plethora of intriguing non-equilibrium phenomena that can be analyzed using Floquet theory. Naturally, Floquet theory is employed to describe the dynamics of atoms interacting with intense laser fields. However, this semiclassical analysis can not account for quantum-optical phenomena that rely on the quantized nature of light. In this paper, we take a significant step to go beyond the semiclassical description of atom-photon coupled systems by unifying Floquet theory with quantum optics using the framework of full-counting statistics. This is achieved by introducing counting fields that keep track of the photonic dynamics. This formalism, which we dub ``photon-resolved Floquet theory" (PRFT), is based on two-point tomographic measurements, instead of the two-point projective measurements used in standard full-counting statistics. Strikingly, the PRFT predicts the generation of macroscopic light-matter entanglement when atoms interact with multimode electromagnetic fields, thereby leading to complete decoherence of the atomic subsystem in the basis of the Floquet states. This decoherence occurs rapidly in the optical frequency regime, but is negligible in the radio frequency regime. Our results thus pave the way for the design of efficient quantum memories and quantum operations. Finally, employing the PRFT, we propose a quantum communication protocol that can significantly outperform the state-of-art few-photon protocols by two orders of magnitude or better. The PRFT potentially leads to insights in various Floquet settings including spectroscopy, thermodynamics, quantum metrology, and quantum simulations.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-01
# CP-PINN:オンライン最適化物理情報ニューラルネットワークを用いたPDEにおけるデータ駆動型変化点検出

CP-PINNs: Data-Driven Changepoints Detection in PDEs Using Online Optimized Physics-Informed Neural Networks ( http://arxiv.org/abs/2208.08626v3 )

ライセンス: Link先を確認
Zhikang Dong, Pawel Polak, (参考訳) 与えられたPDEダイナミクスのパラメータがランダムに変化点を示すシナリオにおける部分微分方程式(PDE)の逆問題について検討する。 我々は、PDEシステムによって記述される物理法則の解を推定し、ニューラルネットワークトレーニング中に正規化として機能し、許容可能な解の空間を制限し、関数近似の精度を高めることができる普遍近似器である、物理情報ニューラルネットワーク(PINN)を採用している。 システムにPDE力学の急激な変化が現れると、この正規化は真の力学を正確に見積もるには不十分であるか、あるいはモデル誤校正や失敗をもたらす可能性があることを実証する。 そこで本研究では,PDE力学における複数の変化点を許容し,関数近似を大幅に改善する,トータルバリアレーションペナルティを用いたPINN拡張を提案する。 これらの変化点は時間とともにランダムな場所で起こり、解と同時に推定される。 さらに,損失関数項の再重み付けを動的に行うオンライン学習手法を提案する。 パラメータ変化を伴う様々な方程式の例を用いた経験的解析により,提案手法の利点を実証する。 変更点がない場合、モデルは元のPINNモデルに戻る。 しかし,変化点が存在する場合,提案手法は従来のPINNモデルよりも優れたパラメータ推定,モデルフィッティングの改善,トレーニング誤差の低減を実現している。

We investigate the inverse problem for Partial Differential Equations (PDEs) in scenarios where the parameters of the given PDE dynamics may exhibit changepoints at random time. We employ Physics-Informed Neural Networks (PINNs) - universal approximators capable of estimating the solution of any physical law described by a system of PDEs, which serves as a regularization during neural network training, restricting the space of admissible solutions and enhancing function approximation accuracy. We demonstrate that when the system exhibits sudden changes in the PDE dynamics, this regularization is either insufficient to accurately estimate the true dynamics, or it may result in model miscalibration and failure. Consequently, we propose a PINNs extension using a Total-Variation penalty, which allows to accommodate multiple changepoints in the PDE dynamics and significantly improves function approximation. These changepoints can occur at random locations over time and are estimated concurrently with the solutions. Additionally, we introduce an online learning method for re-weighting loss function terms dynamically. Through empirical analysis using examples of various equations with parameter changes, we showcase the advantages of our proposed model. In the absence of changepoints, the model reverts to the original PINNs model. However, when changepoints are present, our approach yields superior parameter estimation, improved model fitting, and reduced training error compared to the original PINNs model.
翻訳日:2024-04-04 14:31:02 公開日:2024-04-01
# アルゴリズムから行動へ:患者のケアを改善するには因果関係が必要だ

From algorithms to action: improving patient care requires causality ( http://arxiv.org/abs/2209.07397v2 )

ライセンス: Link先を確認
Wouter A. C. van Amsterdam, Pim A. de Jong, Joost J. C. Verhoeff, Tim Leiner, Rajesh Ranganath, (参考訳) がん研究においては、治療決定を支援する結果を予測する結果の構築と検証に多くの関心がある。 しかしながら、ほとんどの結果予測モデルは、治療意思決定の因果的側面によらず開発・検証されているため、多くの結果予測モデルは、検証研究において正確であるにもかかわらず、意思決定に使用される際に害をもたらす可能性がある。 アメリカがん合同委員会による予測モデル検証のガイドラインとリスクモデル支持のチェックリストは、開発と検証の間に正確だが意思決定に使用すると有害な予測モデルから保護するものではない。 これが理由と、意思決定に有用なモデルを構築し、検証する方法を説明します。

In cancer research there is much interest in building and validating outcome predicting outcomes to support treatment decisions. However, because most outcome prediction models are developed and validated without regard to the causal aspects of treatment decision making, many published outcome prediction models may cause harm when used for decision making, despite being found accurate in validation studies. Guidelines on prediction model validation and the checklist for risk model endorsement by the American Joint Committee on Cancer do not protect against prediction models that are accurate during development and validation but harmful when used for decision making. We explain why this is the case and how to build and validate models that are useful for decision making.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-01
# 大規模2段階確率プログラムの機械学習による最適化:サイクリングネットワーク設計への応用

Machine Learning-Augmented Optimization of Large Bilevel and Two-stage Stochastic Programs: Application to Cycling Network Design ( http://arxiv.org/abs/2209.09404v3 )

ライセンス: Link先を確認
Timothy C. Y. Chan, Bo Lin, Shoshanna Saxe, (参考訳) サイクリング・インフラストラクチャ・プランニング・アプリケーションによってモチベーションを得て,2段階確率計画を含む,多数の独立したフォロワーを持つバイレベル・プログラムを解くための機械学習手法を提案する。 本研究では、フォロワーのサンプル部分集合を明示的に考慮し、機械学習モデルを用いてアンサンプされたフォロワーの客観的値を推定する最適化モデルを提案する。 既存のアプローチとは異なり、機械学習モデルのトレーニングを最適化問題に組み込むことで、リーダの決定で表現できないフォローア機能を採用できます。 我々は、生成したリーダー決定の最適性ギャップについて、全従者集合を考慮した当初の目的によって測定された境界を証明した。 我々は,従者サンプリングアルゴリズムを開発し,従者の特徴を学習するための表現学習手法を開発し,機械学習モデルへの入力として利用する。 数値解析により,本手法はベースラインよりも高い品質のリーダー決定を導出することを示す。 最後に、カナダのトロントで実際のケーススタディを行い、100万人以上のフォロワーでサイクリングネットワークの設計問題を解決する。 現在の慣行と比較して、我々の手法は輸送距離を19.2%改善し、1800万ドルのコスト削減につながる可能性がある。

Motivated by a cycling infrastructure planning application, we present a machine learning approach to solving bilevel programs with a large number of independent followers, which as a special case includes two-stage stochastic programming. We propose an optimization model that explicitly considers a sampled subset of followers and exploits a machine learning model to estimate the objective values of unsampled followers. Unlike existing approaches, we embed machine learning model training into the optimization problem, which allows us to employ follower features that cannot be represented using leader decisions. We prove bounds on the optimality gap of the generated leader decision as measured by the original objective that considers the full follower set. We develop follower sampling algorithms to tighten the bounds and a representation learning approach to learn follower features, which are used as inputs to our machine learning model. Through numerical studies, we show that our approach generates leader decisions of higher quality compared to baselines. Finally, we perform a real-world case study in Toronto, Canada, where we solve a cycling network design problem with over one million followers. Compared to the current practice, our approach improves a transportation metric by 19.2% and can lead to a potential cost saving of $18M.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-01
# BootAug: ハイブリッドインスタンスフィルタリングフレームワークによるテキスト拡張

BootAug: Boosting Text Augmentation via Hybrid Instance Filtering Framework ( http://arxiv.org/abs/2210.02941v2 )

ライセンス: Link先を確認
Heng Yang, Ke Li, (参考訳) テキスト拡張は、自然言語処理における不十分なデータの問題に対処する有効な手法である。 しかし、既存のテキスト拡張メソッドは、ほとんどショットのシナリオにフォーカスする傾向があり、通常、大規模な公開データセットではパフォーマンスが良くない。 我々の研究は、既存の拡張手法が、変化した特徴空間を持つインスタンスを生成することが多いことを示唆している(例えば、EDAはアスペクトベースの感情分類において、一般的に$\approx 2\%$を失う)。 この問題に対処するため,自然データセットで類似した特徴空間を維持可能な事前学習言語モデルに基づくハイブリッドなインスタンスフィルタリングフレームワーク(BootAug)を提案する。 BootAugは、既存のテキスト拡張メソッド(シノニム置換やバック翻訳など)に転送可能であり、分類精度が$\approx 2-3\%$で拡張性能を大幅に向上する。 3つの分類タスクと9つの公開データセットに関する実験結果から、BootAugはパフォーマンス低下問題に対処し、最先端のテキスト拡張手法より優れていることが示された。 さらに,大規模なデータセット上で既存の拡張メソッドを改善するためのコードもリリースしています。

Text augmentation is an effective technique for addressing the problem of insufficient data in natural language processing. However, existing text augmentation methods tend to focus on few-shot scenarios and usually perform poorly on large public datasets. Our research indicates that existing augmentation methods often generate instances with shifted feature spaces, which leads to a drop in performance on the augmented data (for example, EDA generally loses $\approx 2\%$ in aspect-based sentiment classification). To address this problem, we propose a hybrid instance-filtering framework (BootAug) based on pre-trained language models that can maintain a similar feature space with natural datasets. BootAug is transferable to existing text augmentation methods (such as synonym substitution and back translation) and significantly improves the augmentation performance by $\approx 2-3\%$ in classification accuracy. Our experimental results on three classification tasks and nine public datasets show that BootAug addresses the performance drop problem and outperforms state-of-the-art text augmentation methods. Additionally, we release the code to help improve existing augmentation methods on large datasets.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-01
# EthereumにおけるPonzi検出のための時間認識メタパス機能拡張

Time-aware Metapath Feature Augmentation for Ponzi Detection in Ethereum ( http://arxiv.org/abs/2210.16863v2 )

ライセンス: Link先を確認
Chengxiang Jin, Jiajun Zhou, Jie Jin, Jiajing Wu, Qi Xuan, (参考訳) 分散化を重視したWeb 3.0の開発により、ブロックチェーン技術はその革命を後押しし、特に暗号通貨分野において多くの課題をもたらしている。 最近では、Ponziスキームやフィッシング詐欺など、ブロックチェーン上での多数の犯罪行為が継続的に発生し、分散金融を非常に危険に晒している。 ブロックチェーン上の既存のグラフベースの異常な振る舞い検出方法は、通常、ノードとエッジの不均一性を区別することなく、均質なトランザクショングラフを構築することに重点を置いており、結果としてトランザクションパターン情報が部分的に失われる。 既存の異種モデリング手法はメタパスを通してより豊かな情報を表現できるが、抽出されたメタパスは一般にエンティティ間の時間的依存関係を無視し、実際の振る舞いを反映しない。 本稿では,Ethereum上のPonziスキーム検出中に,実際のメタパスベースのトランザクションパターンをキャプチャするプラグイン・アンド・プレイモジュールとして,TMFAug(Time-Aware Metapath Feature Augmentation)を導入する。 提案モジュールは,既存のグラフベースのPonzi検出手法と適応的に組み合わせることができる。 我々のTMFAugは,既存のPonzi検出手法がEthereumデータセットの性能向上に有効であることを示し,Ponziスキーム検出における異種時間情報の有効性を示した。

With the development of Web 3.0 which emphasizes decentralization, blockchain technology ushers in its revolution and also brings numerous challenges, particularly in the field of cryptocurrency. Recently, a large number of criminal behaviors continuously emerge on blockchain, such as Ponzi schemes and phishing scams, which severely endanger decentralized finance. Existing graph-based abnormal behavior detection methods on blockchain usually focus on constructing homogeneous transaction graphs without distinguishing the heterogeneity of nodes and edges, resulting in partial loss of transaction pattern information. Although existing heterogeneous modeling methods can depict richer information through metapaths, the extracted metapaths generally neglect temporal dependencies between entities and do not reflect real behavior. In this paper, we introduce Time-aware Metapath Feature Augmentation (TMFAug) as a plug-and-play module to capture the real metapath-based transaction patterns during Ponzi scheme detection on Ethereum. The proposed module can be adaptively combined with existing graph-based Ponzi detection methods. Extensive experimental results show that our TMFAug can help existing Ponzi detection methods achieve significant performance improvements on the Ethereum dataset, indicating the effectiveness of heterogeneous temporal information for Ponzi scheme detection.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-01
# 説得力のある筆記手法による健康情報の説明と検出

Using Persuasive Writing Strategies to Explain and Detect Health Misinformation ( http://arxiv.org/abs/2211.05985v3 )

ライセンス: Link先を確認
Danial Kamali, Joseph Romain, Huiyi Liu, Wei Peng, Jingbo Meng, Parisa Kordjamshidi, (参考訳) 誤報の拡散は今日の社会で顕著な問題であり、学術や産業の多くの研究者がそれと戦おうとしている。 毎日発生する大量の誤報のため、このタスクを人間のファクトチェッカーに任せるのは現実的ではない。 データ科学者と研究者は何年もの間、誤情報の自動検出に取り組んできたが、今日でも難しい問題だ。 本研究の目的は, 自動誤報検出に新たなレベルを加えることであり, 記事が誤報としてマークされる理由の解釈可能な推論を生成するために, 説得力のある筆法でテキストのセグメントを分類することである。 そこで本研究では,人間のアノテーションを付加したデータセットとともに,多くの一般的な説得的記述手法を含む新しいアノテーション方式を提案する。 そこで本研究では,テキスト分類にRoBERTaモデルを用いる。 我々は,複数の言語モデルに基づくベースラインを開発し,それらの中間ラベルが誤情報を検出し,解釈可能な結果を生成する際の改善とともに,説得的戦略ラベル予測の結果を示す。

The spread of misinformation is a prominent problem in today's society, and many researchers in academia and industry are trying to combat it. Due to the vast amount of misinformation that is created every day, it is unrealistic to leave this task to human fact-checkers. Data scientists and researchers have been working on automated misinformation detection for years, and it is still a challenging problem today. The goal of our research is to add a new level to automated misinformation detection; classifying segments of text with persuasive writing techniques in order to produce interpretable reasoning for why an article can be marked as misinformation. To accomplish this, we present a novel annotation scheme containing many common persuasive writing tactics, along with a dataset with human annotations accordingly. For this task, we make use of a RoBERTa model for text classification, due to its high performance in NLP. We develop several language model-based baselines and present the results of our persuasive strategy label predictions as well as the improvements these intermediate labels make in detecting misinformation and producing interpretable results.
翻訳日:2024-04-04 14:21:15 公開日:2024-04-01
# エッジビデオ分析のためのタスク指向コミュニケーション

Task-Oriented Communication for Edge Video Analytics ( http://arxiv.org/abs/2211.14049v3 )

ライセンス: Link先を確認
Jiawei Shao, Xinjie Zhang, Jun Zhang, (参考訳) 人工知能(AI)技術の開発とカメラ搭載デバイスの普及により、多くのエッジビデオ分析アプリケーションが登場し、ネットワークエッジに計算集約型AIモデルを配置するよう呼びかけている。 エッジ推論は、計算集約的なワークロードをローエンドのデバイスからビデオ分析のための強力なエッジサーバに移行するための、有望なソリューションである。 本稿では,エッジビデオ分析のためのタスク指向通信フレームワークを提案する。複数のデバイスが視覚センサデータを収集し,その情報を処理するためのエッジサーバに送信する。 低レイテンシ推論を可能にするために、このフレームワークは、空間的および時間的領域におけるビデオ冗長性を排除し、エッジサーバでのビデオを再構成するのではなく、下流タスクに不可欠な最小限の情報を送信する。 具体的には、決定論的情報ボトルネック(IB)原理に基づいて、その特徴の情報性と通信コストのトレードオフを特徴付けるコンパクトなタスク関連特徴を抽出する。 連続フレームの特徴は時間的に相関するので,特徴符号化において,前の特徴を側情報として捉えてビットレートを低減するための時間エントロピーモデル(TEM)を提案する。 推論性能をさらに向上するため、サーバに時空間融合モジュールを構築し、現在のフレームと以前のフレームの特徴を統合する。 ビデオ分析タスクに関する大規模な実験により,提案フレームワークは映像データのタスク関連情報を効果的に符号化し,既存の手法よりも高いレート性能のトレードオフを実現することを示す。

With the development of artificial intelligence (AI) techniques and the increasing popularity of camera-equipped devices, many edge video analytics applications are emerging, calling for the deployment of computation-intensive AI models at the network edge. Edge inference is a promising solution to move the computation-intensive workloads from low-end devices to a powerful edge server for video analytics, but the device-server communications will remain a bottleneck due to the limited bandwidth. This paper proposes a task-oriented communication framework for edge video analytics, where multiple devices collect the visual sensory data and transmit the informative features to an edge server for processing. To enable low-latency inference, this framework removes video redundancy in spatial and temporal domains and transmits minimal information that is essential for the downstream task, rather than reconstructing the videos at the edge server. Specifically, it extracts compact task-relevant features based on the deterministic information bottleneck (IB) principle, which characterizes a tradeoff between the informativeness of the features and the communication cost. As the features of consecutive frames are temporally correlated, we propose a temporal entropy model (TEM) to reduce the bitrate by taking the previous features as side information in feature encoding. To further improve the inference performance, we build a spatial-temporal fusion module at the server to integrate features of the current and previous frames for joint inference. Extensive experiments on video analytics tasks evidence that the proposed framework effectively encodes task-relevant information of video data and achieves a better rate-performance tradeoff than existing methods.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-01
# 内面注意による形状誘導拡散

Shape-Guided Diffusion with Inside-Outside Attention ( http://arxiv.org/abs/2212.00210v3 )

ライセンス: Link先を確認
Dong Huk Park, Grace Luo, Clayton Toste, Samaneh Azadi, Xihui Liu, Maka Karalashvili, Anna Rohrbach, Trevor Darrell, (参考訳) テキスト・画像拡散モデルにおけるユーザ制御の新たな形態として,正確なオブジェクトシルエットを導入し,形状誘導拡散を再現する。 トレーニング不要な手法では、インバージョンと生成プロセス中に内部注意機構を用いて、交差および自己注意マップに形状制約を適用する。 我々のメカニズムは、どの空間領域がオブジェクト(内側)か、背景(外側)かを指定し、編集を正しい領域に関連付ける。 本研究では,テキストプロンプトとオブジェクトマスクに基づいてオブジェクトを置き換えなければならない形状誘導編集作業において,本手法の有効性を実証する。 我々は、MS-COCOから派生した新しいShapePromptsベンチマークをキュレートし、自動測定値とアノテータ評価値の両方に応じて、テキストアライメントや画像リアリズムの劣化を伴わずに、SOTA結果の整合性を実現する。 私たちのデータとコードはhttps://shape-guided-diffusion.github.io.comで公開されます。

We introduce precise object silhouette as a new form of user control in text-to-image diffusion models, which we dub Shape-Guided Diffusion. Our training-free method uses an Inside-Outside Attention mechanism during the inversion and generation process to apply a shape constraint to the cross- and self-attention maps. Our mechanism designates which spatial region is the object (inside) vs. background (outside) then associates edits to the correct region. We demonstrate the efficacy of our method on the shape-guided editing task, where the model must replace an object according to a text prompt and object mask. We curate a new ShapePrompts benchmark derived from MS-COCO and achieve SOTA results in shape faithfulness without a degradation in text alignment or image realism according to both automatic metrics and annotator ratings. Our data and code will be made available at https://shape-guided-diffusion.github.io.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-01
# サンプリングアルゴリズムを用いた量子ボソニック系のトランケーション効果の推定

Estimating truncation effects of quantum bosonic systems using sampling algorithms ( http://arxiv.org/abs/2212.08546v3 )

ライセンス: Link先を確認
Masanori Hanada, Junyu Liu, Enrico Rinaldi, Masaki Tezuka, (参考訳) 量子量子コンピュータ上のボソンをシミュレートするためには、無限次元の局所ヒルベルト空間を有限次元に切り離すことで理論を正則化しなければならない。 実用的な量子応用の探索において、トラクション誤差がどれほど大きいかを知ることが重要である。 一般に、良い量子コンピュータがなければ、エラーを見積もるのは容易ではない。 本稿では,古典デバイスにおける従来のサンプリング手法,特にマルコフ・チェイン・モンテカルロが,今日利用可能な計算資源が十分ある比較的一般的なボソニック系のクラスに対して,この問題に対処できることを述べる。 実演として、このアイデアを2次元格子上のスカラー場理論に適用する。 この手法は、ボゾン理論の現実的な量子シミュレーションに必要な資源を推定したり、対応する量子シミュレーションの結果の妥当性を確認するために用いられる。

To simulate bosons on a qubit- or qudit-based quantum computer, one has to regularize the theory by truncating infinite-dimensional local Hilbert spaces to finite dimensions. In the search for practical quantum applications, it is important to know how big the truncation errors can be. In general, it is not easy to estimate errors unless we have a good quantum computer. In this paper, we show that traditional sampling methods on classical devices, specifically Markov Chain Monte Carlo, can address this issue for a rather generic class of bosonic systems with a reasonable amount of computational resources available today. As a demonstration, we apply this idea to the scalar field theory on a two-dimensional lattice, with a size that goes beyond what is achievable using exact diagonalization methods. This method can be used to estimate the resources needed for realistic quantum simulations of bosonic theories, and also, to check the validity of the results of the corresponding quantum simulations.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-01
# 境界パワースペクトルを持つ自由および相互作用スカラー場理論におけるクリロフ複素性

Krylov Complexity in Free and Interacting Scalar Field Theories with Bounded Power Spectrum ( http://arxiv.org/abs/2212.14702v4 )

ライセンス: Link先を確認
Hugo A. Camargo, Viktor Jahnke, Keun-Young Kim, Mitsuhiro Nishida, (参考訳) 有限温度での$d$次元における自由および相互作用する巨大なスカラー場の量子論において、Krylov複雑性として知られる作用素成長の概念を研究する。 連続運動量空間における質量,摂動相互作用による一ループ自己エネルギー,有限紫外遮断の影響を考察する。 これらの変形は、Laczos係数とKrylov複雑性の挙動を変化させ、前者の「重み付け」のような効果を2つの族に誘導し、後者の指数的な成長速度を低下させ、その漸近的な挙動を遷移させる。 また、質量ギャップの存在とスタッガーリングの性質との関係と、連続理論と格子理論における我々の紫外線遮断の関係についても論じる。

We study a notion of operator growth known as Krylov complexity in free and interacting massive scalar quantum field theories in $d$-dimensions at finite temperature. We consider the effects of mass, one-loop self-energy due to perturbative interactions, and finite ultraviolet cutoffs in continuous momentum space. These deformations change the behavior of Lanczos coefficients and Krylov complexity and induce effects such as the "staggering" of the former into two families, a decrease in the exponential growth rate of the latter, and transitions in their asymptotic behavior. We also discuss the relation between the existence of a mass gap and the property of staggering, and the relation between our ultraviolet cutoffs in continuous theories and lattice theories.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-01
# 交換性レンズと潜時変動モデルによる注意の分析

An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models ( http://arxiv.org/abs/2212.14852v3 )

ライセンス: Link先を確認
Yufeng Zhang, Boyi Liu, Qi Cai, Lingxiao Wang, Zhaoran Wang, (参考訳) 注意機構により、トランスフォーマーは重要な経験的成功を達成する。 変換器が望ましい表現を生成するために長い列に対して関係推論を行うという直感的な理解にもかかわらず、注意機構がそれをどのように達成するかという厳密な理論は欠如している。 特に興味深い疑問がいくつか残っている。 (a)望ましい表現は何か。 b)フォワードパス内の望ましい表現をどのように推測するか。 (c) 事前訓練の手順は、後進パスを通して望ましい表現を推測するためにどのように学習されるか。 BERT や ViT の場合と同様に、入力トークンは位置エンコーディングを含むため、しばしば交換可能である。 交換可能性の概念は、入力サイズに不変な潜在変数モデルを誘導し、理論的解析を可能にする。 -答える a) 表現において、入力トークンの十分かつ最小限の表現の存在を確立する。 特に、そのような表現は、出力ラベルの予測や下流タスクの解決において中心的な役割を果たす潜在変数の入力トークンの後方分布をインスタンス化する。 -答える (b) 推定において, 所望パラメータに対する注意が, 入力サイズが減少している近似誤差まで遅延後部を推定することを証明する。 より詳しくは、キーが与えられた値の条件平均をどのように近似するかを定量化し、長い列に対して関係推論を行う方法を示す。 -答える (c) 学習において, 教師付き目標と自己監督型目標の両方が, 経験的リスク最小化によって, 入力サイズに依存しない一般化誤差まで, 所望のパラメータを学習できることを示す。 特に、自己教師型設定では、下流タスクの解決に重要な条件番号を識別する。

With the attention mechanism, transformers achieve significant empirical successes. Despite the intuitive understanding that transformers perform relational inference over long sequences to produce desirable representations, we lack a rigorous theory on how the attention mechanism achieves it. In particular, several intriguing questions remain open: (a) What makes a desirable representation? (b) How does the attention mechanism infer the desirable representation within the forward pass? (c) How does a pretraining procedure learn to infer the desirable representation through the backward pass? We observe that, as is the case in BERT and ViT, input tokens are often exchangeable since they already include positional encodings. The notion of exchangeability induces a latent variable model that is invariant to input sizes, which enables our theoretical analysis. - To answer (a) on representation, we establish the existence of a sufficient and minimal representation of input tokens. In particular, such a representation instantiates the posterior distribution of the latent variable given input tokens, which plays a central role in predicting output labels and solving downstream tasks. - To answer (b) on inference, we prove that attention with the desired parameter infers the latent posterior up to an approximation error, which is decreasing in input sizes. In detail, we quantify how attention approximates the conditional mean of the value given the key, which characterizes how it performs relational inference over long sequences. - To answer (c) on learning, we prove that both supervised and self-supervised objectives allow empirical risk minimization to learn the desired parameter up to a generalization error, which is independent of input sizes. Particularly, in the self-supervised setting, we identify a condition number that is pivotal to solving downstream tasks.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-01
# ディープニューラルネットワークにおける1/f$ノイズへの自己組織化

Self-Organization Towards $1/f$ Noise in Deep Neural Networks ( http://arxiv.org/abs/2301.08530v2 )

ライセンス: Link先を確認
Nicholas Chong Jia Le, Ling Feng, (参考訳) ピンクノイズ(英: pink noise)またはピンクノイズ(英: pink noise)は、生物学的ニューラルネットワークにおいて確立された現象であり、脳の情報処理において重要な役割を果たすと考えられている。 本研究では、自然言語で訓練されたディープニューラルネットワークにおいて、このような1/f$のノイズが、その生物学的ノイズと類似していることを見出した。 具体的には、 'IMDb' AIベンチマークデータセット上でLSTM(Long Short-Term Memory)ネットワークをトレーニングし、ニューロンの活性化を測定した。 異なるニューロンの時系列上の遅延変動解析(DFA)は、LSTMへの入力の時系列に存在しない1/f$パターンを明確に示している。 興味深いことに、ニューラルネットワークが過剰な能力にあり、学習タスクを達成するのに十分なニューロンを持つ場合、アクティベーションパターンは1/f$のノイズから逸脱し、ホワイトノイズへとシフトする。 これは、多くのニューロンが効果的に使われておらず、入力データに入力されたときのゆらぎがほとんどないためである。 さらに、LSTM細胞における「internal」と「external」の活性化における1/f$ノイズの指数値について検討し、ヒト脳のfMRI信号における指数値の変動にいくつかの類似性を見出した。 この結果は,1/f$のノイズが最適学習のサインである,という仮説をさらに支持している。 ディープラーニングモデルが特定のタスクにおいて人間に近づいたり、超えたりし、生物学的な作業よりも「実験可能な」ことを考えると、これらのモデルが1/f$ノイズの根本的な起源を理解するのに良い候補であることが示唆された。

The presence of $1/f$ noise, also known as pink noise, is a well-established phenomenon in biological neural networks, and is thought to play an important role in information processing in the brain. In this study, we find that such $1/f$ noise is also found in deep neural networks trained on natural language, resembling that of their biological counterparts. Specifically, we trained Long Short-Term Memory (LSTM) networks on the `IMDb' AI benchmark dataset, then measured the neuron activations. The detrended fluctuation analysis (DFA) on the time series of the different neurons demonstrate clear $1/f$ patterns, which is absent in the time series of the inputs to the LSTM. Interestingly, when the neural network is at overcapacity, having more than enough neurons to achieve the learning task, the activation patterns deviate from $1/f$ noise and shifts towards white noise. This is because many of the neurons are not effectively used, showing little fluctuations when fed with input data. We further examine the exponent values in the $1/f$ noise in ``internal" and ``external" activations in the LSTM cell, finding some resemblance in the variations of the exponents in fMRI signals of the human brain. Our findings further supports the hypothesis that $1/f$ noise is a signature of optimal learning. With deep learning models approaching or surpassing humans in certain tasks, and being more ``experimentable'' than their biological counterparts, our study suggests that they are good candidates to understand the fundamental origins of $1/f$ noise.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-01
# HAL3D:ファイングラインド3次元パーツラベリングのための階層型アクティブラーニング

HAL3D: Hierarchical Active Learning for Fine-Grained 3D Part Labeling ( http://arxiv.org/abs/2301.10460v2 )

ライセンス: Link先を確認
Fenggen Yu, Yiming Qian, Francisca Gil-Ureta, Brian Jackson, Eric Bennett, Hao Zhang, (参考訳) 細粒度3Dパートラベリングのための最初の能動的学習ツールを提案する。これは,小部と複雑部の間に有意な構造変化があるため,最も先進的な深層学習(DL)手法にも挑戦する問題である。 同じ理由から、必要なデータアノテーションの労力は膨大であり、人間の関与を最小限に抑えるためのアプローチを動機付けています。 我々のラベル付けツールは、ディープニューラルネットワークによって予測される部分ラベルを反復的に検証または修正し、人間のフィードバックでネットワーク予測を継続的に改善する。 人間の努力を効果的に軽減するために,ツールに階層型と対称性対応のアクティブラベリングという2つの新しい特徴を開発した。 HAL3Dと名付けられた私たちのHAL3Dは、事前に定義された階層的な部分ラベルを持つテストセットに対して100%の精度(ヒューマンエラーの回避)を実現し、手作業よりも80%の時間を節約します。

We present the first active learning tool for fine-grained 3D part labeling, a problem which challenges even the most advanced deep learning (DL) methods due to the significant structural variations among the small and intricate parts. For the same reason, the necessary data annotation effort is tremendous, motivating approaches to minimize human involvement. Our labeling tool iteratively verifies or modifies part labels predicted by a deep neural network, with human feedback continually improving the network prediction. To effectively reduce human efforts, we develop two novel features in our tool, hierarchical and symmetry-aware active labeling. Our human-in-the-loop approach, coined HAL3D, achieves 100% accuracy (barring human errors) on any test set with pre-defined hierarchical part labels, with 80% time-saving over manual effort.
翻訳日:2024-04-04 14:11:24 公開日:2024-04-01
# ビルディング最適化テストフレームワーク(BOPTEST)におけるベンチマークモデル予測制御アルゴリズム

Benchmarking Model Predictive Control Algorithms in Building Optimization Testing Framework (BOPTEST) ( http://arxiv.org/abs/2301.13447v2 )

ライセンス: Link先を確認
Saman Mostafavi, Chihyeon Song, Aayushman Sharma, Raman Goyal, Alejandro Brito, (参考訳) 物理に基づく建築エミュレータのためのデータ駆動モデリングおよび制御フレームワークを提案する。 私たちのアプローチは以下の通りです。 (a)モデル評価を加速し、コスト効率の良い勾配を提供し、モデル予測制御(MPC)における後退地平線の予測精度を良好に維持する微分代理モデルのオフライントレーニング b) 非線形建築HVAC MPC問題の定式化と解法 BOPTEST(Building Optimization Testing Framework)で利用可能な様々なテストケースに対して、複数のサロゲートモデルと最適化フレームワークを用いて、モデリングと制御性能を広範囲に評価する。 我々のフレームワークは、他のモデリング手法と互換性があり、異なる制御定式化でカスタマイズできるため、現在開発中のBOPTESTのテストケースに適応可能で、将来性が高い。 このモジュラリティは、大規模な建物における予測コントローラのプロトタイプ化への道を提供し、現実世界のアプリケーションにおけるスケーラビリティと堅牢性を保証する。

We present a data-driven modeling and control framework for physics-based building emulators. Our approach consists of: (a) Offline training of differentiable surrogate models that accelerate model evaluations, provide cost-effective gradients, and maintain good predictive accuracy for the receding horizon in Model Predictive Control (MPC), and (b) Formulating and solving nonlinear building HVAC MPC problems. We extensively evaluate the modeling and control performance using multiple surrogate models and optimization frameworks across various test cases available in the Building Optimization Testing Framework (BOPTEST). Our framework is compatible with other modeling techniques and can be customized with different control formulations, making it adaptable and future-proof for test cases currently under development for BOPTEST. This modularity provides a path towards prototyping predictive controllers in large buildings, ensuring scalability and robustness in real-world applications.
翻訳日:2024-04-04 14:01:35 公開日:2024-04-01
# 都市環境における自律運転のための中レベル入力生成による階層型逆数模倣学習

Hierarchical Generative Adversarial Imitation Learning with Mid-level Input Generation for Autonomous Driving on Urban Environments ( http://arxiv.org/abs/2302.04823v4 )

ライセンス: Link先を確認
Gustavo Claudio Karl Couto, Eric Aislan Antonelo, (参考訳) 現実的な都市ナビゲーションシナリオに対する堅牢な制御ポリシの導出は、簡単な作業ではない。 エンドツーエンドのアプローチでは、これらのポリシーは車両のカメラからの高次元画像をステアリングやスロットルのような低レベルのアクションにマッピングする必要がある。 純粋な強化学習(RL)アプローチはエンジニアリングされた報酬のみに基づいているが、GAILエージェントは、自律運転のような報酬信号の導出が困難なタスクにおいて、環境と対話しながら専門家のデモンストレーションから学ぶ。 しかし、RLタスク上の生画像から直接ディープ・ネットワークをトレーニングすることは不安定であり、厄介であることが知られている。 そこで本研究では,車両の自律走行問題を解決するために,運転タスクから表現学習を分離する階層型GAILアーキテクチャ(hGAIL)を提案する。 提案アーキテクチャは2つのモジュールから構成される。GAN(Generative Adversarial Net)は、車両の周囲からバードアイビュー(Bird's-Eye View, BEV)と呼ばれる抽象的な中間レベル入力表現を生成する。 hGAILは、エージェントが環境と対話するときに、ポリシーと中間レベルの表現の両方を同時に学習することができる。 CARLAシミュレーション環境で行った実験によると、GAILは(BEVのないカメラからのみ)タスクの学習に失敗し、hGAILは1つの都市でのみ訓練した後、訓練段階で使用されていない新しい都市の交差点の98%で自律的なナビゲートに成功した。

Deriving robust control policies for realistic urban navigation scenarios is not a trivial task. In an end-to-end approach, these policies must map high-dimensional images from the vehicle's cameras to low-level actions such as steering and throttle. While pure Reinforcement Learning (RL) approaches are based exclusively on engineered rewards, Generative Adversarial Imitation Learning (GAIL) agents learn from expert demonstrations while interacting with the environment, which favors GAIL on tasks for which a reward signal is difficult to derive, such as autonomous driving. However, training deep networks directly from raw images on RL tasks is known to be unstable and troublesome. To deal with that, this work proposes a hierarchical GAIL-based architecture (hGAIL) which decouples representation learning from the driving task to solve the autonomous navigation of a vehicle. The proposed architecture consists of two modules: a GAN (Generative Adversarial Net) which generates an abstract mid-level input representation, which is the Bird's-Eye View (BEV) from the surroundings of the vehicle; and the GAIL which learns to control the vehicle based on the BEV predictions from the GAN as input. hGAIL is able to learn both the policy and the mid-level representation simultaneously as the agent interacts with the environment. Our experiments made in the CARLA simulation environment have shown that GAIL exclusively from cameras without BEV) fails to even learn the task, while hGAIL, after training exclusively on one city, was able to autonomously navigate successfully in 98% of the intersections of a new city not used in training phase.
翻訳日:2024-04-04 14:01:34 公開日:2024-04-01
# Surface Code Y Basisへのインプレースアクセス

Inplace Access to the Surface Code Y Basis ( http://arxiv.org/abs/2302.07395v2 )

ライセンス: Link先を確認
Craig Gidney, (参考訳) 本稿では,表面コードにおけるY塩基測定および初期化のコストを,ほぼ1桁削減する。 表面コードパッチを斜めに横切るねじれ欠陥は、パッチのバウンディングボックスを残し、コード距離を減らさずに、$\lfloor d/2 \rfloor + 2$ roundsでYベースに達する。 私はモンテカルロサンプリングを用いて回路雑音下での構成性能をベンチマークし、論理的誤差の分布を解析する。 Y塩基測定はSゲートとマジックステートファクトリーのコストを低減し、空間制限ハードウェア上の表面コード量子ビットのパウリ計測トモグラフィーをアンロックする。

In this paper, I cut the cost of Y basis measurement and initialization in the surface code by nearly an order of magnitude. Fusing twist defects diagonally across the surface code patch reaches the Y basis in $\lfloor d/2 \rfloor + 2$ rounds, without leaving the bounding box of the patch and without reducing the code distance. I use Monte Carlo sampling to benchmark the performance of the construction under circuit noise, and to analyze the distribution of logical errors. Cheap inplace Y basis measurement reduces the cost of S gates and magic state factories, and unlocks Pauli measurement tomography of surface code qubits on space-limited hardware.
翻訳日:2024-04-04 14:01:34 公開日:2024-04-01
# 生成モデル全体で一般化するユニバーサルフェイク画像検出器を目指して

Towards Universal Fake Image Detectors that Generalize Across Generative Models ( http://arxiv.org/abs/2302.10174v2 )

ライセンス: Link先を確認
Utkarsh Ojha, Yuheng Li, Yong Jae Lee, (参考訳) 生成モデルが急速に増殖するにつれて、汎用的な偽画像検出器の必要性が高まっている。 そこで本研究では,本研究では,実Vsフェイク分類のためのディープネットワークをトレーニングする既存のパラダイムが,GAN偽画像の検出訓練を行う際に,新しい世代生成モデルから偽画像を検出することに失敗していることを示す。 解析すると、結果の分類器は非対称に調整され、イメージを偽造するパターンを検出する。 実際のクラスは、トレーニング中にアクセスできないモデルから生成された画像を含む、偽でないものを保持するシンククラスになる。 この発見に基づいて,実写画像と実写画像の区別を明示的に訓練されていない特徴空間を用いて,学習せずに実写映像の分類を行うことを提案する。 我々は、このアイデアのインスタンス化として、最も近い近傍と線形探索を用いる。 大きな事前訓練された視覚言語モデルの特徴空間にアクセスすると、近隣の分類の非常に単純なベースラインは驚くほど優れた一般化能力を持ち、様々な生成モデルから偽画像を検出する。

With generative models proliferating at a rapid rate, there is a growing need for general purpose fake image detectors. In this work, we first show that the existing paradigm, which consists of training a deep network for real-vs-fake classification, fails to detect fake images from newer breeds of generative models when trained to detect GAN fake images. Upon analysis, we find that the resulting classifier is asymmetrically tuned to detect patterns that make an image fake. The real class becomes a sink class holding anything that is not fake, including generated images from models not accessible during training. Building upon this discovery, we propose to perform real-vs-fake classification without learning; i.e., using a feature space not explicitly trained to distinguish real from fake images. We use nearest neighbor and linear probing as instantiations of this idea. When given access to the feature space of a large pretrained vision-language model, the very simple baseline of nearest neighbor classification has surprisingly good generalization ability in detecting fake images from a wide variety of generative models; e.g., it improves upon the SoTA by +15.07 mAP and +25.90% acc when tested on unseen diffusion and autoregressive models.
翻訳日:2024-04-04 14:01:34 公開日:2024-04-01
# ほぼ線形時間におけるロバスト交代最小化による低ランク行列補完

Low Rank Matrix Completion via Robust Alternating Minimization in Nearly Linear Time ( http://arxiv.org/abs/2302.11068v3 )

ライセンス: Link先を確認
Yuzhou Gu, Zhao Song, Junze Yin, Lichen Zhang, (参考訳) 行列 $M\in \mathbb{R}^{m\times n}$ が与えられたとき、低階行列完備問題によりランク-k$$$M$ as $UV^\top$ for $U\in \mathbb{R}^{m\times k}$ と $V\in \mathbb{R}^{n\times k}$ を求めることができる。 特に、交代最小化フレームワークである、実際に広く使われているアプローチについて検討する。 Jain, Netrapalli, Sanghavi [JNS13] は、$M$ が不整列と列を持つなら、最小化の交互化は、$n$ のエントリのほとんど線形を観察することによって、行列 $M$ を確実に回復させることを示した。 サンプルの複雑さはその後改善された [GLZ17] が、最小化ステップの交互化は正確に計算する必要がある。 これにより、より効率的なアルゴリズムの開発が妨げられ、更新がほぼ効率を優先して実行される交代最小化の実践的な実装を表現できない。 本稿では,より効率的で誤りの少ない最小化フレームワークの実現に向けて大きな一歩を踏み出した。 そこで本研究では,近似更新による誤りの程度を許容できる最小化を交互に行う解析フレームワークを開発した。 さらに、我々のアルゴリズムは時間$\widetilde O(|\Omega| k)$で実行され、これはサンプルの複雑さを保ちながら解を検証するのにほぼ線形である。 これは、$\widetilde O(|\Omega| k^2)$ time を必要とするすべての既知の交互最小化アプローチを改善する。

Given a matrix $M\in \mathbb{R}^{m\times n}$, the low rank matrix completion problem asks us to find a rank-$k$ approximation of $M$ as $UV^\top$ for $U\in \mathbb{R}^{m\times k}$ and $V\in \mathbb{R}^{n\times k}$ by only observing a few entries specified by a set of entries $\Omega\subseteq [m]\times [n]$. In particular, we examine an approach that is widely used in practice -- the alternating minimization framework. Jain, Netrapalli, and Sanghavi [JNS13] showed that if $M$ has incoherent rows and columns, then alternating minimization provably recovers the matrix $M$ by observing a nearly linear in $n$ number of entries. While the sample complexity has been subsequently improved [GLZ17], alternating minimization steps are required to be computed exactly. This hinders the development of more efficient algorithms and fails to depict the practical implementation of alternating minimization, where the updates are usually performed approximately in favor of efficiency. In this paper, we take a major step towards a more efficient and error-robust alternating minimization framework. To this end, we develop an analytical framework for alternating minimization that can tolerate a moderate amount of errors caused by approximate updates. Moreover, our algorithm runs in time $\widetilde O(|\Omega| k)$, which is nearly linear in the time to verify the solution while preserving the sample complexity. This improves upon all prior known alternating minimization approaches which require $\widetilde O(|\Omega| k^2)$ time.
翻訳日:2024-04-04 14:01:34 公開日:2024-04-01
# 非線形関数近似を用いたガウスニュートン時間差分学習

Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation ( http://arxiv.org/abs/2302.13087v2 )

ライセンス: Link先を確認
Zhifa Ke, Junyu Zhang, Zaiwen Wen, (参考訳) 本稿では,非線形関数近似を用いたQラーニング問題を解くために,ガウス・ニュートン時間差分学習法を提案する。 各イテレーションにおいて,本手法は1つのガウスニュートン(GN)ステップで平均二乗ベルマン誤差(MSBE)の変種を最適化する。 不正確なGNステップを解析し、安価な行列反復によりGN更新を安全かつ効率的に計算する。 穏やかな条件下では、様々な非線形関数近似に対して、大域的最適Q関数に対する漸近的でない有限サンプル収束が導出される。 特に、relu 活性化を伴うニューラルネットワークのパラメータ化において、GNTD は既存の TD 法のサンプル複雑性に対して $\tilde{\mathcal{O}}(\varepsilon^{-1})$ の改善されたサンプル複雑性を達成する。 GNTD のサンプル複雑性$$\tilde{\mathcal{O}}(\varepsilon^{-1.5})も、一般的な滑らかな関数近似のために確立される。 いくつかのRLベンチマークにおいて、GNTDはTD型よりも高い報酬と高速な収束を示す。

In this paper, a Gauss-Newton Temporal Difference (GNTD) learning method is proposed to solve the Q-learning problem with nonlinear function approximation. In each iteration, our method takes one Gauss-Newton (GN) step to optimize a variant of Mean-Squared Bellman Error (MSBE), where target networks are adopted to avoid double sampling. Inexact GN steps are analyzed so that one can safely and efficiently compute the GN updates by cheap matrix iterations. Under mild conditions, non-asymptotic finite-sample convergence to the globally optimal Q function is derived for various nonlinear function approximations. In particular, for neural network parameterization with relu activation, GNTD achieves an improved sample complexity of $\tilde{\mathcal{O}}(\varepsilon^{-1})$, as opposed to the $\mathcal{\mathcal{O}}(\varepsilon^{-2})$ sample complexity of the existing neural TD methods. An $\tilde{\mathcal{O}}(\varepsilon^{-1.5})$ sample complexity of GNTD is also established for general smooth function approximations. We validate our method via extensive experiments in several RL benchmarks, where GNTD exhibits both higher rewards and faster convergence than TD-type methods.
翻訳日:2024-04-04 14:01:34 公開日:2024-04-01
# 量子リピータを用いた高速かつ信頼性の高い絡み合い分布:強化学習を用いたプロトコル改善のための原理

Fast and reliable entanglement distribution with quantum repeaters: principles for improving protocols using reinforcement learning ( http://arxiv.org/abs/2303.00777v4 )

ライセンス: Link先を確認
Stav Haldar, Pratik J. Barge, Sumeet Khatri, Hwang Lee, (参考訳) 将来の量子通信、量子センシング、分散量子計算といった量子技術は、空間的に分離されたノード間の共有絡み合いのネットワークに依存する。 本研究では,光子損失,非イデアル測定,量子メモリの短コヒーレンス時間などの実用的制約を考慮に入れた,一様および不均一なノードの線形連鎖に沿った絡み合い分布のための改良されたプロトコル/ポリティシを提供する。 幅広いパラメータにおいて、我々の政策は、待ち時間とエンドツーエンドの絡み合いの忠実性の両方に関して、"swap-as-soon-as-as-possible"ポリシーのような、これまで知られていた政策を改善している。 この改善は、短いコヒーレンス時間、高いリンク損失、高度に非対称なリンクなど、最も実践的なケースで最大である。 この結果を得るために,マルコフ決定プロセスを用いて絡み合い分布をモデル化し,Q-learning reinforcement learning (RL)アルゴリズムを用いて新しいポリシーを探索する。 これらの新しいポリシーは、動的で状態依存のメモリカットオフとノード間の協調によって特徴づけられる。 特に、ノード間のこのコラボレーションを定量化します。 我々の量化器は、各ノードがどれだけ"グローバル"な知識を持っているかを教えてくれます。 最後に、大規模量子ネットワークの性能に関する我々の理解は、RLや他の最適化手法を用いてそれらをシミュレーションする計算の非効率性によって制限されている。 そこで本研究では,大規模なリピータチェーンのポリシーを得るために,ポリシーをネストする手法を提案する。 小型リピータチェーンのポリシーをネストすることにより,スワップ・アズ・スーン・アズ・ア・パシブル・ポリシーを改善した大型リピータチェーンのポリシーを得る。

Future quantum technologies such as quantum communication, quantum sensing, and distributed quantum computation, will rely on networks of shared entanglement between spatially separated nodes. In this work, we provide improved protocols/policies for entanglement distribution along a linear chain of nodes, both homogeneous and inhomogeneous, that take practical limitations such as photon losses, non-ideal measurements, and quantum memories with short coherence times into account. For a wide range of parameters, our policies improve upon previously known policies, such as the "swap-as-soon-as-possible" policy, with respect to both the waiting time and the fidelity of the end-to-end entanglement. This improvement is greatest for the most practically relevant cases, namely, for short coherence times, high link losses, and highly asymmetric links. To obtain our results, we model entanglement distribution using a Markov decision process, and then we use the Q-learning reinforcement learning (RL) algorithm to discover new policies. These new policies are characterized by dynamic, state-dependent memory cutoffs and collaboration between the nodes. In particular, we quantify this collaboration between the nodes. Our quantifiers tell us how much "global" knowledge of the network every node has. Finally, our understanding of the performance of large quantum networks is currently limited by the computational inefficiency of simulating them using RL or other optimization methods. Thus, in this work, we present a method for nesting policies in order to obtain policies for large repeater chains. By nesting our RL-based policies for small repeater chains, we obtain policies for large repeater chains that improve upon the swap-as-soon-as-possible policy, and thus we pave the way for a scalable method for obtaining policies for long-distance entanglement distribution.
翻訳日:2024-04-04 14:01:34 公開日:2024-04-01
# 1-Lipschitz ニューラルネットワークを用いた符号付き距離関数を用いたロバスト一クラス分類

Robust One-Class Classification with Signed Distance Function using 1-Lipschitz Neural Networks ( http://arxiv.org/abs/2303.01978v2 )

ライセンス: Link先を確認
Louis Bethune, Paul Novello, Thibaut Boissin, Guillaume Coiffier, Mathieu Serrurier, Quentin Vincenot, Andres Troya-Galvis, (参考訳) そこで我々は,SDF(Signed Distance Function)を任意の分布のサポートの境界まで確実に学習することにより,OCC(One Class Signed Distance Function)を実現する手法を提案する。 サポートからの距離は正規性スコアと解釈でき、1-Lipschitzニューラルネットワークによる近似は、ディープラーニングベースのOCCアルゴリズムの未探索の弱点である$l2$の敵攻撃に対して堅牢性バウンダリを提供する。 その結果、OCSDFは、従来のAUROCと同じコストで計算できる、認証されたAUROCという新しいメトリックが付属している。 OCSDFは, 表や画像データの同時処理手法と競合する一方で, 敵攻撃に対してより堅牢であり, 理論的性質を説明できることを示す。 最後に、探索研究の観点から、OCSDFがOCCと画像生成と暗黙の神経表面のパラメトリゼーションとをどう結合するかを理論的および経験的に示す。 私たちのコードはhttps://github.com/Algue-Rythme/OneClassMetricLearningで利用可能です。

We propose a new method, dubbed One Class Signed Distance Function (OCSDF), to perform One Class Classification (OCC) by provably learning the Signed Distance Function (SDF) to the boundary of the support of any distribution. The distance to the support can be interpreted as a normality score, and its approximation using 1-Lipschitz neural networks provides robustness bounds against $l2$ adversarial attacks, an under-explored weakness of deep learning-based OCC algorithms. As a result, OCSDF comes with a new metric, certified AUROC, that can be computed at the same cost as any classical AUROC. We show that OCSDF is competitive against concurrent methods on tabular and image data while being way more robust to adversarial attacks, illustrating its theoretical properties. Finally, as exploratory research perspectives, we theoretically and empirically show how OCSDF connects OCC with image generation and implicit neural surface parametrization. Our code is available at https://github.com/Algue-Rythme/OneClassMetricLearning
翻訳日:2024-04-04 14:01:34 公開日:2024-04-01
# 量子プログラマとしてのシュレーディンガー:ステアリングによる絡み合いの推定

Schrödinger as a Quantum Programmer: Estimating Entanglement via Steering ( http://arxiv.org/abs/2303.07911v3 )

ライセンス: Link先を確認
Aby Philip, Soorya Rethinasamy, Vincent Russo, Mark M. Wilde, (参考訳) 量子エンタングルメントは、量子状態の資源性を測定する重要なタスクである。 ここでは、量子ステアリング効果を用いて、一般的な二部状態の分離性をテストし、定量化する量子アルゴリズムを開発する。 我々の分離性テストは、関心状態の浄化を準備する計算限定クライアントと、還元されたシステムを純積状態の確率的アンサンブルに操ろうとする計算非有界サーバの2つを含む分散量子計算からなる。 実用的なアルゴリズムを設計するために、パラメータ化ユニタリ回路と古典最適化技術を組み合わせてサーバの役割を置き換え、必要な計算を行う。 その結果は変分量子ステアリングアルゴリズム (VQSA) であり、今日の量子コンピュータの能力によく適合する改良された分離性テストである。 次に、ノイズの多い量子シミュレータ上でVQSAをシミュレートし、テストした例に好適な収束特性を求める。 VQSAの結果をベンチマークする半定値プログラムも開発しています。 この結果から, ステアリング, 絡み合い, 量子アルゴリズム, 量子計算複雑性理論との有意義な関係が得られた。 彼らはまた、VQSAにおけるパラメータ化中間回路の測定値を示し、分散VQAに対する第一種応用を示す。

Quantifying entanglement is an important task by which the resourcefulness of a quantum state can be measured. Here we develop a quantum algorithm that tests for and quantifies the separability of a general bipartite state, by making use of the quantum steering effect, the latter originally discovered by Schr\"odinger. Our separability test consists of a distributed quantum computation involving two parties: a computationally limited client, who prepares a purification of the state of interest, and a computationally unbounded server, who tries to steer the reduced systems to a probabilistic ensemble of pure product states. To design a practical algorithm, we replace the role of the server by a combination of parameterized unitary circuits and classical optimization techniques to perform the necessary computation. The result is a variational quantum steering algorithm (VQSA), which is a modified separability test that is better suited for the capabilities of quantum computers available today. We then simulate our VQSA on noisy quantum simulators and find favorable convergence properties on the examples tested. We also develop semidefinite programs, executable on classical computers, that benchmark the results obtained from our VQSA. Our findings here thus provide a meaningful connection between steering, entanglement, quantum algorithms, and quantum computational complexity theory. They also demonstrate the value of a parameterized mid-circuit measurement in a VQSA and represent a first-of-its-kind application for a distributed VQA.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-01
# 低コードLDM:大規模言語モデル上のグラフィカルユーザインタフェース

Low-code LLM: Graphical User Interface over Large Language Models ( http://arxiv.org/abs/2304.08103v3 )

ライセンス: Link先を確認
Yuzhe Cai, Shaoguang Mao, Wenshan Wu, Zehua Wang, Yaobo Liang, Tao Ge, Chenfei Wu, Wang You, Ting Song, Yan Xia, Jonathan Tien, Nan Duan, Furu Wei, (参考訳) 複雑なタスクにLarge Language Models(LLM)を使用することは困難であり、多くの場合、時間がかかり、制御不能なプロンプトエンジニアリングプロセスが伴う。 本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。 より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。 グラフィカルなユーザインターフェースとの視覚的なインタラクションによって、ユーザは自明なプロンプトを書くことなく、自分たちのアイデアをプロセスに組み込むことができる。 提案するLow-code LLMフレームワークは、複雑なタスクのための構造化計画ワークフローを設計するプランニングLLMと、ユーザ確認ワークフローに従って応答を生成するExecuting LLMから構成される。 ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。 典型的な4つのアプリケーションを使ってその利点を実証する。 この枠組みを導入することで、人間とLLMのギャップを埋め、複雑なタスクにLLMをより効果的かつ効率的に活用することを目指している。 コード、プロンプト、実験の詳細はhttps://github.com/moymix/TaskMatrix/tree/main/LowCodeLLMで確認できる。 デモビデオはhttps://www.youtube.com/watch? v=jb2C1vaeO3E。

Utilizing Large Language Models (LLMs) for complex tasks is challenging, often involving a time-consuming and uncontrollable prompt engineering process. This paper introduces a novel human-LLM interaction framework, Low-code LLM. It incorporates six types of simple low-code visual programming interactions to achieve more controllable and stable responses. Through visual interaction with a graphical user interface, users can incorporate their ideas into the process without writing trivial prompts. The proposed Low-code LLM framework consists of a Planning LLM that designs a structured planning workflow for complex tasks, which can be correspondingly edited and confirmed by users through low-code visual programming operations, and an Executing LLM that generates responses following the user-confirmed workflow. We highlight three advantages of the low-code LLM: user-friendly interaction, controllable generation, and wide applicability. We demonstrate its benefits using four typical applications. By introducing this framework, we aim to bridge the gap between humans and LLMs, enabling more effective and efficient utilization of LLMs for complex tasks. The code, prompts, and experimental details are available at https://github.com/moymix/TaskMatrix/tree/main/LowCodeLLM. A system demonstration video can be found at https://www.youtube.com/watch?v=jb2C1vaeO3E.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-01
# 産業制御ネットワークにおける侵入検知のためのディープトランスファー学習:包括的レビュー

Deep transfer learning for intrusion detection in industrial control networks: A comprehensive review ( http://arxiv.org/abs/2304.10550v2 )

ライセンス: Link先を確認
Hamza Kheddar, Yassine Himeur, Ali Ismail Awad, (参考訳) グローバルでは、外部インターネットは産業制御システムとますます結びついています。 結果として、これらのネットワークをさまざまな脅威から保護する必要がある。 産業活動の鍵となるインフラは、新たな種類の危険な脅威や敵対的な活動を認識するための予防機構である侵入検知システム(IDS)を用いて害から保護することができる。 本稿では,多種産業制御ネットワークにおけるIDS作成に使用される最新の人工知能技術について検討し,特にIDSに基づく深層移動学習(DTL)に注目した。 DTLは、特にターゲットドメイン内のラベル付きデータが不足している場合に、複数のドメインからの知識をマージまたは/または適応して、ターゲットタスクのパフォーマンスを向上させる情報融合方式の1つと見なすことができる。 2015年以降の刊行も検討された。 DTLのみ, IDSのみの著作を紹介・背景部で, DTLに基づくIDS論文を中心部で検討した。 このレビュー論文を読むことで、研究者は様々な種類のネットワークでIDSで使用されるDTLアプローチの現状をよりよく把握することができる。 使用するデータセット、採用されているDTLの種類、トレーニング済みネットワーク、IDS技術、精度/Fスコアと偽アラームレートを含む評価指標、得られた改善点など、その他の有用な情報も紹介する。 いくつかの研究で使用されるアルゴリズムと手法が提示され、DTLに基づくIDSサブカテゴリの原理が読者に提示され、深く明確に説明される。

Globally, the external internet is increasingly being connected to industrial control systems. As a result, there is an immediate need to protect these networks from a variety of threats. The key infrastructure of industrial activity can be protected from harm using an intrusion detection system (IDS), a preventive mechanism that seeks to recognize new kinds of dangerous threats and hostile activities. This review examines the most recent artificial-intelligence techniques that are used to create IDSs in many kinds of industrial control networks, with a particular emphasis on IDS-based deep transfer learning (DTL). DTL can be seen as a type of information-fusion approach that merges and/or adapts knowledge from multiple domains to enhance the performance of a target task, particularly when labeled data in the target domain is scarce. Publications issued after 2015 were considered. These selected publications were divided into three categories: DTL-only and IDS-only works are examined in the introduction and background section, and DTL-based IDS papers are considered in the core section of this review. By reading this review paper, researchers will be able to gain a better grasp of the current state of DTL approaches used in IDSs in many different types of network. Other useful information, such as the datasets used, the type of DTL employed, the pre-trained network, IDS techniques, the evaluation metrics including accuracy/F-score and false-alarm rate, and the improvements gained, are also covered. The algorithms and methods used in several studies are presented, and the principles of DTL-based IDS subcategories are presented to the reader and illustrated deeply and clearly
翻訳日:2024-04-04 13:51:35 公開日:2024-04-01
# NAIST-SIC-Aligned: Anigned English-Japanese Simultaneous Interpretation Corpus

NAIST-SIC-Aligned: an Aligned English-Japanese Simultaneous Interpretation Corpus ( http://arxiv.org/abs/2304.11766v4 )

ライセンス: Link先を確認
Jinming Zhao, Yuka Ko, Kosuke Doi, Ryo Fukuda, Katsuhito Sudoh, Satoshi Nakamura, (参考訳) 同時解釈(SI)データが同時機械翻訳(SiMT)にどのように影響するかは依然として疑問である。 大規模なトレーニングコーパスがないため、研究は限られている。 本研究では,NAIST-SIC-Alignedを導入し,そのギャップを埋めることを目的としている。 非整合コーパスNAIST-SIC から,コーパスを並列化してモデルトレーニングに適した2段階アライメント手法を提案する。 第1段は粗いアライメント,第2段は細粒度アライメント,第2段は文内フィルタ,第2段は文間フィルタリングを行い,整列ペアの品質を向上させる。 コーパスの品質を確保するため、各ステップは定量的または質的に検証されている。 これは、文献における最初のオープンソースの大規模並列SIデータセットである。 評価目的の小さなテストセットも手作業でキュレートしました。 その結果,SIデータでトレーニングしたモデルでは,ベースラインよりも翻訳品質とレイテンシが大幅に向上することがわかった。 SIコーパスの構築とSiMTに関する研究を進めていくことを願っている。 我々のデータはhttps://github.com/mingzi151/AHC-SIで確認できます。

It remains a question that how simultaneous interpretation (SI) data affects simultaneous machine translation (SiMT). Research has been limited due to the lack of a large-scale training corpus. In this work, we aim to fill in the gap by introducing NAIST-SIC-Aligned, which is an automatically-aligned parallel English-Japanese SI dataset. Starting with a non-aligned corpus NAIST-SIC, we propose a two-stage alignment approach to make the corpus parallel and thus suitable for model training. The first stage is coarse alignment where we perform a many-to-many mapping between source and target sentences, and the second stage is fine-grained alignment where we perform intra- and inter-sentence filtering to improve the quality of aligned pairs. To ensure the quality of the corpus, each step has been validated either quantitatively or qualitatively. This is the first open-sourced large-scale parallel SI dataset in the literature. We also manually curated a small test set for evaluation purposes. Our results show that models trained with SI data lead to significant improvement in translation quality and latency over baselines. We hope our work advances research on SI corpora construction and SiMT. Our data can be found at https://github.com/mingzi151/AHC-SI.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-01
# 医用画像におけるセグメンテーション

Segment Anything in Medical Images ( http://arxiv.org/abs/2304.12306v3 )

ライセンス: Link先を確認
Jun Ma, Yuting He, Feifei Li, Lin Han, Chenyu You, Bo Wang, (参考訳) 医用画像のセグメンテーションは臨床における重要な要素であり、正確な診断、治療計画、疾患のモニタリングを促進する。 しかし、既存の手法は特定のモダリティや病型に合わせており、様々な医療画像分割タスクにまたがる一般化性に欠けることが多い。 本稿では,このギャップを埋めるための基盤モデルであるMedSAMについて述べる。 このモデルは、1,570,263枚の画像マスク対を持つ大規模医療画像データセット上で開発され、10種類の画像モダリティと30以上のがんタイプをカバーする。 我々は86の内的検証タスクと60の外部的検証タスクを総合的に評価し、モダリティ・ワイド・スペシャリストモデルよりも精度と堅牢性を実証した。 幅広いタスクに対して正確かつ効率的なセグメンテーションを提供することで、MedSAMは診断ツールの進化と治療計画のパーソナライズを迅速化するための大きな可能性を秘めている。

Medical image segmentation is a critical component in clinical practice, facilitating accurate diagnosis, treatment planning, and disease monitoring. However, existing methods, often tailored to specific modalities or disease types, lack generalizability across the diverse spectrum of medical image segmentation tasks. Here we present MedSAM, a foundation model designed for bridging this gap by enabling universal medical image segmentation. The model is developed on a large-scale medical image dataset with 1,570,263 image-mask pairs, covering 10 imaging modalities and over 30 cancer types. We conduct a comprehensive evaluation on 86 internal validation tasks and 60 external validation tasks, demonstrating better accuracy and robustness than modality-wise specialist models. By delivering accurate and efficient segmentation across a wide spectrum of tasks, MedSAM holds significant potential to expedite the evolution of diagnostic tools and the personalization of treatment plans.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-01
# iMixer:階層型のHopfieldネットワークは、可逆的で暗黙的で反復的なMLP-Mixerを意味する

iMixer: hierarchical Hopfield network implies an invertible, implicit and iterative MLP-Mixer ( http://arxiv.org/abs/2304.13061v2 )

ライセンス: Link先を確認
Toshihiro Ota, Masato Taki, (参考訳) ここ数年、コンピュータビジョンにおけるトランスフォーマーの成功は、MLP-Mixerのようなトランスフォーマーと競合する多くの代替モデルの発見を刺激してきた。 誘導バイアスが弱いにもかかわらず、これらのモデルはよく研究された畳み込みニューラルネットワークに匹敵する性能を達成した。 最近のホップフィールドネットワークの研究は、あるエネルギーベースの連想メモリモデルとトランスフォーマーまたはMLP-ミクサーの対応を示唆しており、トランスフォーマー型アーキテクチャの設計の理論的背景に光を当てている。 本稿では,最近導入された階層型ホップフィールドネットワークへの対応を一般化し,新しいMLP-Mixerモデルの一般化であるiMixerを求める。 通常のフィードフォワードニューラルネットワークとは異なり、iMixerは出力側から入力側へ前進するMLP層を含んでいる。 我々は、モジュールを可逆的で暗黙的で反復的な混合モジュールの例として特徴づける。 画像分類タスクの様々なデータセットを用いてモデル性能を評価し,iMixerのユニークなアーキテクチャにもかかわらず,安定した学習能力を示し,ベースラインのバニラMLP-Mixerに匹敵する性能を実現する。 この結果は、ホップフィールドネットワークとミキサーモデルとの対応が、トランスフォーマーのようなアーキテクチャ設計のより広範なクラスを理解するための原則であることを示している。

In the last few years, the success of Transformers in computer vision has stimulated the discovery of many alternative models that compete with Transformers, such as the MLP-Mixer. Despite their weak inductive bias, these models have achieved performance comparable to well-studied convolutional neural networks. Recent studies on modern Hopfield networks suggest the correspondence between certain energy-based associative memory models and Transformers or MLP-Mixer, and shed some light on the theoretical background of the Transformer-type architectures design. In this paper, we generalize the correspondence to the recently introduced hierarchical Hopfield network, and find iMixer, a novel generalization of MLP-Mixer model. Unlike ordinary feedforward neural networks, iMixer involves MLP layers that propagate forward from the output side to the input side. We characterize the module as an example of invertible, implicit, and iterative mixing module. We evaluate the model performance with various datasets on image classification tasks, and find that iMixer, despite its unique architecture, exhibits stable learning capabilities and achieves performance comparable to or better than the baseline vanilla MLP-Mixer. The results imply that the correspondence between the Hopfield networks and the Mixer models serves as a principle for understanding a broader class of Transformer-like architecture designs.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-01
# セマンティックスをテクスチュアル・アドバイザリの例で修復するベスト・ディフェンス(動画あり)

The Best Defense is Attack: Repairing Semantics in Textual Adversarial Examples ( http://arxiv.org/abs/2305.04067v2 )

ライセンス: Link先を確認
Heng Yang, Ke Li, (参考訳) 近年の研究では、対人攻撃に対する事前訓練された言語モデルの脆弱性が明らかにされている。 既存の敵防衛技術は、特徴空間やテキスト空間における敵の例を再構築しようとする。 しかし、これらの手法は、敵の例で意味論を効果的に修復するのに苦労し、不満足な性能と実用性を制限する結果となった。 敵の例でセマンティクスを修復するために、リアクティブ摂動デフォーカス(Rapid)と呼ばれる新しいアプローチを導入する。 ラピッドは、敵の例の偽のラベルを識別し、敵の攻撃者を利用して敵の例のセマンティクスを修復するために、敵の検知器を使用している。 各種攻撃シナリオにおけるRapidの有効性を実証するために,4つの公開データセットを用いて大規模な実験を行った。 従来の作業における防御性能検証の問題に対処するため,我々の作業に基づく敵検出と修復の実証を行い,https://tinyurl.com/22ercuf8で容易に評価できることを示した。

Recent studies have revealed the vulnerability of pre-trained language models to adversarial attacks. Existing adversarial defense techniques attempt to reconstruct adversarial examples within feature or text spaces. However, these methods struggle to effectively repair the semantics in adversarial examples, resulting in unsatisfactory performance and limiting their practical utility. To repair the semantics in adversarial examples, we introduce a novel approach named Reactive Perturbation Defocusing (Rapid). Rapid employs an adversarial detector to identify fake labels of adversarial examples and leverage adversarial attackers to repair the semantics in adversarial examples. Our extensive experimental results conducted on four public datasets, convincingly demonstrate the effectiveness of Rapid in various adversarial attack scenarios. To address the problem of defense performance validation in previous works, we provide a demonstration of adversarial detection and repair based on our work, which can be easily evaluated at https://tinyurl.com/22ercuf8.
翻訳日:2024-04-04 13:51:35 公開日:2024-04-01
# SpecInfer: 木に基づく投機推論と検証による生成型大規模言語モデルの高速化

SpecInfer: Accelerating Generative Large Language Model Serving with Tree-based Speculative Inference and Verification ( http://arxiv.org/abs/2305.09781v4 )

ライセンス: Link先を確認
Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Zeyu Wang, Zhengxin Zhang, Rae Ying Yee Wong, Alan Zhu, Lijie Yang, Xiaoxiang Shi, Chunan Shi, Zhuoming Chen, Daiyaan Arfeen, Reyna Abhyankar, Zhihao Jia, (参考訳) 本稿では,木に基づく投機的推測と検証を併用した生成的大規模言語モデル(LLM)を高速化するシステムであるSpecInferを紹介する。 SpecInferの背景にある重要なアイデアは、小さな投機モデルを利用してLCMの出力を予測することだ。 トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLLMに対して並列に検証する。 SpecInferは、インクリメンタルデコーダの代わりに LLM をトークンツリー検証器として使用し、モデル品質を確実に保ちながら、生成 LLM を提供するためのエンドツーエンドのレイテンシと計算要求を大幅に削減する。 評価の結果, SpecInfer は分散 LLM では 1.5-2.8x ,オフロード型 LLM では 2.6-3.5x で, 生成性能は 1.5-2.8x で優れていた。 SpecInferはhttps://github.com/flexflow/FlexFlow/で公開されている。

This paper introduces SpecInfer, a system that accelerates generative large language model (LLM) serving with tree-based speculative inference and verification. The key idea behind SpecInfer is leveraging small speculative models to predict the LLM's outputs; the predictions are organized as a token tree, whose nodes each represent a candidate token sequence. The correctness of all candidate token sequences represented by a token tree is verified against the LLM in parallel using a novel tree-based parallel decoding mechanism. SpecInfer uses an LLM as a token tree verifier instead of an incremental decoder, which significantly reduces the end-to-end latency and computational requirement for serving generative LLMs while provably preserving model quality. Our evaluation shows that SpecInfer outperforms existing LLM serving systems by 1.5-2.8x for distributed LLM inference and by 2.6-3.5x for offloading-based LLM inference, while preserving the same generative performance. SpecInfer is publicly available at https://github.com/flexflow/FlexFlow/
翻訳日:2024-04-04 13:41:51 公開日:2024-04-01
# フェデレーション学習における動的正規化シャープネスの最小化:グローバル一貫性と平滑な景観へのアプローチ

Dynamic Regularized Sharpness Aware Minimization in Federated Learning: Approaching Global Consistency and Smooth Landscape ( http://arxiv.org/abs/2305.11584v2 )

ライセンス: Link先を確認
Yan Sun, Li Shen, Shixiang Chen, Liang Ding, Dacheng Tao, (参考訳) フェデレートラーニング(FL)では、ローカルクライアントのクラスタがグローバルサーバの調整の下で調整され、1つのモデルをプライバシ保護で協調的にトレーニングする。 複数のローカル更新と分離された非IDデータセットのため、クライアントは自身のオプティマに過度に適合する傾向にあり、グローバルな目標から著しく逸脱し、パフォーマンスを著しく損なう。 これまでのほとんどの研究は、この偏見的クライアントドリフトを最適化の観点から緩和するために、局所的な目的とグローバルな目的の整合性を高めることだけに重点を置いており、その性能は高い不均一性に対して顕著に悪化するであろう。 本研究では,FLの性能向上を目的とした最適化と一般化の目標を共同で検討し,新しい一般アルゴリズム(FedSMOO)を提案する。 具体的には、FedSMOO {\displaystyle {\tt Family FedSMOO} は、グローバルな目的に対して局所的な最適性を保証するために動的正規化器を採用し、一方、一貫したフラットなミニマを探すために、グローバルなシャープネス認識最小化(SAM)オプティマイザによって修正される。 我々の理論的解析は、FedSMOO} が低い一般化境界を持つ高速$\mathcal{O}(1/T)$収束率を達成することを示している。 実世界のデータセットを用いて、そのピアレス効率と優れた一般性を検証する。

In federated learning (FL), a cluster of local clients are chaired under the coordination of the global server and cooperatively train one model with privacy protection. Due to the multiple local updates and the isolated non-iid dataset, clients are prone to overfit into their own optima, which extremely deviates from the global objective and significantly undermines the performance. Most previous works only focus on enhancing the consistency between the local and global objectives to alleviate this prejudicial client drifts from the perspective of the optimization view, whose performance would be prominently deteriorated on the high heterogeneity. In this work, we propose a novel and general algorithm {\ttfamily FedSMOO} by jointly considering the optimization and generalization targets to efficiently improve the performance in FL. Concretely, {\ttfamily FedSMOO} adopts a dynamic regularizer to guarantee the local optima towards the global objective, which is meanwhile revised by the global Sharpness Aware Minimization (SAM) optimizer to search for the consistent flat minima. Our theoretical analysis indicates that {\ttfamily FedSMOO} achieves fast $\mathcal{O}(1/T)$ convergence rate with low generalization bound. Extensive numerical studies are conducted on the real-world dataset to verify its peerless efficiency and excellent generality.
翻訳日:2024-04-04 13:41:51 公開日:2024-04-01
# 拡散ハイパーフィーチャー:意味的対応のための時間と空間を探索する

Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence ( http://arxiv.org/abs/2305.14334v2 )

ライセンス: Link先を確認
Grace Luo, Lisa Dunlap, Dong Huk Park, Aleksander Holynski, Trevor Darrell, (参考訳) 拡散モデルは高品質な画像を生成することができることが示されており、それらが意味のある内部表現を含むことを示唆している。 残念ながら、拡散モデルの内部情報を符号化する特徴マップは、ネットワークの層だけでなく、拡散タイムステップにも広がっており、有用な記述子を抽出することは困難である。 本稿では,Diffusion Hyperfeaturesを提案する。Diffusion Hyperfeaturesは,マルチスケールおよびマルチタイムステップの機能マップを,下流タスクに使用できるピクセル単位の機能記述子に集約するフレームワークである。 これらの記述子は、生成過程と反転過程を用いて、合成画像と実画像の両方に対して抽出することができる。 提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を発揮する。 実画像対の反転特徴を学習した特徴集約ネットワークは、未知の物体や合成物を含む合成画像対の生成特徴に利用できる。 私たちのコードはhttps://diffusion-hyperfeatures.github.ioで公開されています。

Diffusion models have been shown to be capable of generating high-quality images, suggesting that they could contain meaningful internal representations. Unfortunately, the feature maps that encode a diffusion model's internal information are spread not only over layers of the network, but also over diffusion timesteps, making it challenging to extract useful descriptors. We propose Diffusion Hyperfeatures, a framework for consolidating multi-scale and multi-timestep feature maps into per-pixel feature descriptors that can be used for downstream tasks. These descriptors can be extracted for both synthetic and real images using the generation and inversion processes. We evaluate the utility of our Diffusion Hyperfeatures on the task of semantic keypoint correspondence: our method achieves superior performance on the SPair-71k real image benchmark. We also demonstrate that our method is flexible and transferable: our feature aggregation network trained on the inversion features of real image pairs can be used on the generation features of synthetic image pairs with unseen objects and compositions. Our code is available at https://diffusion-hyperfeatures.github.io.
翻訳日:2024-04-04 13:41:51 公開日:2024-04-01
# Self-Checker: 大規模言語モデルによるFact-Checkingのためのプラグイン・アンド・プレイモジュール

Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models ( http://arxiv.org/abs/2305.14623v2 )

ライセンス: Link先を確認
Miaoran Li, Baolin Peng, Michel Galley, Jianfeng Gao, Zhu Zhang, (参考訳) ファクトチェック(Fact-checking)は、NLPにおいて、クレームの事実的正確性を検証するために一般的に使用される重要なタスクである。 それまでの研究は主に、特定のデータセット上の微調整済みの言語モデルに重点を置いてきた。 ChatGPTやGPT-3といった大規模言語モデル(LLM)の急速な開発により、研究者は幅広いタスクに対してコンテキスト内学習能力を模索している。 本稿では,ほぼゼロショット設定でLLMを純粋にプロンプトすることでファクトチェックを容易にするプラグイン・アンド・プレイモジュールのセットからなるフレームワークであるSelf-Checkerを導入することにより,ファクトチェックのためのLCMの能力を評価することを目的とする。 このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。 実証的な結果から,自己チェッカーのファクトチェックにおけるLCM活用の可能性が示された。 しかし、SOTAの微調整モデルと比べて改善の余地は依然として大きいため、将来のファクトチェック研究においてLLMの採用が有望なアプローチである可能性が示唆されている。

Fact-checking is an essential task in NLP that is commonly utilized for validating the factual accuracy of claims. Prior work has mainly focused on fine-tuning pre-trained languages models on specific datasets, which can be computationally intensive and time-consuming. With the rapid development of large language models (LLMs), such as ChatGPT and GPT-3, researchers are now exploring their in-context learning capabilities for a wide range of tasks. In this paper, we aim to assess the capacity of LLMs for fact-checking by introducing Self-Checker, a framework comprising a set of plug-and-play modules that facilitate fact-checking by purely prompting LLMs in an almost zero-shot setting. This framework provides a fast and efficient way to construct fact-checking systems in low-resource environments. Empirical results demonstrate the potential of Self-Checker in utilizing LLMs for fact-checking. However, there is still significant room for improvement compared to SOTA fine-tuned models, which suggests that LLM adoption could be a promising approach for future fact-checking research.
翻訳日:2024-04-04 13:41:51 公開日:2024-04-01
# 画像超解像のための最適境界条件付き拡散モードの解法

Solving Diffusion ODEs with Optimal Boundary Conditions for Better Image Super-Resolution ( http://arxiv.org/abs/2305.15357v5 )

ライセンス: Link先を確認
Yiyang Ma, Huan Yang, Wenhan Yang, Jianlong Fu, Jiaying Liu, (参考訳) 拡散モデルは、強力な生成モデルの一種であり、画像超解像(SR)タスクにおいて印象的な結果を与えている。 しかし,拡散モデルの逆過程に生じるランダム性のため,拡散型SRモデルの性能はサンプリングの度に変動する。 この拡散モデル固有のランダム性は、非効率性と不安定性をもたらすため、ユーザーがSR結果の品質を保証することは困難である。 しかし、我々の研究は、このランダム性を機会として捉えており、それを十分に分析し活用することで、一連の拡散ベースのSR手法の恩恵を受ける可能性を持つ効果的なプラグアンドプレイサンプリング手法の構築につながる。 より詳しくは,拡散常微分方程式(拡散ODE)を最適境界条件(BCs)で解くことにより,事前学習した拡散ベースSRモデルから,高品質なSR画像のサンプリングを着実に行うことを提案する。 我々の分析は、空間全体における効率的な探索を通して、およそ最適なBCを得るための経路を示す。 提案手法によりサンプリングされたSR結果の質は, 事前学習した拡散ベースSRモデルと同一の拡散ベースSRモデルとのランダム性を有する現在の手法でサンプリングされた結果の質よりも優れており, 追加の訓練を伴わない現在の拡散ベースSRモデルでは, サンプリング手法が「ブースト」される。

Diffusion models, as a kind of powerful generative model, have given impressive results on image super-resolution (SR) tasks. However, due to the randomness introduced in the reverse process of diffusion models, the performances of diffusion-based SR models are fluctuating at every time of sampling, especially for samplers with few resampled steps. This inherent randomness of diffusion models results in ineffectiveness and instability, making it challenging for users to guarantee the quality of SR results. However, our work takes this randomness as an opportunity: fully analyzing and leveraging it leads to the construction of an effective plug-and-play sampling method that owns the potential to benefit a series of diffusion-based SR methods. More in detail, we propose to steadily sample high-quality SR images from pre-trained diffusion-based SR models by solving diffusion ordinary differential equations (diffusion ODEs) with optimal boundary conditions (BCs) and analyze the characteristics between the choices of BCs and their corresponding SR results. Our analysis shows the route to obtain an approximately optimal BC via an efficient exploration in the whole space. The quality of SR results sampled by the proposed method with fewer steps outperforms the quality of results sampled by current methods with randomness from the same pre-trained diffusion-based SR model, which means that our sampling method "boosts" current diffusion-based SR models without any additional training.
翻訳日:2024-04-04 13:41:51 公開日:2024-04-01
# 離散変数と連続変数のハイブリッド状態を用いた長距離絡み合い共有

Long-distance entanglement sharing using hybrid states of discrete and continuous variables ( http://arxiv.org/abs/2305.18906v4 )

ライセンス: Link先を確認
Soumyakanti Bose, Jaskaran Singh, Adán Cabello, Hyunseok Jeong, (参考訳) 本研究では,連続変数 (CV) と離散変数 (DV) のハイブリッド絡み合い (HE) を用いた高速長距離絡み合いを実現するための実現可能なスキームを提案する。 HEは,既存のCVおよびDVシステムの実験的限界を効果的に除去し,長距離の絡み合いを生じさせることを示す。 我々は, 絡み合いに基づく量子鍵分布(EB-QKD)プロトコルを用いて, 結果として生じるDV絡み合い状態をベンチマークする。 EB-QKD は HE 状態を用いて,300 km の標準電気通信ファイバーで実現可能であることを示す。 鍵となるアイデアは、高いセキュアなキーレートを達成するためにDV部を使用しながら、光子損失に対して堅牢に調整できるCV部を使用することである。 以上の結果から,HE状態は,量子情報処理のさらなる応用につながる可能性のある,実用的な長距離・高速絡み合い生成に明確な優位性をもたらすことが示唆された。

We introduce a feasible scheme to produce high-rate long-distance entanglement which uses hybrid entanglement (HE) between continuous variables (CV) and discrete variables (DV). We show that HE can effectively remove the experimental limitations of existing CV and DV systems to produce long range entanglement. We benchmark the resulting DV entangled states using an entanglement-based quantum key distribution (EB-QKD) protocol. We show that, using HE states, EB-QKD is possible with standard telecommunication fibers for 300 km. The key idea is using the CV part, which can be adjusted to be robust against photon losses, for increasing the transmission distance, while using the DV part for achieving high secure key rates. Our results point out that HE states provide a clear advantage for practical long-distance and high-rate entanglement generation that may lead to further applications in quantum information processing.
翻訳日:2024-04-04 13:41:51 公開日:2024-04-01
# 顔生成のための音声文脈対応リップシンクの探索

Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation ( http://arxiv.org/abs/2305.19556v3 )

ライセンス: Link先を確認
Se Jin Park, Minsu Kim, Jeongsoo Choi, Yong Man Ro, (参考訳) 音声と正確な同期を必要とする自然でリアルな顔を合成する上で、会話による顔生成は難しい課題である。 単独の電話機が先行または後続の電話機に影響されるような共調により、電話機の調音は音韻の文脈によって異なる。 したがって、音韻文脈による唇の動きをモデル化することで、時空間的な唇の動きをより高めることができる。 そこで本研究では,話し顔生成のための唇の動き生成における音韻文脈について検討する。 対象の顔の唇の動きを生成するために音声コンテキストを明示的に活用する文脈認識型リップシンクフレームワーク(CALS)を提案する。 CALSはAudio-to-LipモジュールとLip-to-Faceモジュールで構成されている。 前者はマスク学習に基づいて事前訓練され、各携帯電話を文脈化された唇運動ユニットにマッピングする。 そして、コンテキスト対応リップモーションユニットは、ターゲットIDとコンテキスト対応リップモーションとを合成する際に後者を誘導する。 広汎な実験から,提案したCALSフレームワークにおける音韻文脈を単純に活用するだけで,時空間アライメントが効果的に向上することを確認した。 また, 音韻文脈が唇の同期にどの程度役立つかを示すとともに, 約1.2秒間の唇生成に有効な窓の大きさを求める。

Talking face generation is the challenging task of synthesizing a natural and realistic face that requires accurate synchronization with a given audio. Due to co-articulation, where an isolated phone is influenced by the preceding or following phones, the articulation of a phone varies upon the phonetic context. Therefore, modeling lip motion with the phonetic context can generate more spatio-temporally aligned lip movement. In this respect, we investigate the phonetic context in generating lip motion for talking face generation. We propose Context-Aware Lip-Sync framework (CALS), which explicitly leverages phonetic context to generate lip movement of the target face. CALS is comprised of an Audio-to-Lip module and a Lip-to-Face module. The former is pretrained based on masked learning to map each phone to a contextualized lip motion unit. The contextualized lip motion unit then guides the latter in synthesizing a target identity with context-aware lip motion. From extensive experiments, we verify that simply exploiting the phonetic context in the proposed CALS framework effectively enhances spatio-temporal alignment. We also demonstrate the extent to which the phonetic context assists in lip synchronization and find the effective window size for lip generation to be approximately 1.2 seconds.
翻訳日:2024-04-04 13:41:51 公開日:2024-04-01
# TextFormer: 混合スーパービジョンを備えたクエリベースのエンドツーエンドテキストスポッター

TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision ( http://arxiv.org/abs/2306.03377v2 )

ライセンス: Link先を確認
Yukun Zhai, Xiaoqiang Zhang, Xiameng Qin, Sanyuan Zhao, Xingping Dong, Jianbing Shen, (参考訳) エンド・ツー・エンドのテキストスポッティングは、シーンテキストの検出と認識を統一されたフレームワークに統合することを目的とした、重要なコンピュータビジョンタスクである。 典型的な手法は、ローカルな特徴や複雑な後処理ステップを抽出して最終的な予測を生成するために、Rerea-of-Interest(RoI)操作に大きく依存する。 この制限に対処するため,Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 具体的には、テキストインスタンス毎のクエリ埋め込みを使用して、TextFormerはイメージエンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。 分類、セグメンテーション、認識ブランチの相互訓練と最適化を可能にし、柔軟性や単純さを犠牲にすることなく、より深い機能共有を実現する。 さらに,任意の字型テキストを読むためにグローバルな特徴を逐次的特徴に伝達するAdaptive Global aGgregation (AGG) モジュールを設計し,RoI操作のサブ最適化問題を克服する。 さらに、潜在的なコーパス情報は、弱いアノテーションから完全なラベルへの混合監視を通じて利用され、さらにテキスト検出とエンドツーエンドのテキストスポッティング結果が改善される。 様々なバイリンガル(英語と中国語)のベンチマークに関する大規模な実験は、我々の手法の優位性を示している。 特にTDA-ReCTSデータセットでは、TextFormerは最先端のメソッドを1-NEDで13.2%上回っている。

End-to-end text spotting is a vital computer vision task that aims to integrate scene text detection and recognition into a unified framework. Typical methods heavily rely on Region-of-Interest (RoI) operations to extract local features and complex post-processing steps to produce final predictions. To address these limitations, we propose TextFormer, a query-based end-to-end text spotter with Transformer architecture. Specifically, using query embedding per text instance, TextFormer builds upon an image encoder and a text decoder to learn a joint semantic understanding for multi-task modeling. It allows for mutual training and optimization of classification, segmentation, and recognition branches, resulting in deeper feature sharing without sacrificing flexibility or simplicity. Additionally, we design an Adaptive Global aGgregation (AGG) module to transfer global features into sequential features for reading arbitrarily-shaped texts, which overcomes the sub-optimization problem of RoI operations. Furthermore, potential corpus information is utilized from weak annotations to full labels through mixed supervision, further improving text detection and end-to-end text spotting results. Extensive experiments on various bilingual (i.e., English and Chinese) benchmarks demonstrate the superiority of our method. Especially on TDA-ReCTS dataset, TextFormer surpasses the state-of-the-art method in terms of 1-NED by 13.2%.
翻訳日:2024-04-04 13:41:51 公開日:2024-04-01
# DANSE:教師なし学習セットアップにおけるモデルフリープロセスのデータ駆動非線形状態推定

DANSE: Data-driven Non-linear State Estimation of Model-free Process in Unsupervised Learning Setup ( http://arxiv.org/abs/2306.03897v2 )

ライセンス: Link先を確認
Anubhab Ghosh, Antoine Honoré, Saikat Chatterjee, (参考訳) 本研究では,教師なし学習環境におけるモデルフリープロセスのベイズ状態推定と予測の課題に対処する。 モデルなしのプロセスでは、プロセスのダイナミクスに関するアプリオリの知識は持っていません。 本稿では,データ駆動型非線形状態推定法であるDANSEを提案する。 DANSEは、状態の線形測定を与えられたモデルフリープロセスの状態の閉形式後部を提供する。 さらに、予測のためのクローズドフォーム後部を提供する。 データ駆動リカレントニューラルネットワーク(RNN)は、状態の先行パラメータを提供するために、DANSEで使用される。 前者は過去の測定を入力として、その後、現在の測定を入力として、状態の閉形式後部を見つける。 データ駆動RNNは、モデルフリープロセスの基盤となる非線形ダイナミクスをキャプチャする。 DANSEのトレーニングは、主にRNNのパラメータを学習するが、教師なし学習アプローチを用いて実行される。 教師なし学習では、測定データトラジェクトリのみからなるトレーニングデータセットにアクセスできますが、状態トラジェクトリにはアクセスできません。 したがって、DANSEはトレーニングデータの状態情報にアクセスできず、教師あり学習を利用できない。 線形および非線形プロセスモデル(Lorenz attractor と Chen attractor)を用いて,教師なし学習に基づく DANSE の評価を行った。 提案したDANSEは,プロセスモデルに関する知識がなく,教師付き学習も必要とせず,Kalmanフィルタ(KF)や拡張KF(EKF),unscentedKF(UKF),データ駆動ディープマルコフモデル(DMM),最近提案されたKalmanNet(KKF)など,モデル駆動方式と競合する性能を示す。 さらに,DANSEが高次元状態推定に有効であることを示す。

We address the tasks of Bayesian state estimation and forecasting for a model-free process in an unsupervised learning setup. For a model-free process, we do not have any a-priori knowledge of the process dynamics. In the article, we propose DANSE -- a Data-driven Nonlinear State Estimation method. DANSE provides a closed-form posterior of the state of the model-free process, given linear measurements of the state. In addition, it provides a closed-form posterior for forecasting. A data-driven recurrent neural network (RNN) is used in DANSE to provide the parameters of a prior of the state. The prior depends on the past measurements as input, and then we find the closed-form posterior of the state using the current measurement as input. The data-driven RNN captures the underlying non-linear dynamics of the model-free process. The training of DANSE, mainly learning the parameters of the RNN, is executed using an unsupervised learning approach. In unsupervised learning, we have access to a training dataset comprising only a set of measurement data trajectories, but we do not have any access to the state trajectories. Therefore, DANSE does not have access to state information in the training data and can not use supervised learning. Using simulated linear and non-linear process models (Lorenz attractor and Chen attractor), we evaluate the unsupervised learning-based DANSE. We show that the proposed DANSE, without knowledge of the process model and without supervised learning, provides a competitive performance against model-driven methods, such as the Kalman filter (KF), extended KF (EKF), unscented KF (UKF), a data-driven deep Markov model (DMM) and a recently proposed hybrid method called KalmanNet. In addition, we show that DANSE works for high-dimensional state estimation.
翻訳日:2024-04-04 13:41:51 公開日:2024-04-01
# FasterViT:階層型アテンションを備えた高速ビジョントランス

FasterViT: Fast Vision Transformers with Hierarchical Attention ( http://arxiv.org/abs/2306.06189v2 )

ライセンス: Link先を確認
Ali Hatamizadeh, Greg Heinrich, Hongxu Yin, Andrew Tao, Jose M. Alvarez, Jan Kautz, Pavlo Molchanov, (参考訳) 我々は、コンピュータビジョン(CV)アプリケーションのための高速スループットに焦点を当てた、FasterViTという名前のハイブリッドCNN-ViTニューラルネットワークの新たなファミリーを設計する。 FasterViTは、CNNにおける高速ローカル表現学習の利点とViTにおけるグローバルモデリング特性を組み合わせたものだ。 新たに導入された階層的注意 (HAT) アプローチは, 計算コストを削減した2次複雑度を持つグローバル自己注意を多段階的注意に分解する。 効率的なウィンドウベースの自己注意の恩恵を受けます。 各ウィンドウは、ローカルおよびグローバルな表現学習に参加する専用キャリアトークンにアクセスする。 高いレベルでは、グローバルな自己注意は、低コストで効率的なクロスウィンドウ通信を可能にする。 FasterViT は精度と画像スループットの点で SOTA Pareto-front を実現する。 我々は,分類,物体検出,セグメンテーションなど様々なCVタスクにおいて,その効果を広く検証してきた。 また,HATを既存ネットワークのプラグイン・アンド・プレイモジュールとして使用し,拡張可能であることを示す。 さらに、高解像度の画像に対して、競合する画像よりもはるかに高速で精度の高い性能を示す。 コードはhttps://github.com/NVlabs/FasterViT.comで入手できる。

We design a new family of hybrid CNN-ViT neural networks, named FasterViT, with a focus on high image throughput for computer vision (CV) applications. FasterViT combines the benefits of fast local representation learning in CNNs and global modeling properties in ViT. Our newly introduced Hierarchical Attention (HAT) approach decomposes global self-attention with quadratic complexity into a multi-level attention with reduced computational costs. We benefit from efficient window-based self-attention. Each window has access to dedicated carrier tokens that participate in local and global representation learning. At a high level, global self-attentions enable the efficient cross-window communication at lower costs. FasterViT achieves a SOTA Pareto-front in terms of accuracy and image throughput. We have extensively validated its effectiveness on various CV tasks including classification, object detection and segmentation. We also show that HAT can be used as a plug-and-play module for existing networks and enhance them. We further demonstrate significantly faster and more accurate performance than competitive counterparts for images with high resolution. Code is available at https://github.com/NVlabs/FasterViT.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-01
# マルチモーダル大規模言語モデルに関する調査

A Survey on Multimodal Large Language Models ( http://arxiv.org/abs/2306.13549v2 )

ライセンス: Link先を確認
Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, Enhong Chen, (参考訳) 近年, GPT-4Vで表されるマルチモーダル言語モデル (MLLM) は, 強力な大規模言語モデル (LLM) を脳として用いて, マルチモーダルタスクを遂行する新たなホットスポットとなっている。 MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、従来のマルチモーダル手法ではまれであり、人工知能への潜在的な道のりを示唆している。 この目的のために、学術と産業の双方は、GPT-4Vよりも競争力のあるMLLMを開発し、驚くべき速さで研究の限界を推し進めている。 本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。 まず,MLLMの基本的定式化を行い,アーキテクチャ,トレーニング戦略,データ,評価などの関連概念を概説する。 次に,より粒度,モダリティ,言語,シナリオをサポートするためにMLLMをどのように拡張できるか,という研究トピックを紹介する。 我々は,Multimodal ICL (M-ICL),Multimodal CoT (M-CoT),LLM-Aided Visual Reasoning (LAVR)など,マルチモーダル幻覚と拡張手法を継続する。 本稿は,既存の課題について議論し,有望な研究方向性を指摘する。 MLLMの時代が始まったばかりであるという事実を踏まえて、私たちはこの調査を更新し続け、さらなる研究を促すことを期待します。 最新の論文を収集するGitHubリンクはhttps://github.com/BradyFU/Awesome-Multimodal-Large-Language-Modelsで公開されている。

Recently, Multimodal Large Language Model (MLLM) represented by GPT-4V has been a new rising research hotspot, which uses powerful Large Language Models (LLMs) as a brain to perform multimodal tasks. The surprising emergent capabilities of MLLM, such as writing stories based on images and OCR-free math reasoning, are rare in traditional multimodal methods, suggesting a potential path to artificial general intelligence. To this end, both academia and industry have endeavored to develop MLLMs that can compete with or even better than GPT-4V, pushing the limit of research at a surprising speed. In this paper, we aim to trace and summarize the recent progress of MLLMs. First of all, we present the basic formulation of MLLM and delineate its related concepts, including architecture, training strategy and data, as well as evaluation. Then, we introduce research topics about how MLLMs can be extended to support more granularity, modalities, languages, and scenarios. We continue with multimodal hallucination and extended techniques, including Multimodal ICL (M-ICL), Multimodal CoT (M-CoT), and LLM-Aided Visual Reasoning (LAVR). To conclude the paper, we discuss existing challenges and point out promising research directions. In light of the fact that the era of MLLM has only just begun, we will keep updating this survey and hope it can inspire more research. An associated GitHub link collecting the latest papers is available at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-01
# 自動ログ生成におけるLCMの有効性を探る:実証的研究

Exploring the Effectiveness of LLMs in Automated Logging Generation: An Empirical Study ( http://arxiv.org/abs/2307.05950v2 )

ライセンス: Link先を確認
Yichen Li, Yintong Huo, Zhihan Jiang, Renyi Zhong, Pinjia He, Yuxin Su, Lionel Briand, Michael R. Lyu, (参考訳) 自動ロギングステートメント生成は、開発者が重要なソフトウェアランタイムの振る舞いを文書化するのをサポートする。 自然言語生成とプログラミング言語の理解において大きな成功を収めていることを考えると、大規模言語モデル(LLM)は開発者がロギングステートメントを生成するのに役立つかもしれないが、まだ調査されていない。 このギャップを埋めるために、本稿では、ロギングステートメント生成のためのLLMを初めて検討する。まず、ログステートメント生成データセットであるLogBenchを、(1)LogBench-O:GitHubリポジトリから収集されたログステートメント、(2)LogBench-T:LogBench-Oから変換された未確認コードという2つのパートで構築する。 次に、LogBenchを利用して、トップパフォーマンスLLM11の有効性と一般化能力(LogBench-T)を評価する。 さらに,LLM 以前の時代の古典的検索ベースおよび機械学習ベースのロギング手法に対して,これらの LLM の性能について検討した。 さらに、コード変換手法から導出した未確認データ(LogBench-T)を用いて、LCMのロギング一般化機能を評価する。 既存のLCMでは,ロギングレベルやロギング変数について十分な予測が可能であるが,BLEUスコアの0.249しか達成できないため,改善が求められている。 また、LCMのロギング性能には、プロンプト構造と外部要因(例えば、プログラミングコンテキストやコードコメント)が重要であることも強調した。 これらの知見に基づき,5つの意味を同定し,今後のロギング研究への実践的アドバイスを提供する。 我々の経験的分析は、LLMベースのロギングツールの可能性を示しながら、現在のロギングアプローチの限界を明らかにし、より実用的なモデルを構築するための実用的なガイダンスを提供する。

Automated logging statement generation supports developers in documenting critical software runtime behavior. Given the great success in natural language generation and programming language comprehension, large language models (LLMs) might help developers generate logging statements, but this has not yet been investigated. To fill the gap, this paper performs the first study on exploring LLMs for logging statement generation.We first build a logging statement generation dataset, LogBench, with two parts: (1) LogBench-O: logging statements collected from GitHub repositories, and (2) LogBench-T: the transformed unseen code from LogBench-O. Then, we leverage LogBench to evaluate the effectiveness and generalization capabilities (using LogBench-T) of eleven top-performing LLMs. In addition, we examine the performance of these LLMs against classical retrieval-based and machine learning-based logging methods from the era preceding LLMs. We further evaluate LLM's logging generalization capabilities using unseen data (LogBench-T) derived from code transformation techniques. While existing LLMs deliver decent predictions on logging levels and logging variables, our study indicates that they only achieve a maximum BLEU score of 0.249, thus calling for improvements. The paper also highlights the importance of prompt constructions and external factors (e.g., programming contexts and code comments) for LLMs' logging performance. Based on these findings, we identify five implications and provide practical advice for future logging research. Our empirical analysis discloses the limitations of current logging approaches while showcasing the potential of LLM-based logging tools, and provides actionable guidance for building more practical models.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-01
# 有限サイズの貯水池に結合した量子ドットの確率的熱力学

Stochastic thermodynamics of a quantum dot coupled to a finite-size reservoir ( http://arxiv.org/abs/2307.06679v3 )

ライセンス: Link先を確認
Saulo V. Moreira, Peter Samuelsson, Patrick P. Potts, (参考訳) 有限サイズの貯水池に結合したナノスケールのシステムでは、貯水池の温度はシステムと貯水池の間の熱交換によって変動する可能性がある。 現在のところ、熱、仕事、エントロピー生成の確率的熱力学解析は欠落している。 ここでは、有限サイズの電子貯水池に結合した単一レベルの量子ドットトンネルを解析することにより、このギャップを埋める。 系の力学は、貯水池の変動温度に依存するマルコフのマスター方程式によって記述される。 揺らぎ定理に基づき、熱力学的に一貫した統計的記述をもたらす適切なエントロピー生成を同定する。 本稿では,有限サイズの貯水池Szilard エンジンの作業結果について述べる。

In nano-scale systems coupled to finite-size reservoirs, the reservoir temperature may fluctuate due to heat exchange between the system and the reservoirs. To date, a stochastic thermodynamic analysis of heat, work and entropy production in such systems is however missing. Here we fill this gap by analyzing a single-level quantum dot tunnel coupled to a finite-size electronic reservoir. The system dynamics is described by a Markovian master equation, depending on the fluctuating temperature of the reservoir. Based on a fluctuation theorem, we identify the appropriate entropy production that results in a thermodynamically consistent statistical description. We illustrate our results by analyzing the work production for a finite-size reservoir Szilard engine.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-01
# グラフニューラルネットワークによる分子特性予測の不確かさの定量化

Uncertainty Quantification for Molecular Property Predictions with Graph Neural Architecture Search ( http://arxiv.org/abs/2307.10438v2 )

ライセンス: Link先を確認
Shengli Jiang, Shiyi Qin, Reid C. Van Lehn, Prasanna Balaprakash, Victor M. Zavala, (参考訳) グラフニューラルネットワーク(GNN)は、分子特性予測のためのデータ駆動手法の顕著なクラスとして登場した。 しかし、典型的なGNNモデルの鍵となる制限は、予測の不確かさを定量化できないことである。 この機能は、下流タスクにおけるモデルの信頼性の高い使用とデプロイを保証するために不可欠です。 そこで本研究では,分子特性予測のための自動不確実性定量化(UQ)手法であるAutoGNNUQを紹介する。 AutoGNNUQはアーキテクチャ検索を利用して高性能なGNNのアンサンブルを生成し、予測の不確実性の推定を可能にする。 我々のアプローチでは、分散分解を用いてデータ(アラート)とモデル(エステミック)の不確実性を分離し、それらを減らすための貴重な洞察を提供する。 計算実験において、AutoGNNUQは、複数のベンチマークデータセット上での予測精度とUQ性能の両方の観点から、既存のUQ手法よりも優れていることを示した。 さらに、t-SNE視覚化を用いて、分子の特徴と不確実性の間の相関を探索し、データセット改善の洞察を提供する。 AutoGNNUQは、正確な不確実性定量化が意思決定に不可欠である薬物発見や材料科学などの領域で広く適用可能である。

Graph Neural Networks (GNNs) have emerged as a prominent class of data-driven methods for molecular property prediction. However, a key limitation of typical GNN models is their inability to quantify uncertainties in the predictions. This capability is crucial for ensuring the trustworthy use and deployment of models in downstream tasks. To that end, we introduce AutoGNNUQ, an automated uncertainty quantification (UQ) approach for molecular property prediction. AutoGNNUQ leverages architecture search to generate an ensemble of high-performing GNNs, enabling the estimation of predictive uncertainties. Our approach employs variance decomposition to separate data (aleatoric) and model (epistemic) uncertainties, providing valuable insights for reducing them. In our computational experiments, we demonstrate that AutoGNNUQ outperforms existing UQ methods in terms of both prediction accuracy and UQ performance on multiple benchmark datasets. Additionally, we utilize t-SNE visualization to explore correlations between molecular features and uncertainty, offering insight for dataset improvement. AutoGNNUQ has broad applicability in domains such as drug discovery and materials science, where accurate uncertainty quantification is crucial for decision-making.
翻訳日:2024-04-04 13:31:56 公開日:2024-04-01
# PCA, SVD, およびデータ中心化

PCA, SVD, and Centering of Data ( http://arxiv.org/abs/2307.15213v2 )

ライセンス: Link先を確認
Donggun Kim, Kisung You, (参考訳) 本稿では,データ次元の低減を目的とした統計学および機械学習における基礎的手法である主成分分析(PCA)を精査する。 Singular Value Decomposition (SVD) はしばしばPCAの計算の第一の手段として使用される。 本研究では,この批判的かつしばしば無視される,あるいは軽視されるデータ中心のステップの影響について,詳細な調査を行った。 本研究は,集中型SVDと無中心型SVDの2つのPCA埋め込みを協調的に検討する。 この探索の一環として、第1特異ベクトルと平均方向の関係を解析し、この観測を中心行列と非中心行列の2つのSVDの合同性にリンクする。 さらに、スペクトル分析の観点から、SVDによるPCAの実行の文脈における中心化の欠如から生じる潜在的な影響について検討する。 本研究は,PCAの計算に係わる微妙さの包括的理解と認識の重要性を強調した。 このように,本論文は,この基礎的統計手法の微妙な理解に重要な貢献をし,統計学の分野における学術文献の付加価値として評価されている。

The research detailed in this paper scrutinizes Principal Component Analysis (PCA), a seminal method employed in statistics and machine learning for the purpose of reducing data dimensionality. Singular Value Decomposition (SVD) is often employed as the primary means for computing PCA, a process that indispensably includes the step of centering - the subtraction of the mean location from the data set. In our study, we delve into a detailed exploration of the influence of this critical yet often ignored or downplayed data centering step. Our research meticulously investigates the conditions under which two PCA embeddings, one derived from SVD with centering and the other without, can be viewed as aligned. As part of this exploration, we analyze the relationship between the first singular vector and the mean direction, subsequently linking this observation to the congruity between two SVDs of centered and uncentered matrices. Furthermore, we explore the potential implications arising from the absence of centering in the context of performing PCA via SVD from a spectral analysis standpoint. Our investigation emphasizes the importance of a comprehensive understanding and acknowledgment of the subtleties involved in the computation of PCA. As such, we believe this paper offers a crucial contribution to the nuanced understanding of this foundational statistical method and stands as a valuable addition to the academic literature in the field of statistics.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-01
# AntGPT:大規模言語モデルはビデオからの長期的な行動予測に役立つか?

AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos? ( http://arxiv.org/abs/2307.16368v3 )

ライセンス: Link先を確認
Qi Zhao, Shijie Wang, Ce Zhang, Changcheng Fu, Minh Quan Do, Nakul Agarwal, Kwonjoon Lee, Chen Sun, (参考訳) 現在のアクション(卵のひび割れ)の後、よく起こることを知ることで、俳優の将来の行動(卵を混ぜる)を予測できるだろうか? 長期的目標(卵焼きなど)も知っているとしたらどうでしょう? 長期的行動予測(LTA)タスクは,映像観察から動詞と名詞のシーケンスの形式での行動を予測することを目的としており,人間と機械の相互作用に不可欠である。 本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。 我々は,手順テキストデータ(例えばレシピ,ハウツー)に基づいて事前訓練された大規模言語モデル (LLM) が,両視点からLTAを支援する可能性を持っていると仮定する。 これは、考えられる次のアクションに関する事前の知識を提供するのに役立ち、それぞれの手順の観察された部分から目標を推測するのに役立つ。 LLMを活用するために,我々は2段階のフレームワークAntGPTを提案する。 まず、観察されたビデオで既に実行されたアクションを認識し、LLMに条件付き生成を介して将来のアクションを予測するか、あるいはチェーン・オブ・シンセサイティングによってゴールを推測し、手順全体を計画するように要求する。 Ego4D LTA v1 と v2 ベンチマーク EPIC-Kitchens-55 と EGTEA GAZE+ の実証実験により,提案手法の有効性が示された。 AntGPTは上記のすべてのベンチマークで最先端のパフォーマンスを達成し、目標を推測し、質的な分析を通じてゴール条件付き"数値"予測を行う。 コードとモデルはhttps://brown-palm.github.io/AntGPTでリリースされる

Can we better anticipate an actor's future actions (e.g. mix eggs) by knowing what commonly happens after his/her current action (e.g. crack eggs)? What if we also know the longer-term goal of the actor (e.g. making egg fried rice)? The long-term action anticipation (LTA) task aims to predict an actor's future behavior from video observations in the form of verb and noun sequences, and it is crucial for human-machine interaction. We propose to formulate the LTA task from two perspectives: a bottom-up approach that predicts the next actions autoregressively by modeling temporal dynamics; and a top-down approach that infers the goal of the actor and plans the needed procedure to accomplish the goal. We hypothesize that large language models (LLMs), which have been pretrained on procedure text data (e.g. recipes, how-tos), have the potential to help LTA from both perspectives. It can help provide the prior knowledge on the possible next actions, and infer the goal given the observed part of a procedure, respectively. To leverage the LLMs, we propose a two-stage framework, AntGPT. It first recognizes the actions already performed in the observed videos and then asks an LLM to predict the future actions via conditioned generation, or to infer the goal and plan the whole procedure by chain-of-thought prompting. Empirical results on the Ego4D LTA v1 and v2 benchmarks, EPIC-Kitchens-55, as well as EGTEA GAZE+ demonstrate the effectiveness of our proposed approach. AntGPT achieves state-of-the-art performance on all above benchmarks, and can successfully infer the goal and thus perform goal-conditioned "counterfactual" prediction via qualitative analysis. Code and model will be released at https://brown-palm.github.io/AntGPT
翻訳日:2024-04-04 13:22:09 公開日:2024-04-01
# NeRT:一般教師なし乱流緩和のための暗黙的ニューラル表現

NeRT: Implicit Neural Representations for General Unsupervised Turbulence Mitigation ( http://arxiv.org/abs/2308.00622v2 )

ライセンス: Link先を確認
Weiyun Jiang, Yuhao Liu, Vivek Boominathan, Ashok Veeraraghavan, (参考訳) 大気と水の乱気流の緩和問題は、コンピュータビジョンと光学のコミュニティにおける長年の逆問題として現れてきた。 しかし、現在の手法はトレーニングデータセットの品質に大きく依存するか、静的シーン、動的シーン、テキスト再構成など、さまざまなシナリオを一般化できないかのいずれかである。 大気・水乱流緩和(NeRT)のための一般暗黙的ニューラル表現を提案する。 NeRTは暗黙の神経表現と物理的に正しい傾きと青の乱流モデルを活用して、何十もの歪んだ入力画像しか持たないクリーンで歪みのないイメージを再構成する。 さらに,NeRTは大気および水乱流データセットの質的,定量的な評価を通じて,最先端技術よりも優れていることを示す。 さらに,実環境から制御不能な乱流を除去するNeRTの能力を実証した。 最後に、NeRTを連続的にキャプチャしたビデオシーケンスに組み込んで、48 \times$ speedupを実証します。

The atmospheric and water turbulence mitigation problems have emerged as challenging inverse problems in computer vision and optics communities over the years. However, current methods either rely heavily on the quality of the training dataset or fail to generalize over various scenarios, such as static scenes, dynamic scenes, and text reconstructions. We propose a general implicit neural representation for unsupervised atmospheric and water turbulence mitigation (NeRT). NeRT leverages the implicit neural representations and the physically correct tilt-then-blur turbulence model to reconstruct the clean, undistorted image, given only dozens of distorted input images. Moreover, we show that NeRT outperforms the state-of-the-art through various qualitative and quantitative evaluations of atmospheric and water turbulence datasets. Furthermore, we demonstrate the ability of NeRT to eliminate uncontrolled turbulence from real-world environments. Lastly, we incorporate NeRT into continuously captured video sequences and demonstrate $48 \times$ speedup.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-01
# XSTest:大規模言語モデルにおける過大な安全行動を特定するテストスイート

XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models ( http://arxiv.org/abs/2308.01263v3 )

ライセンス: Link先を確認
Paul Röttger, Hannah Rose Kirk, Bertie Vidgen, Giuseppe Attanasio, Federico Bianchi, Dirk Hovy, (参考訳) 適切な保護がなければ、大きな言語モデルは容易に悪意のある命令に従い、有害なコンテンツを生成する。 このリスクは、レッドチームや大規模なフィードバック学習のような安全性の努力を動機付け、モデルに無害と無害の両方を持たせることを目的としている。 しかし、この2つの目的の間には緊張関係がある、なぜなら無害性はモデルが安全でないプロンプトに従わないことを要求するため、役に立たないからである。 最近の逸話的証拠は、いくつかのモデルではバランスが悪く、安全でないプロンプトに類似の言語を使用したり、センシティブなトピックに言及した場合、明確な安全プロンプトが拒否される可能性があることを示唆している。 本稿では,これらeXaggerated Safetyの振る舞いを系統的に識別する,XSTestと呼ばれる新しいテストスイートを提案する。 XSTestは、10種類のプロンプトに対して250の安全プロンプトで構成されており、よく校正されたモデルでは従わないべきであり、200の安全でないプロンプトは、ほとんどのアプリケーションでは、モデルでは拒否すべきである。 我々は、XSTestの作成と構成を説明し、それからテストスイートを使用して、最先端の言語モデルにおけるシステマティックな障害モードと、より安全な言語モデルを構築する際のより一般的な課題を強調します。

Without proper safeguards, large language models will readily follow malicious instructions and generate toxic content. This risk motivates safety efforts such as red-teaming and large-scale feedback learning, which aim to make models both helpful and harmless. However, there is a tension between these two objectives, since harmlessness requires models to refuse to comply with unsafe prompts, and thus not be helpful. Recent anecdotal evidence suggests that some models may have struck a poor balance, so that even clearly safe prompts are refused if they use similar language to unsafe prompts or mention sensitive topics. In this paper, we introduce a new test suite called XSTest to identify such eXaggerated Safety behaviours in a systematic way. XSTest comprises 250 safe prompts across ten prompt types that well-calibrated models should not refuse to comply with, and 200 unsafe prompts as contrasts that models, for most applications, should refuse. We describe XSTest's creation and composition, and then use the test suite to highlight systematic failure modes in state-of-the-art language models as well as more general challenges in building safer language models.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-01
# 障害は化学動力学における集団ポラリトニック効果を抑制する

Disorder Suppresses Collective Polaritonic Effects on Chemical Dynamics ( http://arxiv.org/abs/2308.03954v3 )

ライセンス: Link先を確認
Juan B. Pérez-Sánchez, Federico Mellini, Noel C. Giebink, Joel Yuen-Zhou, (参考訳) タンニン化方程式 (d-CUT-E) を用いて, 分子偏光子の超高速量子力学をシミュレートする強力な形式論, 乱れた集合力学, 乱れた集合力学, 乱れた集合力学, 乱れた集合力学を, 空洞モードに結合する。 注目すべきは、このダイナミクスを、$\sim N_{bins}$電子状態を持つ単一の \textit{ Effective} 分子を包含する空洞で捉えることができ、そこで、$N_{bins}\ll N$は障害分布を識別するビンの数である。 d-CUT-Eを用いて、線形光学スペクトルから評価される強い結合は、偏光子化学の指標として不十分である。 高度に乱れたアンサンブルでは、ブロードバンド励起による総反応生成はキャビティの外と同一であるが、狭帯域励起は反応前に準備された初期状態の違いによってのみ異なる反応生成を生成する。

We present a powerful formalism, disordered collective dynamics using truncated equations (d-CUT-E), to simulate the ultrafast quantum dynamics of molecular polaritons in the collective strong coupling regime, where a disordered ensemble of $N\gg10^{6}$ molecules couples to a cavity mode. Notably, we can capture this dynamics with a cavity hosting a single \textit{effective} molecule with $\sim N_{bins}$ electronic states, where $N_{bins}\ll N$ is the number of bins discretizing the disorder distribution. Using d-CUT-E we conclude that strong coupling, as evaluated from linear optical spectra, can be a poor proxy for polariton chemistry. For highly disordered ensembles, total reaction yield upon broadband excitation is identical to that outside of the cavity, while narrowband excitation produces distinct reaction yields solely due to differences in the initial states prepared prior to the reaction.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-01
# CiFHER: 小型化可能なチップレット型FHE加速器

CiFHER: A Chiplet-Based FHE Accelerator with a Resizable Structure ( http://arxiv.org/abs/2308.04890v3 )

ライセンス: Link先を確認
Sangpyo Kim, Jongmin Kim, Jaeyoung Choi, Jung Ho Ahn, (参考訳) 完全同型暗号化(FHE)は、プライバシの決定的な解決策として注目されているが、FHEの高い計算オーバーヘッドは、その実用化に挑戦している。 以前の研究では、オーバーヘッドを軽減するためにASICアクセラレーターを設計しようとしたが、その設計にはFHE操作のために大量のデータを格納し処理するために過剰なチップリソース(例えば領域)が必要である。 コスト効率のよいマルチチップモジュール(MCM)設計の課題に対処するため,チップレットベースのFHEアクセラレータであるCiFHERを提案する。 まず,チップレットのグローバルな構成や設計制約に適合するように構成を調整可能なフレキシブルなコアアーキテクチャを考案する。 その特徴的な特徴は、FHEの最も支配的な関数である数理論変換の計算スループットが変化する構成可能な機能ユニットである。 そこで我々は,MCMパッケージにチップを配置する際の相互接続オーバーヘッドを最小限に抑えるため,汎用データマッピング手法を確立した。 本研究は,多数のコンパクトチップレットからなるCiFHERパッケージが,パッケージ全体の消費電力と製造コストを大幅に削減しつつ,最先端のモノリシックASICアクセラレータに匹敵する性能を提供することを示した。

Fully homomorphic encryption (FHE) is in the spotlight as a definitive solution for privacy, but the high computational overhead of FHE poses a challenge to its practical adoption. Although prior studies have attempted to design ASIC accelerators to mitigate the overhead, their designs require excessive chip resources (e.g., areas) to contain and process massive data for FHE operations. We propose CiFHER, a chiplet-based FHE accelerator with a resizable structure, to tackle the challenge with a cost-effective multi-chip module (MCM) design. First, we devise a flexible core architecture whose configuration is adjustable to conform to the global organization of chiplets and design constraints. Its distinctive feature is a composable functional unit providing varying computational throughput for the number-theoretic transform, the most dominant function in FHE. Then, we establish generalized data mapping methodologies to minimize the interconnect overhead when organizing the chips into the MCM package in a tiled manner, which becomes a significant bottleneck due to the packaging constraints. This study demonstrates that a CiFHER package composed of a number of compact chiplets provides performance comparable to state-of-the-art monolithic ASIC accelerators while significantly reducing the package-wide power consumption and manufacturing cost.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-01
# マルチモダリティセルセグメンテーションチャレンジ:ユニバーサルソリューションを目指して

The Multi-modality Cell Segmentation Challenge: Towards Universal Solutions ( http://arxiv.org/abs/2308.05864v2 )

ライセンス: Link先を確認
Jun Ma, Ronald Xie, Shamini Ayyadhury, Cheng Ge, Anubha Gupta, Ritu Gupta, Song Gu, Yao Zhang, Gihun Lee, Joonkee Kim, Wei Lou, Haofeng Li, Eric Upschulte, Timo Dickscheid, José Guilherme de Almeida, Yixin Wang, Lin Han, Xin Yang, Marco Labagnara, Vojislav Gligorovski, Maxime Scheder, Sahand Jamal Rahi, Carly Kempster, Alice Pollitt, Leon Espinosa, Tâm Mignot, Jan Moritz Middeke, Jan-Niklas Eckardt, Wangkai Li, Zhaoyang Li, Xiaochen Cai, Bizhe Bai, Noah F. Greenwald, David Van Valen, Erin Weisbart, Beth A. Cimini, Trevor Cheung, Oscar Brück, Gary D. Bader, Bo Wang, (参考訳) 細胞セグメンテーションは、顕微鏡画像における定量的単一細胞解析の重要なステップである。 既存の細胞セグメンテーション法は、しばしば特定のモダリティに合わせて調整されるか、または異なる実験環境でハイパーパラメータを指定するために手動で介入する必要がある。 本稿では,50以上の生物実験から得られた1500以上のラベル付き画像からなる多モード細胞セグメンテーションベンチマークを提案する。 トップの参加者は、トランスフォーマーベースのディープラーニングアルゴリズムを開発し、既存の手法を超えるだけでなく、画像プラットフォームや組織タイプにわたる多様な顕微鏡画像にも手動パラメータ調整なしで適用することができる。 このベンチマークと改良されたアルゴリズムは、顕微鏡画像におけるより正確で多用途な細胞解析のための有望な道を提供する。

Cell segmentation is a critical step for quantitative single-cell analysis in microscopy images. Existing cell segmentation methods are often tailored to specific modalities or require manual interventions to specify hyper-parameters in different experimental settings. Here, we present a multi-modality cell segmentation benchmark, comprising over 1500 labeled images derived from more than 50 diverse biological experiments. The top participants developed a Transformer-based deep-learning algorithm that not only exceeds existing methods but can also be applied to diverse microscopy images across imaging platforms and tissue types without manual parameter adjustments. This benchmark and the improved algorithm offer promising avenues for more accurate and versatile cell analysis in microscopy imaging.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-01
# RAVEN:Retrieval-Augmented Encoder-Decoder言語モデルによるインコンテキスト学習

RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models ( http://arxiv.org/abs/2308.07922v2 )

ライセンス: Link先を確認
Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro, (参考訳) 本稿では,検索強化エンコーダ・デコーダ言語モデルのコンテキスト内学習能力について検討する。 まず,事前学習と推論のミスマッチや制限された文脈長により,既存のモデルの包括的分析を行い,文脈内学習におけるそれらの限界を識別する。 これらの問題に対処するために,検索強化されたマスキング言語モデリングとプレフィックス言語モデリングを組み合わせたモデルであるRAVENを提案する。 我々はさらにFusion-in-Context Learningを導入し、追加のトレーニングを必要とせずに、モデルがより多くのコンテキスト内サンプルを活用できるようにすることで、数ショットのパフォーマンスを向上させる。 大規模な実験を通じて、パラメータが大幅に少ないにもかかわらず、我々の単純で効果的な設計は、特定のシナリオにおいて最も先進的な言語モデルに匹敵する結果が得られることを実証した。 本研究は,テキスト内学習のための検索強化エンコーダデコーダ言語モデルの可能性を強調し,さらなる研究を奨励するものである。

In this paper, we investigate the in-context learning ability of retrieval-augmented encoder-decoder language models. We first conduct a comprehensive analysis of existing models and identify their limitations in in-context learning, primarily due to a mismatch between pretraining and inference, as well as a restricted context length. To address these issues, we propose RAVEN, a model that combines retrieval-augmented masked language modeling and prefix language modeling. We further introduce Fusion-in-Context Learning to enhance the few-shot performance by enabling the model to leverage more in-context examples without requiring additional training. Through extensive experiments, we demonstrate that our simple yet effective design significantly improves performance, achieving results comparable to the most advanced language models in certain scenarios, despite having substantially fewer parameters. Our work underscores the potential of retrieval-augmented encoder-decoder language models for in-context learning and encourages further research in this direction.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-01
# マルチホップ質問応答のためのエンド・ツー・エンドビーム検索

End-to-End Beam Retrieval for Multi-Hop Question Answering ( http://arxiv.org/abs/2308.08973v2 )

ライセンス: Link先を確認
Jiahao Zhang, Haiyang Zhang, Dongmei Zhang, Yong Liu, Shen Huang, (参考訳) マルチホップ質問応答(Multi-hop question answering, QA)は、複数の関連するパスを見つけ出し、複雑な質問に答えるためにステップバイステップの推論を行い、検索と読み取りのパラダイムを示す。 しかし、以前のリトリーバーは2ホップの質問のためにカスタマイズされ、そのほとんどは異なるホップで個別に訓練され、その結果、マルチホップの検索プロセス全体に対する監督が欠如し、2ホップを超えた複雑なシナリオでのパフォーマンスが低下した。 本稿では,マルチホップQAのためのエンドツーエンドのビーム検索フレームワークであるビーム検索について紹介する。 このアプローチは、エンコーダと2つの分類ヘッドを全てのホップに対して共同最適化することにより、エンドツーエンドでマルチホップ検索プロセスをモデル化する。 さらに、ビーム検索は、各ステップで関連する通路の複数の部分仮説を維持し、探索空間を拡大し、関連する経路の欠落のリスクを低減する。 完全QAシステムを構築するために,教師付きリーダや大規模言語モデル(LLM)を組み込んだ。 実験の結果、Beam Retrievalは挑戦するMuSiQue-Ansのベースラインに比べて50%近く改善され、2WikiMultiHopQAで99.9%の精度を達成した。 Beam Retrievalは高品質なコンテキストを提供することで、教師付きリーダが新しい最先端のパフォーマンスを実現し、LLMの少数ショットQAパフォーマンスを大幅に改善する。

Multi-hop question answering (QA) involves finding multiple relevant passages and step-by-step reasoning to answer complex questions, indicating a retrieve-and-read paradigm. However, previous retrievers were customized for two-hop questions, and most of them were trained separately across different hops, resulting in a lack of supervision over the entire multi-hop retrieval process and leading to poor performance in complicated scenarios beyond two hops. In this work, we introduce Beam Retrieval, an end-to-end beam retrieval framework for multi-hop QA. This approach models the multi-hop retrieval process in an end-to-end manner by jointly optimizing an encoder and two classification heads across all hops. Moreover, Beam Retrieval maintains multiple partial hypotheses of relevant passages at each step, expanding the search space and reducing the risk of missing relevant passages. To establish a complete QA system, we incorporate a supervised reader or a large language model (LLM). Experimental results demonstrate that Beam Retrieval achieves a nearly 50% improvement compared with baselines on challenging MuSiQue-Ans, and it also surpasses all previous retrievers on HotpotQA and achieves 99.9% precision on 2WikiMultiHopQA. Providing high-quality context, Beam Retrieval helps our supervised reader achieve new state-of-the-art performance and substantially improves the few-shot QA performance of LLMs.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-01
# 言語モデルの効率的なベンチマーク

Efficient Benchmarking of Language Models ( http://arxiv.org/abs/2308.11696v5 )

ライセンス: Link先を確認
Yotam Perlitz, Elron Bandel, Ariel Gera, Ofir Arviv, Liat Ein-Dor, Eyal Shnarch, Noam Slonim, Michal Shmueli-Scheuer, Leshem Choshen, (参考訳) 言語モデル(LM)の汎用性の向上により、幅広い能力を包括的に評価する新しいクラスのベンチマークが生まれました。 このようなベンチマークは、巨大な計算コストと関連付けられ、モデル毎に数千のGPU時間に拡張される。 しかし、これらの評価努力の効率性は文献ではほとんど議論を呼ばなかった。 本稿では、信頼性を損なうことなく、LM評価の計算コストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。 HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。 本稿では,信頼度に対する決定的影響,略してDIoRを用いて,そのような決定の信頼性を評価することを提案する。 例えば、ベンチマークリーダーは、単にベンチマークから低ランクのモデルを取り除くだけで変化し、評価例のごく一部だけを考慮することで、正しいベンチマークランキングを得ることができることを観察する。 この結果をもとに,効率的なベンチマーク設計と活用プラクティスのための具体的な推奨事項を概説した。 HELMベンチマークに適用すると、ベンチマークの信頼性を損なうことなく劇的にコストを削減し、x100以上の計算を削減できるような評価アルゴリズムを提案する。

The increasing versatility of language models (LMs) has given rise to a new class of benchmarks that comprehensively assess a broad range of capabilities. Such benchmarks are associated with massive computational costs, extending to thousands of GPU hours per model. However, the efficiency aspect of these evaluation efforts had raised little discussion in the literature. In this work, we present the problem of Efficient Benchmarking, namely, intelligently reducing the computation costs of LM evaluation without compromising reliability. Using the HELM benchmark as a test case, we investigate how different benchmark design choices affect the computation-reliability trade-off. We propose to evaluate the reliability of such decisions, by using a new measure -- Decision Impact on Reliability, DIoR for short. We find, for example, that a benchmark leader may change by merely removing a low-ranked model from the benchmark, and observe that a correct benchmark ranking can be obtained by considering only a fraction of the evaluation examples. Based on our findings, we outline a set of concrete recommendations for efficient benchmark design and utilization practices. To take a step further, we use our findings to propose an evaluation algorithm, that, when applied to the HELM benchmark, leads to dramatic cost savings with minimal loss of benchmark reliability, often reducing computation by x100 or more.
翻訳日:2024-04-04 13:22:09 公開日:2024-04-01
# プレコンディショナーによる注意カーネル回帰問題の解法

Solving Attention Kernel Regression Problem via Pre-conditioner ( http://arxiv.org/abs/2308.14304v2 )

ライセンス: Link先を確認
Zhao Song, Junze Yin, Lichen Zhang, (参考訳) 注意機構は大規模言語モデルの鍵であり、注意行列はそのようなスキームのアルゴリズム的および計算的ボトルネックとして機能する。 本稿では,注目行列のプロキシに高速なアルゴリズムを設計し,それに対する回帰を解くことによる2つの問題を定義する。 入力行列 $A\in \mathbb{R}^{n\times d}$ と $n\gg d$ と応答ベクトル $b$ が与えられたとき、まず行列 $A^\top A$ の行列指数をプロキシとして考え、次に2種類の回帰問題に対するアルゴリズムを設計する: $\min_{x\in \mathbb{R}^d|(A^\top A)^jx-b\|_2$ と $\min_{x\in \mathbb{R}^d|A(A^\top A)^jx-b\|_2$ である。 これらの回帰のアルゴリズムの研究は、行列指数がこれらのより小さな問題を通して長期的に近似できるため、不可欠である。 第2のプロキシは、指数関数的にグラム行列に適用し、$\exp(AA^\top)$で表され、回帰$\min_{x\in \mathbb{R}^n}\|\exp(AA^\top)x-b \|_2$を解く。 我々はこの問題を注目カーネル回帰問題と呼び、行列 $\exp(AA^\top)$ は$A$ に関してカーネル関数と見なすことができる。 スケッチとプレコンディショニングに基づいて,これらの回帰問題に対する高速アルゴリズムを設計する。 これらの取り組みが、注意行列の効率的な近似を研究するための代替的な視点を提供することを期待している。

The attention mechanism is the key to large language models, and the attention matrix serves as an algorithmic and computational bottleneck for such a scheme. In this paper, we define two problems, motivated by designing fast algorithms for proxy of attention matrix and solving regressions against them. Given an input matrix $A\in \mathbb{R}^{n\times d}$ with $n\gg d$ and a response vector $b$, we first consider the matrix exponential of the matrix $A^\top A$ as a proxy, and we in turn design algorithms for two types of regression problems: $\min_{x\in \mathbb{R}^d}\|(A^\top A)^jx-b\|_2$ and $\min_{x\in \mathbb{R}^d}\|A(A^\top A)^jx-b\|_2$ for any positive integer $j$. Studying algorithms for these regressions is essential, as matrix exponential can be approximated term-by-term via these smaller problems. The second proxy is applying exponential entrywise to the Gram matrix, denoted by $\exp(AA^\top)$ and solving the regression $\min_{x\in \mathbb{R}^n}\|\exp(AA^\top)x-b \|_2$. We call this problem the attention kernel regression problem, as the matrix $\exp(AA^\top)$ could be viewed as a kernel function with respect to $A$. We design fast algorithms for these regression problems, based on sketching and preconditioning. We hope these efforts will provide an alternative perspective of studying efficient approximation of attention matrices.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-01
# 領域一般化のための多層・多層コントラスト学習

Multiscale and Multilayer Contrastive Learning for Domain Generalization ( http://arxiv.org/abs/2308.14418v4 )

ライセンス: Link先を確認
Aristotelis Ballas, Christos Diou, (参考訳) 過去10年間、ディープニューラルネットワークは、学界と産業の両方において、コンピュータビジョンの問題において、急速な進歩と重要な成果をもたらしてきた。 しかし、その成功にもかかわらず、最先端の画像分類アプローチは、多くの現実世界のアプリケーションで要求されるように、これまで見えなかった視覚的コンテキストにおいて、うまく一般化できない。 本稿では,この領域一般化(DG)問題に着目し,ネットワークの多層およびマルチスケール表現を活用することにより,深層畳み込みニューラルネットワークの一般化能力を向上させることができると論じる。 本稿では,低レベルの特徴と高レベルの特徴を複数スケールで組み合わせることで,画像分類器の領域一般化の実現を目的としたフレームワークを提案する。 さらに,ロバストな表現学習をさらに促進するために,抽出した表現を分散シフトの下で不変のままに抑えることを目的とした,コントラスト学習にインスパイアされた新たな目的関数を提案する。 PACS, VLCS, Office-Home, NICOの領域一般化データセットを用いて, 本手法の有効性を実証する。 広範な実験を通して、我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。

During the past decade, deep neural networks have led to fast-paced progress and significant achievements in computer vision problems, for both academia and industry. Yet despite their success, state-of-the-art image classification approaches fail to generalize well in previously unseen visual contexts, as required by many real-world applications. In this paper, we focus on this domain generalization (DG) problem and argue that the generalization ability of deep convolutional neural networks can be improved by taking advantage of multi-layer and multi-scaled representations of the network. We introduce a framework that aims at improving domain generalization of image classifiers by combining both low-level and high-level features at multiple scales, enabling the network to implicitly disentangle representations in its latent space and learn domain-invariant attributes of the depicted objects. Additionally, to further facilitate robust representation learning, we propose a novel objective function, inspired by contrastive learning, which aims at constraining the extracted representations to remain invariant under distribution shifts. We demonstrate the effectiveness of our method by evaluating on the domain generalization datasets of PACS, VLCS, Office-Home and NICO. Through extensive experimentation, we show that our model is able to surpass the performance of previous DG methods and consistently produce competitive and state-of-the-art results in all datasets
翻訳日:2024-04-04 13:12:17 公開日:2024-04-01
# CityDreamer: 無制限3次元都市の構成生成モデル

CityDreamer: Compositional Generative Model of Unbounded 3D Cities ( http://arxiv.org/abs/2309.00610v2 )

ライセンス: Link先を確認
Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu, (参考訳) 人間は都市環境の構造的な歪みに敏感だから。 さらに、3D都市は、同じクラスのオブジェクトとして、自然のシーンで木のようなオブジェクトが比較的一貫して現れるのに比べ、より広い範囲の外観を示すため、3Dの自然のシーンよりも複雑である。 これらの課題に対処するため,本稿では,非有界な3D都市に特化して設計された合成モデルである「textbf{CityDreamer}」を提案する。 私たちの重要な洞察は、3D都市生成は異なるタイプの神経磁場の合成であるべきだということです。 1) 各種建築事例 2)道路や緑地などの背景物。 具体的には、鳥の視線シーン表現を採用し、インスタンス指向と物指向のニューラルフィールドの両方にボリュームレンダリングを用いる。 生成ハッシュグリッドと周期的な位置埋め込みはシーンパラメータ化として調整され、ビルディングインスタンスと背景物の異なる特徴に適合する。 さらに,OSMやGoogleEarthなどのCityGenデータセットのスイートも提供しています。 CityDreamerは、現実的な3D都市を生成するだけでなく、生成された都市内の局所的な編集でも、最先端のパフォーマンスを実現している。

3D city generation is a desirable yet challenging task, since humans are more sensitive to structural distortions in urban environments. Additionally, generating 3D cities is more complex than 3D natural scenes since buildings, as objects of the same class, exhibit a wider range of appearances compared to the relatively consistent appearance of objects like trees in natural scenes. To address these challenges, we propose \textbf{CityDreamer}, a compositional generative model designed specifically for unbounded 3D cities. Our key insight is that 3D city generation should be a composition of different types of neural fields: 1) various building instances, and 2) background stuff, such as roads and green lands. Specifically, we adopt the bird's eye view scene representation and employ a volumetric render for both instance-oriented and stuff-oriented neural fields. The generative hash grid and periodic positional embedding are tailored as scene parameterization to suit the distinct characteristics of building instances and background stuff. Furthermore, we contribute a suite of CityGen Datasets, including OSM and GoogleEarth, which comprises a vast amount of real-world city imagery to enhance the realism of the generated 3D cities both in their layouts and appearances. CityDreamer achieves state-of-the-art performance not only in generating realistic 3D cities but also in localized editing within the generated cities.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-01
# 遺伝子セット関数の発見のための大規模言語モデルの評価

Evaluation of large language models for discovery of gene set function ( http://arxiv.org/abs/2309.04019v2 )

ライセンス: Link先を確認
Mengzhou Hu, Sahar Alkhairy, Ingoo Lee, Rudolf T. Pillich, Dylan Fong, Kevin Smith, Robin Bachelder, Trey Ideker, Dexter Pratt, (参考訳) 遺伝子セット解析は機能ゲノミクスのメインステイであるが、不完全である遺伝子の関数のキュレートされたデータベースに依存している。 ここでは,5つの大規模言語モデル(LLM)を,遺伝子セットで表される共通生物学的機能を発見する能力として評価する。 遺伝子オントロジーの標準遺伝子セットに対するベンチマークでは、GPT-4は、キュレートされた名前またはより一般的な概念を確実に回収し(73%)、ランダムな遺伝子セットに対するベンチマークは、正しくゼロ信頼を得た。 Gemini-Pro と Mixtral-Instruct は命名能力を示したが、Llama2-70b は性能が低かった。 オミクスデータから得られた遺伝子セットでは、GPT-4は古典的機能強化(32%)によって報告されていない新規機能を同定した。 共通遺伝子機能を迅速に合成する能力は、LSMを貴重な「オミクスアシスタント」として位置づける。

Gene set analysis is a mainstay of functional genomics, but it relies on curated databases of gene functions that are incomplete. Here we evaluate five Large Language Models (LLMs) for their ability to discover the common biological functions represented by a gene set, substantiated by supporting rationale, citations and a confidence assessment. Benchmarking against canonical gene sets from the Gene Ontology, GPT-4 confidently recovered the curated name or a more general concept (73% of cases), while benchmarking against random gene sets correctly yielded zero confidence. Gemini-Pro and Mixtral-Instruct showed ability in naming but were falsely confident for random sets, whereas Llama2-70b had poor performance overall. In gene sets derived from 'omics data, GPT-4 identified novel functions not reported by classical functional enrichment (32% of cases), which independent review indicated were largely verifiable and not hallucinations. The ability to rapidly synthesize common gene functions positions LLMs as valuable 'omics assistants.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-01
# 光子対源の光子数分布と微分特性の推定

Estimation of photon number distribution and derivative characteristics of photon-pair sources ( http://arxiv.org/abs/2309.04217v2 )

ライセンス: Link先を確認
Sang Min Lee, (参考訳) 光子ペア源の評価には、光子ペア発生率、発散効率、二階相関関数などの特性指標を用い、これらすべてが光源の光子数分布によって決定される。 しかし、光子数分布は、スペクトルまたは空間フィルタリングと光学的損失により変化し、上記の特性が変化する。 本稿では,光子数分布と関連する特性に対する異なるフィルタ,損失,ノイズ数の影響を理論的に記述する。 理論的記述から、結合スペクトル密度の有効モード数の解析式も導出する。 光子数分布と特性を推定する従来の方法と比較して、光子数分布を推定する適切な精度の指標とともに、光子対情報源に焦点を当てた改良手法が導入された。 推定された(または再構成された)光子数分布から算出した特性の精度について,繰り返しシミュレーションと自己ストラップ実験データを用いて検討した。

The evaluation of a photon-pair source employs characteristic metrics like the photon-pair generation rate, heralding efficiency, and second-order correlation function, all of which are determined by the photon number distribution of the source. The photon number distribution, however, can be altered due to spectral or spatial filtering and optical losses, leading to changes in the above characteristics. In this paper, we theoretically describe the effects of different filterings, losses, and noise counts on the photon number distribution and related characteristics. From the theoretical description, an analytic expression for the effective mode number of the joint spectral density is also derived. Compared with previous methods for estimating the photon number distribution and characteristics, an improved methodology is introduced along with a suitable metric of accuracy for estimating the photon number distribution, focusing on photon-pair sources. We discuss the accuracy of the calculated characteristics from the estimated (or reconstructed) photon number distribution through repeated simulations and bootstrapped experimental data.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-01
# 多言語基盤モデルのためのSeaEval:言語横断的アライメントから文化的推論へ

SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning ( http://arxiv.org/abs/2309.04766v4 )

ライセンス: Link先を確認
Bin Wang, Zhengyuan Liu, Xin Huang, Fangkai Jiao, Yang Ding, AiTi Aw, Nancy F. Chen, (参考訳) マルチ言語基盤モデルのベンチマークであるSeaEvalを紹介する。 これらのモデルがどのように自然言語を理解・理性的に理解しているかを特徴づけるだけでなく、文化の実践やニュアンス、価値観をいかによく理解しているかも調べる。 標準的な精度指標とともに,意味論と多言語性の次元における基礎モデルの脆さについて検討する。 我々の分析は、オープンソースのモデルとクローズドモデルの両方にまたがっており、古典的なNLPタスク、推論、文化的理解に経験的な結果をもたらす。 主要な知見は,(1)言い換え指示が与えられた場合,ほとんどのモデルは様々な行動を示す。 2) 多くのモデルは露出バイアス(例えば位置バイアス,多数ラベルバイアス)に悩まされている。 (3) 事実,科学的,常識的知識に根ざした質問に対しては,意味論的に等価な多言語クエリに対して一貫した応答が期待できる。 しかし、ほとんどのモデルは、これらのクエリで驚くほど不整合のパフォーマンスを示しています。 (4)多言語学習モデルでは「バランスの取れた多言語」能力は得られていない。 我々の取り組みは、より一般化可能な意味表現と拡張された多言語文脈化の必要性を浮き彫りにしている。 SeaEvalは、多言語および多文化シナリオに対するより徹底的な調査と評価のための発射台として機能する。

We present SeaEval, a benchmark for multilingual foundation models. In addition to characterizing how these models understand and reason with natural language, we also investigate how well they comprehend cultural practices, nuances, and values. Alongside standard accuracy metrics, we investigate the brittleness of foundation models in the dimensions of semantics and multilinguality. Our analyses span both open-sourced and closed models, leading to empirical results across classic NLP tasks, reasoning, and cultural comprehension. Key findings indicate (1) Most models exhibit varied behavior when given paraphrased instructions. (2) Many models still suffer from exposure bias (e.g., positional bias, majority label bias). (3) For questions rooted in factual, scientific, and commonsense knowledge, consistent responses are expected across multilingual queries that are semantically equivalent. Yet, most models surprisingly demonstrate inconsistent performance on these queries. (4) Multilingually-trained models have not attained "balanced multilingual" capabilities. Our endeavors underscore the need for more generalizable semantic representations and enhanced multilingual contextualization. SeaEval can serve as a launchpad for more thorough investigations and evaluations for multilingual and multicultural scenarios.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-01
# 境界ストレージモデルにおける機能暗号化

Functional Encryption in the Bounded Storage Models ( http://arxiv.org/abs/2309.06702v2 )

ライセンス: Link先を確認
Mohammed Barhoush, Louis Salvail, (参考訳) 関数型暗号化は公開鍵暗号の強力なパラダイムであり、暗号化されたデータへの制御されたアクセスを可能にする。 このプリミティブの理想的なシミュレーションベースのセキュリティを実現することは、通常、平易なモデルでは不可能であるため、量子記憶モデル(BQSM)と古典記憶モデル(BCSM)では、それぞれ量子記憶量と古典記憶量に制限がある可能性について検討する。 機能的暗号化における不可能な結果がこれらの設定に当てはまらないため、肯定的な結果が得られる。 まず、BQSMでは、${q}=O(\sqrt{{s}/{r}})$で情報理論に基づくセキュリティを満たす非対話型関数暗号を構築する。 ここで${r}$は、相手がプロトコル内の量子メモリの${s}$-qubitsに制限される回数を表し、${q}$はプロトコルを正直に実行するために必要な量子メモリを表す。 次に、我々のスキームは、${q} < \sqrt{{s}/{r}}$で情報理論上のセキュリティを得ることができないことを証明することで最適であることを示す。 しかし、一方通行関数の存在を仮定することで、${q}=0$ と ${r}=1$ で(相互に)機能的な暗号化を実現する。 第二に、BCSMでは、情報理論に基づく部分指数シミュレーションに基づくセキュリティを満足する非対話型機能暗号を構築し、部分指数灰色の箱難読化の存在を仮定する。 この仮定は、非対話型機能暗号から部分指数灰色の難読化を構築することで最小限であることを示す。 また、グレーボックスの難読化と片道関数を仮定したシミュレーションベースのセキュリティを満たす(対話型)関数暗号の計算設定も検討する。

Functional encryption is a powerful paradigm for public-key encryption that allows for controlled access to encrypted data. Achieving the ideal simulation based security for this primitive is generally impossible in the plain model, so we investigate possibilities in the bounded quantum storage model (BQSM) and the bounded classical storage model (BCSM), where adversaries are limited with respect to their quantum and classical memories, respectively. The impossibility results on functional encryption do not apply to these settings which allows us to obtain positive outcomes. Firstly, in the BQSM, we construct non-interactive functional encryption satisfying information-theoretic simulation based security with ${q}=O(\sqrt{{s}/{r}})$. Here ${r}$ denotes the number of times that an adversary is restricted to ${s}$--qubits of quantum memory in the protocol and ${q}$ denotes the required quantum memory to run the protocol honestly. We then show that our scheme is optimal by proving that it is impossible to attain information-theoretically security with ${q} < \sqrt{{s}/{r}}$. However, by assuming the existence of one-way functions, we achieve (interactive) functional encryption with ${q}=0$ and ${r}=1$. Secondly, in the BCSM, we construct non-interactive functional encryption satisfying information-theoretic subexponential simulation based security assuming the existence of subexponential grey-box obfuscation. We then demonstrate that this assumption is minimal by constructing subexponential grey-box obfuscation from non-interactive functional encryption. We also consider the computational setting, obtaining (interactive) functional encryption satisfying simulation based security assuming grey-box obfuscation and one-way functions.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-01
# 言語間構造抽出のための文脈ラベル投影

Contextual Label Projection for Cross-Lingual Structure Extraction ( http://arxiv.org/abs/2309.08943v2 )

ライセンス: Link先を確認
Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng, (参考訳) ラベルプロジェクションは、翻訳されたラベルとテキストを共同で取得することを伴うが、構造化予測タスクにおける言語間転送を容易にするために機械翻訳を利用するには不可欠である。 ラベルプロジェクションを探索する以前の研究では、単純なラベル翻訳を好むか、単語レベルのアライメントにのみ依存することで、翻訳精度を損なうことが多かった。 本稿では,テキストを対象言語に翻訳し,翻訳したテキストをコンテキストとしてラベルの文脈翻訳を行う新しいラベル投影手法CLaPを提案する。 コンテクストトランスレータとして多言語機能を持つ命令調整型言語モデルを活用し,翻訳されたテキストに翻訳されたラベルが存在することの制約を示唆する。 我々は、イベント引数抽出(EAE)と名前付きエンティティ認識(NER)という2つの代表的な予測タスクにおいて、39言語間のゼロショット・クロスランガル転送に関する他のラベルプロジェクション技術を用いてCLaPをベンチマークし、EAEの2.4F1改善とNERの1.4F1改善を示す。 さらに、超低リソース言語10言語におけるCLaPの適用性について検討し、言語間構造予測の可能性を示す。

Label projection, which involves obtaining translated labels and texts jointly, is essential for leveraging machine translation to facilitate cross-lingual transfer in structured prediction tasks. Prior research exploring label projection often compromise translation accuracy by favoring simplified label translation or relying solely on word-level alignments. In this paper, we introduce a novel label projection approach, CLaP, which translates text to the target language and performs contextual translation on the labels using the translated text as the context, ensuring better accuracy for the translated labels. We leverage instruction-tuned language models with multilingual capabilities as our contextual translator, imposing the constraint of the presence of translated labels in the translated text via instructions. We benchmark CLaP with other label projection techniques on zero-shot cross-lingual transfer across 39 languages on two representative structured prediction tasks - event argument extraction (EAE) and named entity recognition (NER), showing over 2.4 F1 improvement for EAE and 1.4 F1 improvement for NER. We further explore the applicability of CLaP on ten extremely low-resource languages to showcase its potential for cross-lingual structured prediction.
翻訳日:2024-04-04 13:12:17 公開日:2024-04-01
# グラフにおけるコミュニティ検出の概観

A Comprehensive Review of Community Detection in Graphs ( http://arxiv.org/abs/2309.11798v4 )

ライセンス: Link先を確認
Jiakang Li, Songning Lai, Zhihao Shuai, Yuan Tan, Yifan Jia, Mianyang Yu, Zichen Song, Xiaokang Peng, Ziyang Xu, Yongxin Ni, Haifeng Qiu, Jiayu Yang, Yutong Liu, Yonggang Lu, (参考訳) 複雑なネットワークの研究は、実世界のグラフの重要な特徴となるコミュニティ構造の理解を著しく前進させてきた。 グラフ内のコミュニティを検出することは、社会学、生物学、計算機科学の応用において難しい問題である。 学際的な科学者コミュニティの努力にもかかわらず、この問題に対する十分な解決策はまだ得られていない。 この記事では、モジュラリティに基づく手法、スペクトルクラスタリング、確率論的モデリング、ディープラーニングの観点から、様々なコミュニティ検出手法の徹底的な説明として機能するグラフにおけるコミュニティ検出のトピックについて論じる。 また,提案手法とともに,私たちによって設計されたコミュニティ検出手法についても紹介する。 さらに,これらの手法の真理と非真理のデータセット上での性能を比較した。 結論として、この包括的なレビューは、グラフにおけるコミュニティ検出の深い理解を提供する。

The study of complex networks has significantly advanced our understanding of community structures which serves as a crucial feature of real-world graphs. Detecting communities in graphs is a challenging problem with applications in sociology, biology, and computer science. Despite the efforts of an interdisciplinary community of scientists, a satisfactory solution to this problem has not yet been achieved. This review article delves into the topic of community detection in graphs, which serves as a thorough exposition of various community detection methods from perspectives of modularity-based method, spectral clustering, probabilistic modelling, and deep learning. Along with the methods, a new community detection method designed by us is also presented. Additionally, the performance of these methods on the datasets with and without ground truth is compared. In conclusion, this comprehensive review provides a deep understanding of community detection in graphs.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-01
# 羅生門重要度分布:不安定かつ単一モデルに基づく可変値のRID化

The Rashomon Importance Distribution: Getting RID of Unstable, Single Model-based Variable Importance ( http://arxiv.org/abs/2309.13775v4 )

ライセンス: Link先を確認
Jon Donnelly, Srikar Katta, Cynthia Rudin, Edward P. Browne, (参考訳) 多様性の重要性の定量化は、遺伝学、公共政策、医学といった分野における高い評価の疑問に答えるのに不可欠である。 現在の手法は一般に、与えられたデータセットでトレーニングされた与えられたモデルに対する変数の重要度を計算する。 しかし、与えられたデータセットに対して、対象とする結果が等しく説明できるモデルが多数存在するかもしれない。 さらに、与えられたデータセットの可能なすべての説明を考慮に入れたとしても、これらの洞察は一般化しないかもしれない。 本稿では,すべての優れたモデルの集合にまたがる変数の重要性を定量化し,データ分布にまたがって安定な新しい変数重要度フレームワークを提案する。 私たちのフレームワークは非常に柔軟で、既存のモデルクラスやグローバル変数の重要度メトリクスと統合できます。 実験を通じて,本フレームワークは,他の手法が失敗する複雑なシミュレーション設定において,変数の重要度ランキングを復元することを示した。 さらに,本フレームワークは,基礎となるデータ分布に対する変数の真の重要性を正確に推定する。 推定器の整合性および有限サンプル誤差率に関する理論的保証を提供する。 最後に、HIV感染者のHIV負荷を予測するためにどの遺伝子が重要であるかを実世界のケーススタディで検証し、これまで研究されていない重要な遺伝子を強調した。 コードはhttps://github.com/jdonnelly36/Rashomon_Importance_Distributionで公開されている。

Quantifying variable importance is essential for answering high-stakes questions in fields like genetics, public policy, and medicine. Current methods generally calculate variable importance for a given model trained on a given dataset. However, for a given dataset, there may be many models that explain the target outcome equally well; without accounting for all possible explanations, different researchers may arrive at many conflicting yet equally valid conclusions given the same data. Additionally, even when accounting for all possible explanations for a given dataset, these insights may not generalize because not all good explanations are stable across reasonable data perturbations. We propose a new variable importance framework that quantifies the importance of a variable across the set of all good models and is stable across the data distribution. Our framework is extremely flexible and can be integrated with most existing model classes and global variable importance metrics. We demonstrate through experiments that our framework recovers variable importance rankings for complex simulation setups where other methods fail. Further, we show that our framework accurately estimates the true importance of a variable for the underlying data distribution. We provide theoretical guarantees on the consistency and finite sample error rates for our estimator. Finally, we demonstrate its utility with a real-world case study exploring which genes are important for predicting HIV load in persons with HIV, highlighting an important gene that has not previously been studied in connection with HIV. Code is available at https://github.com/jdonnelly36/Rashomon_Importance_Distribution.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-01
# VDC:マルチモーダル大言語モデルによる視覚言語不整合に基づくVersatile Data Cleanser

VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models ( http://arxiv.org/abs/2309.16211v2 )

ライセンス: Link先を確認
Zihao Zhu, Mingda Zhang, Shaokui Wei, Bingzhe Wu, Baoyuan Wu, (参考訳) AIシステム構築におけるデータの役割は、最近、データ中心AIという新たな概念によって強調されている。 残念ながら、現実のデータセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている可能性がある。 このような汚いサンプルが存在するため、DNNは不安定で信頼性が低いため、汚いサンプルを検出してデータセットの品質と現実性を改善することが重要である。 既存の検出器は、他のドメインからの汚れたサンプルを扱う際に、しばしば一般化が弱くなる有毒なサンプルやノイズのあるラベルを検出することのみに焦点をあてており、この論文では、様々な汚れたサンプルの共通性は、画像と関連するラベルとの視覚的言語的不整合である。 画像に対する洞察力のある質問を生成する視覚質問生成モジュールと、MLLMで質問に答えることで視覚内容の意味を習得する視覚質問応答モジュールと、不整合性を評価する視覚回答評価モジュールの3つの連続モジュールから構成される。 コードは \url{https://github.com/zihao-ai/vdc} で公開されている。

The role of data in building AI systems has recently been emphasized by the emerging concept of data-centric AI. Unfortunately, in the real-world, datasets may contain dirty samples, such as poisoned samples from backdoor attack, noisy labels in crowdsourcing, and even hybrids of them. The presence of such dirty samples makes the DNNs vunerable and unreliable.Hence, it is critical to detect dirty samples to improve the quality and realiability of dataset. Existing detectors only focus on detecting poisoned samples or noisy labels, that are often prone to weak generalization when dealing with dirty samples from other domains.In this paper, we find a commonality of various dirty samples is visual-linguistic inconsistency between images and associated labels. To capture the semantic inconsistency between modalities, we propose versatile data cleanser (VDC) leveraging the surpassing capabilities of multimodal large language models (MLLM) in cross-modal alignment and reasoning.It consists of three consecutive modules: the visual question generation module to generate insightful questions about the image; the visual question answering module to acquire the semantics of the visual content by answering the questions with MLLM; followed by the visual answer evaluation module to evaluate the inconsistency.Extensive experiments demonstrate its superior performance and generalization to various categories and types of dirty samples. The code is available at \url{https://github.com/zihao-ai/vdc}.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-01
# LatticeGen: クラウド上のプライバシ認識生成のためのLatticeで生成されたテキストを隠蔽する協調フレームワーク

LatticeGen: A Cooperative Framework which Hides Generated Text in a Lattice for Privacy-Aware Generation on Cloud ( http://arxiv.org/abs/2309.17157v4 )

ライセンス: Link先を確認
Mengke Zhang, Tianxing He, Tianle Wang, Lu Mi, Fatemehsadat Mireshghallah, Binyi Chen, Hao Wang, Yulia Tsvetkov, (参考訳) クラウド上の大規模言語モデル(LLM)で生成を誘導する現在のユーザサーバインタラクションパラダイムでは、サーバが生成プロセスを完全に制御し、生成したテキストを自分自身に保持したいユーザのための選択肢がゼロになる。 我々は,ユーザがサンプリング操作を制御する間,サーバが依然としてほとんどの計算処理を行う協調的なフレームワークであるLatticeGenを提案する。 鍵となる考え方は、真の生成シーケンスがユーザによるノイズトークンと混在し、ノイズ格子に隠されていることである。 疑似悪意のあるサーバからの攻撃の可能性と、ユーザがそれに対して防御できる方法を考慮し、繰り返しビーム探索攻撃と混合ノイズスキームを提案する。 実験では、LatticeGenを使ってプロンプトとジェネレーションの両方を保護します。 ノイズ格子は生成品質を劣化させるが、LatticeGenは強力な攻撃の下で真の世代を顕著に保護する(BERTScoreが測定したように、セマンティックの50%以上が隠されている)。

In the current user-server interaction paradigm of prompted generation with large language models (LLM) on cloud, the server fully controls the generation process, which leaves zero options for users who want to keep the generated text to themselves. We propose LatticeGen, a cooperative framework in which the server still handles most of the computation while the user controls the sampling operation. The key idea is that the true generated sequence is mixed with noise tokens by the user and hidden in a noised lattice. Considering potential attacks from a hypothetically malicious server and how the user can defend against it, we propose the repeated beam-search attack and the mixing noise scheme. In our experiments we apply LatticeGen to protect both prompt and generation. It is shown that while the noised lattice degrades generation quality, LatticeGen successfully protects the true generation to a remarkable degree under strong attacks (more than 50% of the semantic remains hidden as measured by BERTScore).
翻訳日:2024-04-04 13:02:27 公開日:2024-04-01
# 拡散に基づく知覚のためのテキスト画像アライメント

Text-image Alignment for Diffusion-based Perception ( http://arxiv.org/abs/2310.00031v3 )

ライセンス: Link先を確認
Neehar Kondapaneni, Markus Marks, Manuel Knott, Rogerio Guimaraes, Pietro Perona, (参考訳) 拡散モデルは、印象的なテキストと画像の合成機能を備えた生成モデルであり、古典的な機械学習タスクのための新しい創造的な方法の波を刺激してきた。 しかし、これらの生成モデルの知覚的知識を視覚的タスクに活用する最善の方法は、まだ未解決の問題である。 具体的には、視覚タスクに拡散バックボーンを適用する際に、プロンプトインタフェースをどのように使うかは不明確である。 自動生成されたキャプションはテキスト画像のアライメントを改善し、モデルのクロスアテンションマップを大幅に向上させることで、知覚性能が向上することがわかった。 ADE20K上の拡散に基づくセマンティックセマンティックセグメンテーションにおける現在のSOTA(State-of-the-art)と、NYUv2の深さ推定のための現在のSOTAを改良する。 さらに,本手法はクロスドメイン設定に一般化する。 モデルパーソナライゼーションとキャプション修正を使用して、モデルをターゲットドメインに整列させ、不整合ベースラインよりも改善点を見つける。 パスカルVOCで訓練したクロスドメインオブジェクト検出モデルは、水色2K上でSOTA結果を得る。 都市景観を訓練したクロスドメインセグメンテーション手法は,ダークチューリッヒ・ヴァルとナイトタイム・ドライビングのSOTA結果が得られる。 プロジェクトページ: https://www.vision.caltech.edu/tadp/。 コード:https://github.com/damaggu/TADP。

Diffusion models are generative models with impressive text-to-image synthesis capabilities and have spurred a new wave of creative methods for classical machine learning tasks. However, the best way to harness the perceptual knowledge of these generative models for visual tasks is still an open question. Specifically, it is unclear how to use the prompting interface when applying diffusion backbones to vision tasks. We find that automatically generated captions can improve text-image alignment and significantly enhance a model's cross-attention maps, leading to better perceptual performance. Our approach improves upon the current state-of-the-art (SOTA) in diffusion-based semantic segmentation on ADE20K and the current overall SOTA for depth estimation on NYUv2. Furthermore, our method generalizes to the cross-domain setting. We use model personalization and caption modifications to align our model to the target domain and find improvements over unaligned baselines. Our cross-domain object detection model, trained on Pascal VOC, achieves SOTA results on Watercolor2K. Our cross-domain segmentation method, trained on Cityscapes, achieves SOTA results on Dark Zurich-val and Nighttime Driving. Project page: https://www.vision.caltech.edu/tadp/. Code: https://github.com/damaggu/TADP.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-01
# Red Teaming Game: レッドチーム言語モデルのためのゲーム理論フレームワーク

Red Teaming Game: A Game-Theoretic Framework for Red Teaming Language Models ( http://arxiv.org/abs/2310.00322v3 )

ライセンス: Link先を確認
Chengdong Ma, Ziran Yang, Minquan Gao, Hai Ci, Jun Gao, Xuehai Pan, Yaodong Yang, (参考訳) デプロイ可能な大規模言語モデル(LLM)は、有用性と無害性の基準に従わなければならない。 赤いチームのテクニックは、この基準に対する重要な方法です。 既存の作業は、手動のレッドチーム設計と、脆弱性検出と最適化のためのヒューリスティックな対抗策にのみ依存している。 これらの手法は厳密な数学的定式化を欠き、定量化尺度における多様な攻撃戦略の探索と収束保証の下でのLLMの最適化を制限している。 本稿では,手動アノテーションのない一般的なゲーム理論フレームワークであるRed-teaming Game(RTG)を提案する。 RTGは、レッドチーム言語モデル(RLM)とブルーチーム言語モデル(BLM)のマルチターン攻撃と防御相互作用を分析するように設計されている。 RTG内では,意味空間の多様性を指標とした Gamified Red-teaming Solver (GRTS) を提案する。 GRTSはメタゲーム解析によりRTGをナッシュ平衡へ向けた自動レッドチーム化技術であり、理論的に保証された RLM と BLM の最適化方向に対応する。 RLMによるマルチターン攻撃の実証的な結果から、GRTSは様々な攻撃戦略を自律的に発見し、LLMのセキュリティを効果的に改善し、既存のヒューリスティックなレッドチーム設計よりも優れていた。 全体として、RTGはレッドチームタスクの基礎となるフレームワークを確立し、アライメントのための新しいスケーラブルな監視技術を構築した。

Deployable Large Language Models (LLMs) must conform to the criterion of helpfulness and harmlessness, thereby achieving consistency between LLMs outputs and human values. Red-teaming techniques constitute a critical way towards this criterion. Existing work rely solely on manual red team designs and heuristic adversarial prompts for vulnerability detection and optimization. These approaches lack rigorous mathematical formulation, thus limiting the exploration of diverse attack strategy within quantifiable measure and optimization of LLMs under convergence guarantees. In this paper, we present Red-teaming Game (RTG), a general game-theoretic framework without manual annotation. RTG is designed for analyzing the multi-turn attack and defense interactions between Red-team language Models (RLMs) and Blue-team Language Model (BLM). Within the RTG, we propose Gamified Red-teaming Solver (GRTS) with diversity measure of the semantic space. GRTS is an automated red teaming technique to solve RTG towards Nash equilibrium through meta-game analysis, which corresponds to the theoretically guaranteed optimization direction of both RLMs and BLM. Empirical results in multi-turn attacks with RLMs show that GRTS autonomously discovered diverse attack strategies and effectively improved security of LLMs, outperforming existing heuristic red-team designs. Overall, RTG has established a foundational framework for red teaming tasks and constructed a new scalable oversight technique for alignment.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-01
# DST-Det: オープンボキャブラリ物体検出のための簡易動的自己訓練

DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2310.01393v3 )

ライセンス: Link先を確認
Shilin Xu, Xiangtai Li, Size Wu, Wenwei Zhang, Yunhai Tong, Chen Change Loy, (参考訳) Open-vocabulary Object Detection (OVOD) は、トレーニング中に観察されるクラス以外のオブジェクトを検出することを目的としている。 この研究は、CLIPのような事前訓練された視覚言語モデル(VLM)を使用してゼロショット分類によって潜在的に新しいクラスを特定する、単純で効率的な戦略を導入する。 従来の手法では、クラスに依存しない領域の提案ネットワークを使用して、オブジェクトの提案を検出し、基礎的な真実と一致しない提案を背景として考える。 これらの方法とは異なり、トレーニング中にバックグラウンドとして考慮される提案のサブセットを選択する。 そして、トレーニング中に新しいクラスとして扱う。 このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。 従来の擬似手法と比較して,本手法では,一発訓練においてより効率的かつ効果的であるリトレーニングやオフラインラベリング処理を必要としない。 LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、推論中に追加のパラメータや計算コストを発生させることなく、ベースラインのパフォーマンスを大幅に改善したことを示している。 さらに,本手法を様々なベースラインに適用する。 特に,従来のF-VLM法と比較して,LVISデータセットの1.7%の改善を実現している。 近年のCLIPSelf法と組み合わせて,COCO上で46.7個の新しいクラスAPを,関連する余分なデータを導入することなく達成した。 また、最近の挑戦的なV3Detデータセットにおいて、F-VLMベースラインよりも6.5%以上の改善を実現しています。 コードとモデルはhttps://github.com/xushilin1/dst-det.comでリリースしています。

Open-vocabulary object detection (OVOD) aims to detect the objects beyond the set of classes observed during training. This work introduces a straightforward and efficient strategy that utilizes pre-trained vision-language models (VLM), like CLIP, to identify potential novel classes through zero-shot classification. Previous methods use a class-agnostic region proposal network to detect object proposals and consider the proposals that do not match the ground truth as background. Unlike these methods, our method will select a subset of proposals that will be considered as background during the training. Then, we treat them as novel classes during training. We refer to this approach as the self-training strategy, which enhances recall and accuracy for novel classes without requiring extra annotations, datasets, and re-training. Compared to previous pseudo methods, our approach does not require re-training and offline labeling processing, which is more efficient and effective in one-shot training. Empirical evaluations on three datasets, including LVIS, V3Det, and COCO, demonstrate significant improvements over the baseline performance without incurring additional parameters or computational costs during inference. In addition, we also apply our method to various baselines. In particular, compared with the previous method, F-VLM, our method achieves a 1.7% improvement on the LVIS dataset. Combined with the recent method CLIPSelf, our method also achieves 46.7 novel class AP on COCO without introducing extra data for pertaining. We also achieve over 6.5% improvement over the F-VLM baseline in the recent challenging V3Det dataset. We release our code and models at https://github.com/xushilin1/dst-det.
翻訳日:2024-04-04 13:02:27 公開日:2024-04-01
# 観測誘導拡散確率モデル

Observation-Guided Diffusion Probabilistic Models ( http://arxiv.org/abs/2310.04041v2 )

ライセンス: Link先を確認
Junoh Kang, Jinyoung Choi, Sungik Choi, Bohyung Han, (参考訳) 本稿では,観測誘導拡散確率モデル (OGDM) と呼ばれる新しい拡散画像生成手法を提案する。 本手法は,観測プロセスの指導をマルコフ連鎖と原則的に統合することにより,トレーニング目標を再構築する。 これは、(雑音の)実多様体上にあるか否かを示すベルヌーイ分布を用いる条件判別器に基づく観測から導かれる損失項を導入することで達成される。 この戦略により、特に関数評価の数に制限がある場合に、推論段階で誘導されるより正確な負の対数類似度を最適化できる。 提案手法は微調整プロセスにのみ組み込む場合においても有利であり,提案手法は計算コストを伴わずに,全く同じ推論手法を用いてより高速な推論手法を実現するため,様々な高速推論手法と互換性がある。 本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。 実装はhttps://github.com/Junoh-Kang/OGDM_edm.comで公開しています。

We propose a novel diffusion-based image generation method called the observation-guided diffusion probabilistic model (OGDM), which effectively addresses the tradeoff between quality control and fast sampling. Our approach reestablishes the training objective by integrating the guidance of the observation process with the Markov chain in a principled way. This is achieved by introducing an additional loss term derived from the observation based on a conditional discriminator on noise level, which employs a Bernoulli distribution indicating whether its input lies on the (noisy) real manifold or not. This strategy allows us to optimize the more accurate negative log-likelihood induced in the inference stage especially when the number of function evaluations is limited. The proposed training scheme is also advantageous even when incorporated only into the fine-tuning process, and it is compatible with various fast inference strategies since our method yields better denoising networks using the exactly the same inference procedure without incurring extra computational cost. We demonstrate the effectiveness of our training algorithm using diverse inference techniques on strong diffusion model baselines. Our implementation is available at https://github.com/Junoh-Kang/OGDM_edm.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-01
# PINNによるバーガーのPDEを有限時間BlowUp付近で解く能力の検討

Investigating the Ability of PINNs To Solve Burgers' PDE Near Finite-Time BlowUp ( http://arxiv.org/abs/2310.05169v2 )

ライセンス: Link先を確認
Dibyakanti Kumar, Anirbit Mukherjee, (参考訳) 物理情報ニューラルネットワーク(PINN)は、複雑なPDEを数値的に解くという、より新しい成果を達成しつつ、精度と推論速度の間の魅力的なトレードオフを提供してきた。 PDE の特に難しい側面は、滑らかな初期条件から始まる有限時間で特異解へと発展できる単純な PDE が存在することである。 近年、いくつかの衝撃的な実験により、PINNはそのような有限時間の爆発を検出できるかもしれないことが示唆されている。 本研究では,このPINNの安定性を厳密な理論的観点から調査するプログラムに着手する。 まず、バーガースの PDE に対する PINN の任意の次元での一般化境界を有限時間ブローアップ可能な条件で導出する。 そして、我々は実験を通して、我々の境界が真の爆破解から得られる神経学的に見いだされたサロゲートの$\ell_2$-distanceと著しく相関していることを示し、爆発に近づきつつあるPDEの列で計算した。

Physics Informed Neural Networks (PINNs) have been achieving ever newer feats of solving complicated PDEs numerically while offering an attractive trade-off between accuracy and speed of inference. A particularly challenging aspect of PDEs is that there exist simple PDEs which can evolve into singular solutions in finite time starting from smooth initial conditions. In recent times some striking experiments have suggested that PINNs might be good at even detecting such finite-time blow-ups. In this work, we embark on a program to investigate this stability of PINNs from a rigorous theoretical viewpoint. Firstly, we derive generalization bounds for PINNs for Burgers' PDE, in arbitrary dimensions, under conditions that allow for a finite-time blow-up. Then we demonstrate via experiments that our bounds are significantly correlated to the $\ell_2$-distance of the neurally found surrogate from the true blow-up solution, when computed on sequences of PDEs that are getting increasingly close to a blow-up.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-01
# Mirage: グラフ分類のためのモデル非依存グラフ蒸留

Mirage: Model-Agnostic Graph Distillation for Graph Classification ( http://arxiv.org/abs/2310.09486v4 )

ライセンス: Link先を確認
Mridul Gupta, Sahil Manchanda, Hariprasad Kodamana, Sayan Ranu, (参考訳) 他のディープラーニングモデルと同様、GNNもデータと計算に飢えている。 低リソース環境での使用を可能にするため、大規模なデータセット上でGNNのトレーニングをスケールする必要がある。 グラフ蒸留はその方向への取り組みであり、モデル性能を著しく損なうことなく、元のトレーニングデータからより小さな合成訓練セットを構築することを目的としている。 1) 既存のグラフ蒸留アルゴリズム自体が、グラフ蒸留の前提を損なう完全なデータセットによるトレーニングに依存している。 2) 蒸留プロセスは, ターゲットのGNNアーキテクチャやハイパーパラメータに特有であり, モデリングパイプラインの変化に対して堅牢ではない。 グラフ分類のためのMirageと呼ばれる蒸留アルゴリズムを設計することで,これらの制限を回避する。 Mirageは、メッセージパスGNNが入力グラフを複数の計算ツリーに分解する、という洞察に基づいて構築されている。 さらに、計算木の周波数分布は自然界でスキューされることが多く、このデータを簡潔に蒸留した要約に凝縮することができる。 計算データ自体を圧縮することにより、元のトレーニングセット上の勾配流をエミュレートする代わりに、日付ミレージ変換を教師なしかつアーキテクチャに依存しない蒸留アルゴリズムに変換する。 実世界のデータセットに対する広範囲なベンチマークは、Mirageの優位性を強調し、最先端のベースラインと比較して、一般化の正確さ、データ圧縮、蒸留効率の向上を示している。

GNNs, like other deep learning models, are data and computation hungry. There is a pressing need to scale training of GNNs on large datasets to enable their usage on low-resource environments. Graph distillation is an effort in that direction with the aim to construct a smaller synthetic training set from the original training data without significantly compromising model performance. While initial efforts are promising, this work is motivated by two key observations: (1) Existing graph distillation algorithms themselves rely on training with the full dataset, which undermines the very premise of graph distillation. (2) The distillation process is specific to the target GNN architecture and hyper-parameters and thus not robust to changes in the modeling pipeline. We circumvent these limitations by designing a distillation algorithm called Mirage for graph classification. Mirage is built on the insight that a message-passing GNN decomposes the input graph into a multiset of computation trees. Furthermore, the frequency distribution of computation trees is often skewed in nature, enabling us to condense this data into a concise distilled summary. By compressing the computation data itself, as opposed to emulating gradient flows on the original training set-a prevalent approach to date-Mirage transforms into an unsupervised and architecture-agnostic distillation algorithm. Extensive benchmarking on real-world datasets underscores Mirage's superiority, showcasing enhanced generalization accuracy, data compression, and distillation efficiency when compared to state-of-the-art baselines.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-01
# 複素量子系における遷移状態理論の微視的導出

Microscopic derivation of transition-state theory for complex quantum systems ( http://arxiv.org/abs/2310.09537v3 )

ライセンス: Link先を確認
K. Hagino, G. F. Bertsch, (参考訳) ポテンシャル障壁による量子複雑系の崩壊は、化学においてRRKM理論(英語版)としても知られる遷移状態理論(英語版)でしばしば説明される。 ここでは、構成-相互作用ベースで構築されるようなジェネリックハミルトニアンに基づく遷移状態理論の基本式を導出する。 ガウス直交アンサンブルからのランダムハミルトンの2つの貯水池は、障壁における遷移状態を表す中間状態に結合される。 貯水池の開水路への崩壊が大きい条件下では、反応速度の解析式が導出される。 遷移状態は、総遷移確率に付加的に寄与する独立したブライト・ウィグナー共鳴として作用し、共鳴トンネル状態による電子伝導で知られている。 また、遷移確率は、広範囲の崩壊幅にわたって第2貯水池の状態の崩壊特性とは無関係であることがわかった。

The decay of quantum complex systems through a potential barrier is often described with transition-state theory, also known as RRKM theory in chemistry. Here we derive the basic formula for transition-state theory based on a generic Hamiltonian as might be constructed in a configuration-interaction basis. Two reservoirs of random Hamiltonians from Gaussian orthogonal ensembles are coupled to intermediate states representing the transition states at a barrier. Under the condition that the decay of the reservoirs to open channels is large, an analytic formula for reaction rates is derived. The transition states act as independent Breit-Wigner resonances which contribute additively to the total transition probability, as is well known for electronic conductance through resonant tunneling states. It is also found that the transition probability is independent of the decay properties of the states in the second reservoir over a wide range of decay widths.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-01
# 大規模言語モデルにおける創発的モジュラリティの解錠

Unlocking Emergent Modularity in Large Language Models ( http://arxiv.org/abs/2310.10908v2 )

ライセンス: Link先を確認
Zihan Qiu, Zeyu Huang, Jie Fu, (参考訳) モジュラニューラルネットワーク(MNN)は、モノリシックモデルに対してさまざまな利点を示している。 既存のMNNは通常$\textit{explicit}$: モジュールアーキテクチャは事前に定義されており、個々のモジュールは異なる関数を実装することが期待されている。 最近の研究によると、標準的な事前訓練されたトランスフォーマーには $\textit{implicit}$モジュラリティ、すなわち $\textit{Emergent Modularity}$が存在する。 これらのモジュラー構造は、初期の事前訓練段階で自然に現れることを示唆している。 モジュラリティの利点にもかかわらず、ほとんどの言語モデル(LM)は、まだ事前訓練と微調整のパラダイムにおいてモノリシックなモデルとして扱われており、その創発的なモジュラリティはロックされ、未利用である。 本研究は,LMの創発的モジュラリティのアンロックに着目し,Mixture-of-Expert (MoEs) として,余分なパラメータを導入することなく,標準LMを微調整できることを実証する。 このような MoE は創発的モジュラリティから派生し、Emergent MoEs (EMoE) と呼ばれる。 実験により,細調整EMoEはバニラ微調整と比較して,下流領域と外部領域の一般化を効果的に改善することが示された。 我々の分析およびアブレーション研究は、様々な構成に対して堅牢であり、Llama2-7BやLlama-30Bといった大規模言語モデルにまで拡張可能であることをさらに示している。 コードはhttps://github.com/qiuzh20/EMoEで入手できる。

Modular Neural Networks (MNNs) demonstrate various advantages over monolithic models. Existing MNNs are generally $\textit{explicit}$: their modular architectures are pre-defined, with individual modules expected to implement distinct functions. Recent works reveal that there exists $\textit{implicit}$ modularity in standard pre-trained transformers, namely $\textit{Emergent Modularity}$. They indicate that such modular structures spontaneously exhibit during the early pre-training phase. Despite the benefits of modularity, most Language Models (LMs) are still treated as monolithic models in the pre-train and fine-tune paradigm, with their emergent modularity locked and underutilized. In this work, focusing on unlocking the emergent modularity in LMs, we showcase that standard LMs could be fine-tuned as their Mixture-of-Expert (MoEs) counterparts without introducing any extra parameters. Such MoEs are derived from emergent modularity and are referred to as Emergent MoEs (EMoE). Our experiments demonstrate that fine-tuning EMoE effectively improves downstream in-domain and out-of-domain generalization compared with vanilla fine-tuning. Our analysis and ablation studies further illustrate that it is robust to various configurations and can scale up to Large Language Models (i.e., Llama2-7B and Llama-30B). Code is available at https://github.com/qiuzh20/EMoE.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-01
# 人間が真実を確かめるのに役立つ大きな言語モデル

Large Language Models Help Humans Verify Truthfulness -- Except When They Are Convincingly Wrong ( http://arxiv.org/abs/2310.12558v2 )

ライセンス: Link先を確認
Chenglei Si, Navita Goyal, Sherry Tongshuang Wu, Chen Zhao, Shi Feng, Hal Daumé III, Jordan Boyd-Graber, (参考訳) 大規模言語モデル(LLM)は、Web上の情報へのアクセスにますます使われています。 したがって、彼らの真理と事実は大きな関心を集めている。 ユーザーが入手した情報について正しい判断を下すのを助けるために、LLMは情報を提供するだけでなく、ユーザーが事実を確認するのを助ける必要がある。 80人のクラウドワーカーによる実験では,事実チェックを容易にするために,言語モデルと検索エンジン(情報検索システム)を比較した。 我々は LLM に対して,所定のクレームを検証し,それに対応する説明を行うよう促す。 LLMの説明を読むユーザーは、類似の精度を保ちながら、検索エンジンを使用するものよりもはるかに効率的である。 しかし、説明が間違っていた場合、彼らはLSMを過度に批判する。 LLMの信頼性の過度さを軽減するために,LCMに対して,その主張が真で偽である理由を両面から説明し,その説明の両面をユーザに提示する,コントラスト情報の提供を依頼する。 この対照的な説明は、LLMに対するユーザの過度な信頼を緩和するが、検索エンジンを著しく上回ることはできない。 さらに、検索結果とLCM説明の両方を示すことは、検索エンジン単独と比較して相補的な利点がない。 我々の研究は、LLMによる自然言語による説明は、検索されたパスを読むための信頼できる代替にはならないかもしれないことを強調した。

Large Language Models (LLMs) are increasingly used for accessing information on the web. Their truthfulness and factuality are thus of great interest. To help users make the right decisions about the information they get, LLMs should not only provide information but also help users fact-check it. Our experiments with 80 crowdworkers compare language models with search engines (information retrieval systems) at facilitating fact-checking. We prompt LLMs to validate a given claim and provide corresponding explanations. Users reading LLM explanations are significantly more efficient than those using search engines while achieving similar accuracy. However, they over-rely on the LLMs when the explanation is wrong. To reduce over-reliance on LLMs, we ask LLMs to provide contrastive information - explain both why the claim is true and false, and then we present both sides of the explanation to users. This contrastive explanation mitigates users' over-reliance on LLMs, but cannot significantly outperform search engines. Further, showing both search engine results and LLM explanations offers no complementary benefits compared to search engines alone. Taken together, our study highlights that natural language explanations by LLMs may not be a reliable replacement for reading the retrieved passages, especially in high-stakes settings where over-relying on wrong AI explanations could lead to critical consequences.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-01
# 最適処理基準の安全かつ解釈可能な推定法

Safe and Interpretable Estimation of Optimal Treatment Regimes ( http://arxiv.org/abs/2310.15333v2 )

ライセンス: Link先を確認
Harsh Parikh, Quinn Lanners, Zade Akras, Sahar F. Zafar, M. Brandon Westover, Cynthia Rudin, Alexander Volfovsky, (参考訳) 近年の統計的・強化的学習法は, 医療戦略が著しく進歩している。 しかし、これらのアプローチは、欠落データ、固有の確率性、解釈可能性と患者の安全性に対する重要な要件など、高い視点のコンテキストにおいて重大な課題に直面している。 我々の研究は、最適な治療体制を特定するための安全かつ解釈可能な枠組みを運用している。 本手法では, 同様の医学的, 薬理学的特徴を持つ患者をマッチングし, 補間により最適な方針を立案する。 複雑な設定であっても最適なポリシーを識別するフレームワークの能力を実証するために、包括的なシミュレーション研究を行う。 最終的に、重篤な患者に発作を治療するための体制を研究するために、我々のアプローチを運用する。 本研究は患者の医療歴と薬理学的特徴に基づくパーソナライズされた治療戦略を強く支持する。 特に,集中治療室で重篤な発作を経験する患者に対して攻撃的治療を施し,軽度・短時間の発作エピソードに対する服薬量を減少させることが,より良好な結果をもたらすことを確認した。

Recent statistical and reinforcement learning methods have significantly advanced patient care strategies. However, these approaches face substantial challenges in high-stakes contexts, including missing data, inherent stochasticity, and the critical requirements for interpretability and patient safety. Our work operationalizes a safe and interpretable framework to identify optimal treatment regimes. This approach involves matching patients with similar medical and pharmacological characteristics, allowing us to construct an optimal policy via interpolation. We perform a comprehensive simulation study to demonstrate the framework's ability to identify optimal policies even in complex settings. Ultimately, we operationalize our approach to study regimes for treating seizures in critically ill patients. Our findings strongly support personalized treatment strategies based on a patient's medical history and pharmacological features. Notably, we identify that reducing medication doses for patients with mild and brief seizure episodes while adopting aggressive treatment for patients in intensive care unit experiencing intense seizures leads to more favorable outcomes.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-01
# 胸部X線からの長期多ラベル疾患分類に向けて:CXR-LT課題の概観

Towards long-tailed, multi-label disease classification from chest X-ray: Overview of the CXR-LT challenge ( http://arxiv.org/abs/2310.16112v2 )

ライセンス: Link先を確認
Gregory Holste, Yiliang Zhou, Song Wang, Ajay Jaiswal, Mingquan Lin, Sherry Zhuge, Yuzhe Yang, Dongkyun Kim, Trong-Hieu Nguyen-Mau, Minh-Triet Tran, Jaehyup Jeong, Wongi Park, Jongbin Ryu, Feng Hong, Arsh Verma, Yosuke Yamagishi, Changhyun Kim, Hyeryeong Seo, Myungjoo Kang, Leo Anthony Celi, Zhiyong Lu, Ronald M. Summers, George Shih, Zhangyang Wang, Yifan Peng, (参考訳) 診断医用画像検査のような現実世界の多くの画像認識問題は、"ロングテール"$\unicode{x2013}$である。 胸部X線撮影では、診断は長い尾と多ラベルの問題であり、患者は同時に複数の所見を呈することが多い。 医学画像認識における長い尾の学習の問題の研究が始まっているが、長い尾の多ラベル病の分類によって生じるラベルの不均衡とラベルの共起の相互作用を研究する研究者はほとんどいない。 胸部X線(CXRs)による胸部胸部胸郭疾患の長期分類について,CXR-LTのオープンチャレンジを行った。 我々は35万以上のCXRの大規模ベンチマークデータセットを公開し、それぞれに長い尾の分布の後、少なくとも26の臨床所見のうちの1つをラベル付けした。 我々は,トップパフォーマンスソリューションの共通テーマを合成し,ロングテール,マルチラベルの医用画像分類のための実用的なレコメンデーションを提供する。 最後に、これらの知見を用いて、少数・ゼロショットの疾患分類のための視覚言語基盤モデルを含む経路を先進的に提案する。

Many real-world image recognition problems, such as diagnostic medical imaging exams, are "long-tailed" $\unicode{x2013}$ there are a few common findings followed by many more relatively rare conditions. In chest radiography, diagnosis is both a long-tailed and multi-label problem, as patients often present with multiple findings simultaneously. While researchers have begun to study the problem of long-tailed learning in medical image recognition, few have studied the interaction of label imbalance and label co-occurrence posed by long-tailed, multi-label disease classification. To engage with the research community on this emerging topic, we conducted an open challenge, CXR-LT, on long-tailed, multi-label thorax disease classification from chest X-rays (CXRs). We publicly release a large-scale benchmark dataset of over 350,000 CXRs, each labeled with at least one of 26 clinical findings following a long-tailed distribution. We synthesize common themes of top-performing solutions, providing practical recommendations for long-tailed, multi-label medical image classification. Finally, we use these insights to propose a path forward involving vision-language foundation models for few- and zero-shot disease classification.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-01
# TransPose:Geometry-Aware Transformer を用いた6次元オブジェクト位置推定

TransPose: 6D Object Pose Estimation with Geometry-Aware Transformer ( http://arxiv.org/abs/2310.16279v2 )

ライセンス: Link先を確認
Xiao Lin, Deming Wang, Guangliang Zhou, Chengju Liu, Qijun Chen, (参考訳) 6Dオブジェクトのポーズを推定することは、多くのアプリケーションにおいて必須のタスクである。 奥行き情報がないため、既存のRGBベースの手法は閉塞や照明の変化に敏感である。 深度情報における幾何学的特徴の抽出と活用は、正確な予測を実現するために不可欠である。 そこで本研究では,トランスフォーマー・エンコーダと幾何認識モジュールを併用した新しい6DポーズフレームワークであるTransPoseを提案する。 具体的には、まず一様に点雲をサンプリングし、グラフ畳み込みネットワーク上に設計した局所特徴抽出器ベースを用いて局所幾何学的特徴を抽出する。 閉塞に対するロバスト性を改善するため,グローバル情報の交換を行うためにTransformerを導入し,各ローカル機能はグローバル情報を含むようにした。 最後に,Transformer Encoder にジオメトリ対応モジュールを導入し,ポイントクラウド機能学習の効果的な制約を構築し,ポイントクラウドタスクとグローバル情報交換をより緊密に結合させる。 大規模な実験はTransPoseの有効性を示し,提案するポーズ推定パイプラインは3つのベンチマークデータセットで競合する結果を得る。

Estimating the 6D object pose is an essential task in many applications. Due to the lack of depth information, existing RGB-based methods are sensitive to occlusion and illumination changes. How to extract and utilize the geometry features in depth information is crucial to achieve accurate predictions. To this end, we propose TransPose, a novel 6D pose framework that exploits Transformer Encoder with geometry-aware module to develop better learning of point cloud feature representations. Specifically, we first uniformly sample point cloud and extract local geometry features with the designed local feature extractor base on graph convolution network. To improve robustness to occlusion, we adopt Transformer to perform the exchange of global information, making each local feature contains global information. Finally, we introduce geometry-aware module in Transformer Encoder, which to form an effective constrain for point cloud feature learning and makes the global information exchange more tightly coupled with point cloud tasks. Extensive experiments indicate the effectiveness of TransPose, our pose estimation pipeline achieves competitive results on three benchmark datasets.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-01
# ニューラルネットワークを越えたGrokking - モデル複雑度による経験的探索

Grokking Beyond Neural Networks: An Empirical Exploration with Model Complexity ( http://arxiv.org/abs/2310.17247v2 )

ライセンス: Link先を確認
Jack Miller, Charles O'Neill, Thang Bui, (参考訳) いくつかの設定では、ニューラルネットワークは‘textit{grokking}’と呼ばれる現象を示し、トレーニングセットで同じパフォーマンスが達成されてからずっと経ってから、検証セット上で完璧またはほぼ完璧な精度を達成する。 本稿では,グルーキングがニューラルネットワークに限らず,ガウス過程(GP)分類,GP回帰,線形回帰,ベイズニューラルネットワークなどの他の設定で発生することを明らかにする。 また、スプリアス情報を含む次元の追加により、アルゴリズムデータセット上でグラッキングを誘導するメカニズムも明らかにした。 非神経アーキテクチャーにおけるこの現象の存在は、グルーキングが現在の理論的および経験的研究で考慮された設定に制限されないことを示している。 代わりに、ソリューション検索が複雑さとエラーによってガイドされるモデルでも、グラッキングは可能かもしれない。

In some settings neural networks exhibit a phenomenon known as \textit{grokking}, where they achieve perfect or near-perfect accuracy on the validation set long after the same performance has been achieved on the training set. In this paper, we discover that grokking is not limited to neural networks but occurs in other settings such as Gaussian process (GP) classification, GP regression, linear regression and Bayesian neural networks. We also uncover a mechanism by which to induce grokking on algorithmic datasets via the addition of dimensions containing spurious information. The presence of the phenomenon in non-neural architectures shows that grokking is not restricted to settings considered in current theoretical and empirical studies. Instead, grokking may be possible in any model where solution search is guided by complexity and error.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-01
# 超放射能多量冷凍機のフロケット解析

Floquet analysis of a superradiant many-qutrit refrigerator ( http://arxiv.org/abs/2310.18126v2 )

ライセンス: Link先を確認
Dmytro Kolisnyk, Friedemann Queisser, Gernot Schaller, Ralf Schützhold, (参考訳) 熱水貯留層と冷水貯留層とを一体に結合したN$3レベルシステムの冷蔵性能の超放射能向上について検討した。 系-貯留層結合が弱いと仮定すると、集合的弱駆動、フロケ・リンドブラッド、フロケ・レッドフィールドマスター方程式を比較することで、より強い周期的駆動強度のレギュレーションを探索する。 本研究では, 周期駆動によって誘導される電力が, 寒冷から高温の貯水池へ熱を汲み上げ, フロケ・リンドブラッド・マスター方程式のサイクル解析に基づいて十分な解析条件を導出する機構を同定した。 これらの制度では, 冷却電流をN$で2次スケーリングするようなパラメータの集合的拡張も期待でき, 数値シミュレーションによる議論を支援することができる。

We investigate superradiant enhancements in the refrigeration performance of a set of $N$ three-level systems that are collectively coupled to a hot and a cold thermal reservoir and are additionally subject to collective periodic (circular) driving. Assuming the system-reservoir coupling to be weak, we explore the regime of stronger periodic driving strengths by comparing collective weak driving, Floquet-Lindblad, and Floquet-Redfield master equations. We identify regimes where the power injected by the periodic driving is used to pump heat from the cold to the hot reservoir and derive analytic sufficient conditions for them based on a cycle analysis of the Floquet-Lindblad master equation. In those regimes, we also argue for which parameters collective enhancements like a quadratic scaling of the cooling current with $N$ can be expected and support our arguments by numerical simulations.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-01
# 集団スピン計測のみを用いたGHZエンタングルメントのウイットネス

A Witness of GHZ Entanglement Using Only Collective Spin Measurements ( http://arxiv.org/abs/2311.00805v2 )

ライセンス: Link先を確認
Lin Htoo Zaw, Khoi-Nguyen Huynh-Vu, Valerio Scarani, (参考訳) スピンアンサンブルの集合的な測定のみを利用する既存の絡み合いの目撃者のうち、全員が真のマルチパート・エンタングメント(GME)を検出できる訳ではなく、グリーンバーガー・ホーネ・ザイリンガー状態(GHZ)をトリパートイト・ケースを超えて検出することはできない。 このギャップを埋めるために、スピンの総スピンが半整数であるスピンアンサンブルのGMEを検出するエンタングルメント証人を導入する。 我々の目撃者は、ティレルソンが導入した非古典性試験に基づいており、異なる方向に沿って全角運動量を測定するだけでよい。 証人によって検出された状態は、GHZのような状態の族に近く、奇数のスピン半粒子のGHZ状態を含む。 また、偏極雑音下での証人の頑健性について検討し、ノイズの多いGHZ状態を検出するための正確なノイズ境界を導出する。

Of existing entanglement witnesses that utilize only collective measurements of a spin ensemble, not all can detect genuine multipartite entanglement (GME), and none can detect Greenberger-Horne-Zeilinger (GHZ) states beyond the tripartite case. We fill this gap by introducing an entanglement witness that detects GME of spin ensembles, whose total spin is half-integer, using only collective spin measurements. Our witness is based on a nonclassicality test introduced by Tsirelson, and solely requires the measurement of total angular momentum along different directions. States detected by our witness are close to a family of GHZ-like states, which includes GHZ states of an odd number of spin-half particles. We also study the robustness of our witness under depolarizing noise, and derive exact noise bounds for detecting noisy GHZ states.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-01
# 全角運動量測定によるスピンアンサンブルにおける真の多部交絡の証明

Certification of genuine multipartite entanglement in spin ensembles with measurements of total angular momentum ( http://arxiv.org/abs/2311.00806v2 )

ライセンス: Link先を確認
Khoi-Nguyen Huynh-Vu, Lin Htoo Zaw, Valerio Scarani, (参考訳) 本報告では, 角運動量測定のみを用いて, 真の多部絡み検出を行うスピンアンサンブルの絡み込み目撃者について紹介する。 グリーンベルガー=ホルン=ザイリンガー状態やディック状態のある種の重ね合わせを含む、他の角運動に基づくスピンアンサンブルの証人によって見逃されている状態は、我々の証人によって効果的に検出できる。 このプロトコルは、平面上の等間隔方向に沿って全角運動量が正の確率を推定することを含む。 あるいは、全スピンが均一な沈降状態にあるという仮定の下で、異なる時間に1つの方向に沿って測定することができる。 観察されたスコアが分離可能な境界を超えると、遺伝子多部絡みが検出される。 スピンアンサンブルに対して、分離可能な境界に対する厳密な解析式をj_1\otimes j_2\otimes\dots \otimes j_N$とし、その全スピンが半整数であるように算出結果を報告する。 最後に、全スピンが分かっていないときに分離可能な境界の式を予想するが、これは数値的な結果によく支持されている。

We introduce entanglement witnesses for spin ensembles which detect genuine multipartite entanglement using only measurements of the total angular momentum. States that are missed by most other angular-momentum-based witnesses for spin ensembles, which include Greenberger-Horne-Zeilinger states and certain superpositions of Dicke states, can be effectively detected by our witness. The protocol involves estimating the probability that the total angular momentum is positive along equally-spaced directions on a plane. Alternatively, one could measure along a single direction at different times, under the assumption that the total spins undergoes a uniform precession. Genuine multipartite entanglement is detected when the observed score exceeds a separable bound. Exact analytical expressions for the separable bound are obtained for spin ensembles $j_1\otimes j_2\otimes\dots \otimes j_N$ such that the total spin is a half-integer, and numerical results are reported for the other cases. Finally, we conjecture an expression for the separable bound when the total spin is not known, which is well supported by the numerical results.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-01
# Copilot4D:離散拡散による自律運転のための教師なし世界モデル学習

Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion ( http://arxiv.org/abs/2311.01017v4 )

ライセンス: Link先を確認
Lunjun Zhang, Yuwen Xiong, Ze Yang, Sergio Casas, Rui Hu, Raquel Urtasun, (参考訳) 世界のモデルを学ぶことは、エージェントに世界がどのように教師なしの方法で機能するかを教えることができる。 シーケンスモデリングの特殊なケースと見なすことができるが、自律運転のようなロボットアプリケーション上での世界モデルをスケールする進歩は、ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を用いた言語モデルをスケールするよりもやや速かった。 複雑で非構造的な観測空間を扱うことと、スケーラブルな生成モデルを持つことである。 そこで我々は,まずVQVAEでセンサ観測をトークン化する新しい世界モデリング手法であるCopilot4Dを提案し,その将来を離散拡散により予測する。 トークンを並列に復号・復号化するために,Masked Generative Image Transformerを離散拡散として再放送し,いくつかの簡単な変更を加えて拡張した結果,顕著な改善が得られた。 Copilot4Dは、ポイントクラウド観測の学習の世界モデルに適用すると、1s予測では65%以上、NuScenes、KITTI Odometry、Argoverse2データセットで3s予測では50%以上削減される。 本研究は, ロボット工学におけるGPTのような非教師なし学習のパワーを, トークン化エージェント体験における離散拡散により解き放つことを示すものである。

Learning world models can teach an agent how the world works in an unsupervised manner. Even though it can be viewed as a special case of sequence modeling, progress for scaling world models on robotic applications such as autonomous driving has been somewhat less rapid than scaling language models with Generative Pre-trained Transformers (GPT). We identify two reasons as major bottlenecks: dealing with complex and unstructured observation space, and having a scalable generative model. Consequently, we propose Copilot4D, a novel world modeling approach that first tokenizes sensor observations with VQVAE, then predicts the future via discrete diffusion. To efficiently decode and denoise tokens in parallel, we recast Masked Generative Image Transformer as discrete diffusion and enhance it with a few simple changes, resulting in notable improvement. When applied to learning world models on point cloud observations, Copilot4D reduces prior SOTA Chamfer distance by more than 65% for 1s prediction, and more than 50% for 3s prediction, across NuScenes, KITTI Odometry, and Argoverse2 datasets. Our results demonstrate that discrete diffusion on tokenized agent experience can unlock the power of GPT-like unsupervised learning for robotics.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-01
# TopicGPT: プロンプトベースのトピックモデリングフレームワーク

TopicGPT: A Prompt-based Topic Modeling Framework ( http://arxiv.org/abs/2311.01449v2 )

ライセンス: Link先を確認
Chau Minh Pham, Alexander Hoyle, Simeng Sun, Philip Resnik, Mohit Iyyer, (参考訳) トピックモデリングはテキストコーパスを探索するための確立した手法である。 従来のトピックモデル(LDAなど)では、トピックを解釈するために「茶葉を読む」ことが必要な単語の袋として表現している。 これらの問題に対処するために,大規模言語モデル(LLM)を用いてテキストコレクション内の潜在トピックを明らかにするプロンプトベースのフレームワークであるTopicGPTを紹介した。 TopicGPTは、競合する手法と比較して人間の分類によく適合するトピックを生成しており、最強のベースラインでは0.64に比べて、人間の注釈付きウィキペディアのトピックに対して0.74の平均純度を達成している。 そのトピックもまた解釈可能であり、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。 さらに、このフレームワークは高度に適応可能であり、モデルの再トレーニングを必要とせずに制約を指定したりトピックを変更したりすることができる。 高品質で解釈可能なトピックへのアクセスを合理化することによって、TopicGPTは、トピックモデリングに対する魅力的な人間中心のアプローチを示す。

Topic modeling is a well-established technique for exploring text corpora. Conventional topic models (e.g., LDA) represent topics as bags of words that often require "reading the tea leaves" to interpret; additionally, they offer users minimal control over the formatting and specificity of resulting topics. To tackle these issues, we introduce TopicGPT, a prompt-based framework that uses large language models (LLMs) to uncover latent topics in a text collection. TopicGPT produces topics that align better with human categorizations compared to competing methods: it achieves a harmonic mean purity of 0.74 against human-annotated Wikipedia topics compared to 0.64 for the strongest baseline. Its topics are also interpretable, dispensing with ambiguous bags of words in favor of topics with natural language labels and associated free-form descriptions. Moreover, the framework is highly adaptable, allowing users to specify constraints and modify topics without the need for model retraining. By streamlining access to high-quality and interpretable topics, TopicGPT represents a compelling, human-centered approach to topic modeling.
翻訳日:2024-04-04 12:42:49 公開日:2024-04-01
# 弱い相互作用を持つフロッケ回路における局所化と積分性破壊

Localization and integrability breaking in weakly interacting Floquet circuits ( http://arxiv.org/abs/2311.02197v2 )

ライセンス: Link先を確認
Dominik Hahn, Luis Colmenarez, (参考訳) 本稿では,非相互作用量子ビット,自由伝播,ジェネリック相互作用,二重単位ダイナミクスを補間できるFloquet回路のファミリについて述べる。 2ビットゲートの作用素エンタングルメントエントロピーを相互作用強度の優れた定量的尺度として同定する。 本研究では,非相互作用点近傍における局所化の持続性を,スペクトル統計,自己相関器の崩壊,絡み合い成長の測定により検証する。 有限サイズ解析は、多体局在状態が熱力学的極限に持続しないことを示唆している。 その代わり、我々の結果は積分可能性破壊現象と互換性がある。

We present a family of Floquet circuits that can interpolate between non-interacting qubits, free propagation, generic interacting, and dual-unitary dynamics. We identify the operator entanglement entropy of the two-qubit gate as a good quantitative measure of the interaction strength. We test the persistence of localization in the vicinity of the non-interacting point by probing spectral statistics, decay of autocorrelators, and measuring entanglement growth. The finite-size analysis suggests that the many-body localized regime does not persist in the thermodynamic limit. Instead, our results are compatible with an integrability-breaking phenomenon.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-01
# 未学習小モデルに対する非対称仮焼蒸留法

Asymmetric Masked Distillation for Pre-Training Small Foundation Models ( http://arxiv.org/abs/2311.03149v2 )

ライセンス: Link先を確認
Zhiyu Zhao, Bingkun Huang, Sen Xing, Gangshan Wu, Yu Qiao, Limin Wang, (参考訳) 自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。 スケールは、これらの基礎モデルのパフォーマンスに影響を与える主要な要因である。 しかし、これらの大きな基礎モデルは、しばしば高い計算コストをもたらす。 本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。 具体的には、モデル圧縮における知識蒸留からインスピレーションを得て、比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。 AMDの中核は非対称マスキング戦略を考案することであり、教師モデルはより低いマスキング比でより多くのコンテキスト情報を見ることができる一方で、学生モデルは高いマスキング比を備えている。 我々は,教師エンコーダと学生エンコーダの多層機能アライメントを設計し,学生MAEの事前学習を規則化する。 AMDの有効性と汎用性を実証するために、比較的小さなVTモデルの事前学習に ImageMAE と VideoMAE の両方に適用する。 AMDは、ViT-Bモデルを用いてIN1Kの84.6%の分類精度を達成した。 また、AMDは、Somes-in-Something V2データセット上のViT-Bモデルを用いて73.3%の分類精度を実現している。 また、AMD事前訓練されたモデルを下流タスクに転送し、元のマスク付きオートエンコーディングよりも一貫した性能向上を得る。 コードとモデルはhttps://github.com/MCG-NJU/AMD.comで公開されている。

Self-supervised foundation models have shown great potential in computer vision thanks to the pre-training paradigm of masked autoencoding. Scale is a primary factor influencing the performance of these foundation models. However, these large foundation models often result in high computational cost. This paper focuses on pre-training relatively small vision transformer models that could be efficiently adapted to downstream tasks. Specifically, taking inspiration from knowledge distillation in model compression, we propose a new asymmetric masked distillation (AMD) framework for pre-training relatively small models with autoencoding. The core of AMD is to devise an asymmetric masking strategy, where the teacher model is enabled to see more context information with a lower masking ratio, while the student model is still equipped with a high masking ratio. We design customized multi-layer feature alignment between the teacher encoder and student encoder to regularize the pre-training of student MAE. To demonstrate the effectiveness and versatility of AMD, we apply it to both ImageMAE and VideoMAE for pre-training relatively small ViT models. AMD achieved 84.6% classification accuracy on IN1K using the ViT-B model. And AMD achieves 73.3% classification accuracy using the ViT-B model on the Something-in-Something V2 dataset, a 3.7% improvement over the original ViT-B model from VideoMAE. We also transfer AMD pre-trained models to downstream tasks and obtain consistent performance improvement over the original masked autoencoding. The code and models are available at https://github.com/MCG-NJU/AMD.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-01
# 連続行動空間を有する低域MDP

Low-Rank MDPs with Continuous Action Spaces ( http://arxiv.org/abs/2311.03564v2 )

ライセンス: Link先を確認
Andrew Bennett, Nathan Kallus, Miruna Oprescu, (参考訳) 低ランクマルコフ決定プロセス(MDPs)は、最近強化学習(RL)の領域内で有望なフレームワークとして出現した。 しかし、現在の低ランク MDP の手法は、有限作用空間のみを考慮し、空境界を $|\mathcal{A}| \to \infty$ とし、それらの適用性を大幅に制限する点で制限されている。 本研究では,このような手法を連続的な動作を伴う設定に拡張する問題について検討し,この拡張を行うための複数の具体的なアプローチについて検討する。 ケーススタディとして,低ランクMDPを用いたPAC RLの報酬非依存手法であるセミナルFLAMBEアルゴリズム(Agarwal et al , 2020)を検討する。 アルゴリズムを変更せずに、動作が連続することを許された場合、同様のPAC境界が得られることを示す。 具体的には、遷移関数のモデルが H\ より古い滑らかさ条件 w.r.t. の作用を満たすとき、ポリシークラスが一様有界な最小密度を持つか、報酬関数も H\ より滑らかであるとき、滑らかさの順序に依存する多項式 PAC を得る。

Low-Rank Markov Decision Processes (MDPs) have recently emerged as a promising framework within the domain of reinforcement learning (RL), as they allow for provably approximately correct (PAC) learning guarantees while also incorporating ML algorithms for representation learning. However, current methods for low-rank MDPs are limited in that they only consider finite action spaces, and give vacuous bounds as $|\mathcal{A}| \to \infty$, which greatly limits their applicability. In this work, we study the problem of extending such methods to settings with continuous actions, and explore multiple concrete approaches for performing this extension. As a case study, we consider the seminal FLAMBE algorithm (Agarwal et al., 2020), which is a reward-agnostic method for PAC RL with low-rank MDPs. We show that, without any modifications to the algorithm, we obtain a similar PAC bound when actions are allowed to be continuous. Specifically, when the model for transition functions satisfies a H\"older smoothness condition w.r.t. actions, and either the policy class has a uniformly bounded minimum density or the reward function is also H\"older smooth, we obtain a polynomial PAC bound that depends on the order of smoothness.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-01
# 深部および狭部フィードフォワードニューラルネットワークの重み初期化改善

Improved weight initialization for deep and narrow feedforward neural network ( http://arxiv.org/abs/2311.03733v2 )

ライセンス: Link先を確認
Hyunwoo Lee, Yunho Kim, Seung Yeop Yang, Hayoung Choi, (参考訳) 適切なウェイト初期化設定とReLUアクティベーション関数は、現代のディープラーニングの基盤となり、人工知能のさまざまな領域にわたる高効率で効率的なニューラルネットワークモデルのトレーニングと展開を可能にしている。 ReLUニューロンが不活性になり、出力がゼロになる‘textquotedblleft dying ReLU’という問題は、ReLUアクティベーション機能を備えたディープニューラルネットワークのトレーニングにおいて大きな課題となる。 理論的研究と様々な手法がこの問題に対処するために導入されている。 しかし、これらの方法や研究にもかかわらず、ReLUアクティベーション機能を備えた極端に深く狭いフィードフォワードネットワークにおいて、トレーニングは依然として困難である。 本稿では,この問題に対処する新しいウェイト初期化手法を提案する。 初期重み行列のいくつかの特性を確立し、これらの特性が信号ベクトルの効果的な伝播を可能にすることを示す。 実験と既存手法との比較により,新しい初期化法の有効性を実証した。

Appropriate weight initialization settings, along with the ReLU activation function, have become cornerstones of modern deep learning, enabling the training and deployment of highly effective and efficient neural network models across diverse areas of artificial intelligence. The problem of \textquotedblleft dying ReLU," where ReLU neurons become inactive and yield zero output, presents a significant challenge in the training of deep neural networks with ReLU activation function. Theoretical research and various methods have been introduced to address the problem. However, even with these methods and research, training remains challenging for extremely deep and narrow feedforward networks with ReLU activation function. In this paper, we propose a novel weight initialization method to address this issue. We establish several properties of our initial weight matrix and demonstrate how these properties enable the effective propagation of signal vectors. Through a series of experiments and comparisons with existing methods, we demonstrate the effectiveness of the novel initialization method.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-01
# フェイクアライメント:LLMは本当にアライメントが良いのか?

Fake Alignment: Are LLMs Really Aligned Well? ( http://arxiv.org/abs/2311.05915v3 )

ライセンス: Link先を確認
Yixu Wang, Yan Teng, Kexin Huang, Chengqi Lyu, Songyang Zhang, Wenwei Zhang, Xingjun Ma, Yu-Gang Jiang, Yu Qiao, Yingchun Wang, (参考訳) 大規模言語モデル(LLM)の安全性に対する意識が高まり、安全性の評価に大きな関心が寄せられている。 本研究は,LLMの評価に関する未解決の問題,すなわち,複数選択質問とオープンエンド質問の相違点について検討する。 ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。 つまり、LLMはオープンエンドの安全問題に対する回答スタイルのみを記憶しているため、他の種類の安全テストの解決は不可能である。 我々は、この現象を偽アライメントと呼び、LLMにおけるその存在を実証的に検証するための比較ベンチマークを構築する。 本稿では,Fake alIgNment Evaluation (FINE) フレームワークと2つの新しいメトリクス - 一貫性スコア (CS) と一貫性安全スコア (CSS) を導入する。 FINEを14基の広く使われているLCMに適用すると、安全性が保証されているモデルが実際には整合性が悪いことが分かる。 その後, コントラスト蒸留法に基づく微調整データとして, 複数選択形式のデータを用いることができ, 微調整オーバーヘッドを最小限に抑えつつ, LLMの整合性を向上させることができることがわかった。 データとコードについては、https://github.com/AIFlames/Fake-Alignmentを参照してください。

The growing awareness of safety concerns in large language models (LLMs) has sparked considerable interest in the evaluation of safety. This study investigates an under-explored issue about the evaluation of LLMs, namely the substantial discrepancy in performance between multiple-choice questions and open-ended questions. Inspired by research on jailbreak attack patterns, we argue this is caused by mismatched generalization. That is, LLM only remembers the answer style for open-ended safety questions, which makes it unable to solve other forms of safety tests. We refer to this phenomenon as fake alignment and construct a comparative benchmark to empirically verify its existence in LLMs. We introduce a Fake alIgNment Evaluation (FINE) framework and two novel metrics--Consistency Score (CS) and Consistent Safety Score (CSS), which jointly assess two complementary forms of evaluation to quantify fake alignment and obtain corrected performance estimation. Applying FINE to 14 widely-used LLMs reveals several models with purported safety are poorly aligned in practice. Subsequently, we found that multiple-choice format data can also be used as high-quality contrast distillation-based fine-tuning data, which can strongly improve the alignment consistency of LLMs with minimal fine-tuning overhead. For data and code, see https://github.com/AIFlames/Fake-Alignment.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-01
# 大規模言語モデルの対話理解におけるFactual Consistencyの探索

Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models ( http://arxiv.org/abs/2311.07194v3 )

ライセンス: Link先を確認
Shuaijie She, Shujian Huang, Xingyun Wang, Yanke Zhou, Jiajun Chen, (参考訳) LLM(Large Language Models)は通常、対話の形式でユーザと対話し、指示に従って応答を生成する。 しかし、対話理解は、直接的に評価することが難しい一般的な言語能力である。 本研究では,対話要約タスクの助けを借りて,事実整合性問題に着目した評価を行うことを提案する。 異なるLLMの対話要約性能(DIAC-Sum)の評価と解析に加えて、生成された要約から事実質問を導き出し、より柔軟な対話理解尺度(DIAC-QA)として利用する。 評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。 最強の評価モデルであるChatGPTでさえ、その要約の16%にそのようなエラーがある。 現実的な疑問に答えるには、より難しいが、評価された全てのLLMの平均エラー率は36.1%である。 どちらの結果も深刻な欠陥を示している。 詳細な分析は、会話の主題や対象を理解することは、LLMにとって依然として困難であることを示している。 さらに, LLMの対話理解能力を高めるために, 自動構築マルチタスクデータを用いた微調整パラダイムを提案し, DIAC-QAの相対誤差率を11%削減した。

LLMs (Large Language Models) usually interact with users in the form of dialogue and generate responses following their instructions, which naturally require dialogue comprehension abilities. However, dialogue comprehension is a general language ability which is hard to be evaluated directly. In this work, we propose to perform the evaluation focusing on the factual consistency issue with the help of the dialogue summarization task. Besides evaluating and analyzing the dialogue summarization performance (DIAC-Sum) of different LLMs, we also derive factual questions from the generated summaries and use them as a more flexible measurement of dialogue comprehension (DIAC-QA). Our evaluation shows that, on average, 26.8% of the summaries generated by LLMs contain factual inconsistency. Even ChatGPT, the strongest model evaluated, has such errors in 16% of its summaries. For answering the factual questions, which is more challenging, the average error rate of all evaluated LLMs is 36.1%. Both results indicate serious deficiencies. Detailed analysis shows that the understanding of subject/object of the conversation is still challenging for LLMs. Furthermore, to stimulate and enhance the dialogue comprehension ability of LLMs, we propose a fine-tuning paradigm with auto-constructed multi-task data, which achieved a relative error rate reduction of 11% on DIAC-QA.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-01
# IPAの味:任意の言語におけるオープン語彙キーワードスポッティングと強制アライメントを目指して

The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language ( http://arxiv.org/abs/2311.08323v2 )

ライセンス: Link先を確認
Jian Zhu, Changbing Yang, Farhan Samir, Jahurul Islam, (参考訳) 本稿では,音声処理のための音素モデルを用いて,未知の言語に対して強い言語間共通性を実現することを実証する。 我々は,多言語音声コーパスであるIPAPACKを,多言語語族に属する115言語以上を対象とし,言語学者が選択的に検査した。 IPAPACKをベースとして,任意の音声信号と音素シーケンスの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルCLAP-IPAを提案する。 提案したモデルは95の未知の言語でテストされ、言語間で強い一般化性を示した。 音素と音声信号の時間的アライメントも、対照的な訓練から生まれ、目に見えない言語でのゼロショット強制アライメントを可能にした。 さらに, CLAP-IPAとフォワード・サムの損失を微調整し, 音声と音声のアライメントを改善するニューラル強制整合器IPA-ALIGNERを導入した。 評価結果から,IPA-ALIGNERは適応のない未確認言語に一般化可能であることが示唆された。

In this project, we demonstrate that phoneme-based models for speech processing can achieve strong crosslinguistic generalizability to unseen languages. We curated the IPAPACK, a massively multilingual speech corpora with phonemic transcriptions, encompassing more than 115 languages from diverse language families, selectively checked by linguists. Based on the IPAPACK, we propose CLAP-IPA, a multi-lingual phoneme-speech contrastive embedding model capable of open-vocabulary matching between arbitrary speech signals and phonemic sequences. The proposed model was tested on 95 unseen languages, showing strong generalizability across languages. Temporal alignments between phonemes and speech signals also emerged from contrastive training, enabling zeroshot forced alignment in unseen languages. We further introduced a neural forced aligner IPA-ALIGNER by finetuning CLAP-IPA with the Forward-Sum loss to learn better phone-to-audio alignment. Evaluation results suggest that IPA-ALIGNER can generalize to unseen languages without adaptation.
翻訳日:2024-04-04 12:32:59 公開日:2024-04-01
# 言い換えに対する大規模言語モデルのためのロバストなセマンティックスに基づく透かし

A Robust Semantics-based Watermark for Large Language Model against Paraphrasing ( http://arxiv.org/abs/2311.08721v2 )

ライセンス: Link先を確認
Jie Ren, Han Xu, Yiding Liu, Yingqian Cui, Shuaiqiang Wang, Dawei Yin, Jiliang Tang, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理において優れた能力を示している。 しかし、LSMは不適切な、あるいは違法に使用することができるという懸念もある。 LLMの悪意ある使用を防ぐために、LLMアプリケーションのデプロイにおいてLLM生成テキストの検出が重要となる。 透かしは、予め定義された秘密透かしを符号化してLLM生成内容を検出し、検出プロセスを容易にする効果的な方法である。 しかし、既存の透かし法の大半は、前例のトークンの単純なハッシュを利用して語彙を分割する。 このような透かしはパラフレーズで簡単に除去でき、それに応じて検出の有効性が大幅に損なわれる。 そこで本研究では,セマンティックスに基づく透かしフレームワークSemaMarkを提案する。 これは意味論を単純なトークンのハッシュの代替として利用している。 異なるパラフレーズの下でSemaMarkの有効性とロバスト性を示すための総合的な実験を行った。

Large language models (LLMs) have show great ability in various natural language tasks. However, there are concerns that LLMs are possible to be used improperly or even illegally. To prevent the malicious usage of LLMs, detecting LLM-generated text becomes crucial in the deployment of LLM applications. Watermarking is an effective strategy to detect the LLM-generated content by encoding a pre-defined secret watermark to facilitate the detection process. However, the majority of existing watermark methods leverage the simple hashes of precedent tokens to partition vocabulary. Such watermark can be easily eliminated by paraphrase and correspondingly the detection effectiveness will be greatly compromised. Thus, to enhance the robustness against paraphrase, we propose a semantics-based watermark framework SemaMark. It leverages the semantics as an alternative to simple hashes of tokens since the paraphrase will likely preserve the semantic meaning of the sentences. Comprehensive experiments are conducted to demonstrate the effectiveness and robustness of SemaMark under different paraphrases.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-01
# R-Spin:高能率話者と音響信号を用いた雑音不変表現学習

R-Spin: Efficient Speaker and Noise-invariant Representation Learning with Acoustic Pieces ( http://arxiv.org/abs/2311.09117v2 )

ライセンス: Link先を確認
Heng-Jui Chang, James Glass, (参考訳) 本稿では、話者不変クラスタリング(Spin)を用いた離散音響単位の学習により、話者および雑音不変の音声表現のためのデータ効率の高いドメイン固有自己スーパービジョン法であるRobust Spin(R-Spin)を提案する。 R-SpinはSpinの問題を解決し、音響部品の予測を学習することでコンテンツ表現を強化する。 R-Spinは、従来の最先端手法と比較して計算資源を12倍に削減し、高度に歪んだ音声シナリオでは性能を向上する。 本稿では,個々の単位が音声エンコーダの訓練にどう貢献するかを詳細に分析し,様々な音響環境におけるロバスト性の向上について述べる。

This paper introduces Robust Spin (R-Spin), a data-efficient domain-specific self-supervision method for speaker and noise-invariant speech representations by learning discrete acoustic units with speaker-invariant clustering (Spin). R-Spin resolves Spin's issues and enhances content representations by learning to predict acoustic pieces. R-Spin offers a 12X reduction in computational resources compared to previous state-of-the-art methods while outperforming them in severely distorted speech scenarios. This paper provides detailed analyses to show how discrete units contribute to speech encoder training and improving robustness in diverse acoustic environments.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-01
# AbsPyramid: 統一エンタテインメントグラフによる言語モデルの抽象化能力のベンチマーク

AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph ( http://arxiv.org/abs/2311.09174v3 )

ライセンス: Link先を確認
Zhaowei Wang, Haochen Shi, Weiqi Wang, Tianqing Fang, Hongming Zhang, Sehyun Choi, Xin Liu, Yangqiu Song, (参考訳) 認知研究は、抽象能力が人間の知性に不可欠であることを示している。 本稿では,抽象知識の221Kテキスト記述を統一化したものであるAbsPyramidについて述べる。 既存のリソースは、単純化されたイベントや特定のドメイン内の名詞や動詞にのみ触れるが、AbsPyramidは、さまざまなイベントの3つのコンポーネントの抽象的な知識を収集し、オープンドメインにおける言語モデルの抽象化能力を包括的に評価する。 実験結果から,現在のLLMではゼロショットや少数ショットの設定において,抽象知識の理解が困難であることが示された。 豊かな抽象知識を訓練することで、LLMは基本的な抽象能力を習得し、目に見えない事象に一般化できることがわかった。 その間、我々のベンチマークは2つの従来の抽象タスクにまたがるLLMを強化するために包括的であることを実証的に示す。

Cognitive research indicates that abstraction ability is essential in human intelligence, which remains under-explored in language models. In this paper, we present AbsPyramid, a unified entailment graph of 221K textual descriptions of abstraction knowledge. While existing resources only touch nouns or verbs within simplified events or specific domains, AbsPyramid collects abstract knowledge for three components of diverse events to comprehensively evaluate the abstraction ability of language models in the open domain. Experimental results demonstrate that current LLMs face challenges comprehending abstraction knowledge in zero-shot and few-shot settings. By training on our rich abstraction knowledge, we find LLMs can acquire basic abstraction abilities and generalize to unseen events. In the meantime, we empirically show that our benchmark is comprehensive to enhance LLMs across two previous abstraction tasks.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-01
# これらのモデルが信頼できないことを知るために人格テストは必要ない: 心理測定機器における大規模言語モデルの信頼性を評価する

You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments ( http://arxiv.org/abs/2311.09718v2 )

ライセンス: Link先を確認
Bangzhao Shu, Lechen Zhang, Minje Choi, Lavinia Dunagan, Lajanugen Logeswaran, Moontae Lee, Dallas Card, David Jurgens, (参考訳) 自然言語理解タスクにおけるLLM(Large Language Models)の汎用性は、社会科学の研究に人気を博している。 LLMの特性と本質的なペルソナを適切に理解するために、研究者は特定の意見についてLLMに尋ねる質問の形でプロンプトを使用する研究を行った。 本研究では,LLMが応答を一貫した,頑健な方法で誘導する現在のフォーマットが,応答を誘発するかどうかを,注意を喚起する。 まず,39種類のペルソナ測定機器を115個のペルソナ軸上に含む693の質問を含むデータセットを構築した。 さらに,軽微な変化を含む一連のプロンプトを設計し,LCMの回答生成能力や,応答オプションの順序の変更や文の否定といった内容レベルの変動に対する一貫性の検証を促す。 17種類のLLM実験の結果,単純な摂動でもモデルの問合せ能力は著しく低下し,ほとんどのLLMは否定整合性が低いことがわかった。 以上の結果から,現在広く普及しているプロンプトは,モデル知覚を正確かつ確実に捉えるには不十分であることが示唆された。

The versatility of Large Language Models (LLMs) on natural language understanding tasks has made them popular for research in social sciences. To properly understand the properties and innate personas of LLMs, researchers have performed studies that involve using prompts in the form of questions that ask LLMs about particular opinions. In this study, we take a cautionary step back and examine whether the current format of prompting LLMs elicits responses in a consistent and robust manner. We first construct a dataset that contains 693 questions encompassing 39 different instruments of persona measurement on 115 persona axes. Additionally, we design a set of prompts containing minor variations and examine LLMs' capabilities to generate answers, as well as prompt variations to examine their consistency with respect to content-level variations such as switching the order of response options or negating the statement. Our experiments on 17 different LLMs reveal that even simple perturbations significantly downgrade a model's question-answering ability, and that most LLMs have low negation consistency. Our results suggest that the currently widespread practice of prompting is insufficient to accurately and reliably capture model perceptions, and we therefore discuss potential alternatives to improve these issues.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-01
# 数学的推論における計画のためのOVM, アウトカム教師付き価値モデル

OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning ( http://arxiv.org/abs/2311.09724v2 )

ライセンス: Link先を確認
Fei Yu, Anningzhe Gao, Benyou Wang, (参考訳) 大規模言語モデル(LLM)は、しばしば複数の推論ステップを通して正確性を維持するのに苦労する。 誤りの伝播を低減するため、ステップバイステップでLM復号を指示するためにガイドデコードを用いる。 我々は、ガイド付き復号法において、不完全推論経路の可能性を評価することは、前者のアプローチが正しい最終解へと導くため、単にステップごとの正しさを保証することよりも、より有利であると主張している。 これにより、タスクは計画時の$\textit{value Estimation}$問題に変換される。 誘導復号化のための$\textit{outcome supervision for guided decoding}$は基本的に値モデルとして機能する。 さらに、OVMは、ステップレベルの正確性の労働集約的なアノテーションの必要性を排除し、スケーラビリティを大幅に向上させる。 GSM8KとGame of 24の2つの多段階数学的推論データセットに関する実験により,OVMモデルの優れた性能が示された。 特に、GSM8Kでは、我々の$\textbf{OVM-7Bモデルは、13BパラメータまでLLMの最先端結果を達成する。 これらの知見は、多段階推論タスクのトレーニング値モデルにおける結果管理の役割に関する新たな視点を提供し、ガイド付き復号における値推定の利点を理論的に正当化するものである。

Large language models (LLMs) often struggle with maintaining accuracy throughout multiple multiple reasoning steps, especially in mathematical reasoning where an error in earlier steps can propagate to subsequent ones and it ultimately leading to an incorrect answer. To reduce error propagation, guided decoding is employed to direct the LM decoding on a step-by-step basis. We argue that in guided decoding, assessing the potential of an incomplete reasoning path can be more advantageous than simply ensuring per-step correctness, as the former approach leads towards a correct final answer. This transforms the task into a $\textit{value estimation}$ problem in planning. Inspired by the findings that $\textit{outcome supervision for guided decoding essentially acts as a value model}$, we propose Outcome-supervised Value Model (OVM) that employs outcome supervision for training a value model, which prioritizes steps that lead to accurate conclusions. Furthermore, the OVM eliminates the need for labor-intensive annotations of step-level correctness, thereby significantly enhancing its scalability. Our experiments on two multi-step mathematical reasoning datasets, GSM8K and Game of 24, demonstrate the superior performance of the OVM model. Notably, in GSM8K, our $\textbf{OVM-7B model achieves state-of-the-art results among LLMs up to 13B parameters}$; especially it does not utilize GPT-4 or code execution. These findings offer a novel perspective on the role of outcome supervision in training value models for multi-step reasoning tasks and provide theoretical justification for its advantage in value estimation for guided decoding.
翻訳日:2024-04-04 12:23:14 公開日:2024-04-01
# 交互一様適応によるマルチモーダル表現学習

Multimodal Representation Learning by Alternating Unimodal Adaptation ( http://arxiv.org/abs/2311.10707v2 )

ライセンス: Link先を確認
Xiaohui Zhang, Jaehong Yoon, Mohit Bansal, Huaxiu Yao, (参考訳) 多様な感覚モードのデータを統合するマルチモーダル学習は、人工知能において重要な役割を果たす。 しかし、既存のマルチモーダル学習手法は、多モーダル学習において、あるモーダルが他のモーダルよりも優位に現れるような課題に苦しむことが多く、結果として準最適性能をもたらす。 この課題に対処するため,MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、従来の共同マルチモーダル学習プロセスを再編成し、モダリティ間の干渉を最小限に抑える。 同時に、異なるモード間で連続的な最適化を行う共有ヘッドを通じて、クロスモーダルな相互作用をキャプチャする。 この最適化プロセスは、共有ヘッドが以前取得した情報を失うのを防止するために、勾配修正機構により制御される。 推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。 大規模な実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。 これらの実験は、競合する先行アプローチよりもMLAの方が優れていることを示す。 私たちのコードはhttps://github.com/Cecile-hi/Multimodal-Learning-with-Alternating-Unimodal-Adaptationで利用可能です。

Multimodal learning, which integrates data from diverse sensory modes, plays a pivotal role in artificial intelligence. However, existing multimodal learning methods often struggle with challenges where some modalities appear more dominant than others during multimodal learning, resulting in suboptimal performance. To address this challenge, we propose MLA (Multimodal Learning with Alternating Unimodal Adaptation). MLA reframes the conventional joint multimodal learning process by transforming it into an alternating unimodal learning process, thereby minimizing interference between modalities. Simultaneously, it captures cross-modal interactions through a shared head, which undergoes continuous optimization across different modalities. This optimization process is controlled by a gradient modification mechanism to prevent the shared head from losing previously acquired information. During the inference phase, MLA utilizes a test-time uncertainty-based model fusion mechanism to integrate multimodal information. Extensive experiments are conducted on five diverse datasets, encompassing scenarios with complete modalities and scenarios with missing modalities. These experiments demonstrate the superiority of MLA over competing prior approaches. Our code is available at https://github.com/Cecile-hi/Multimodal-Learning-with-Alternating-Unimodal-Adaptation.
翻訳日:2024-04-04 12:13:26 公開日:2024-04-01
# 信頼性を確保するための臨床証拠要約のためのジェネレーティブAIの活用

Leveraging Generative AI for Clinical Evidence Summarization Needs to Ensure Trustworthiness ( http://arxiv.org/abs/2311.11211v3 )

ライセンス: Link先を確認
Gongbo Zhang, Qiao Jin, Denis Jered McInerney, Yong Chen, Fei Wang, Curtis L. Cole, Qian Yang, Yanshan Wang, Bradley A. Malin, Mor Peleg, Byron C. Wallace, Zhiyong Lu, Chunhua Weng, Yifan Peng, (参考訳) エビデンスベースの医療は、医療の意思決定と実践を最大限に活用することで、医療の質を向上させることを約束する。 様々な情報源から得ることができる医学的証拠の急速な成長は、明らかな情報の収集、評価、合成に挑戦する。 大規模言語モデルによって実証された、生成AIの最近の進歩は、困難な作業の促進を約束する。 しかし、説明責任、公正、包括的モデルの開発は依然として複雑な作業である。 この観点から、医療証拠の自動要約の文脈において、生成的AIの信頼性について論じる。

Evidence-based medicine promises to improve the quality of healthcare by empowering medical decisions and practices with the best available evidence. The rapid growth of medical evidence, which can be obtained from various sources, poses a challenge in collecting, appraising, and synthesizing the evidential information. Recent advancements in generative AI, exemplified by large language models, hold promise in facilitating the arduous task. However, developing accountable, fair, and inclusive models remains a complicated undertaking. In this perspective, we discuss the trustworthiness of generative AI in the context of automated summarization of medical evidence.
翻訳日:2024-04-04 12:13:26 公開日:2024-04-01
# 改良ハートリー・フォック近似における同質希釈ボースガスの有限温度における臨界温度と熱力学特性

Critical temperature and thermodynamic properties of a homogeneous dilute weakly interacting Bose gas within the improved Hartree-Fock approximation at finite temperature ( http://arxiv.org/abs/2311.13822v2 )

ライセンス: Link先を確認
Nguyen Van Thu, Pham Duy Thanh, (参考訳) Cornwall-Jackiw-Tomboulis 実効作用法を用いて,臨界領域近傍の有限温度でボースガスと弱い相互作用を示す同質希薄ガスについて検討した。 長い議論、すなわち臨界温度のシフトは、定数$c$と$a$の普遍形式 $\Delta T_C/T_C^{(0)} = cn_0^{1/3}a_s$ で検討され、得られる。 非凝縮分は、量子ゆらぎと熱出口によって寄与され、3項の和で表される。 これらの用語は、量子ゆらぎ、熱ゆらぎ、および両方に対応する。 実際、特定の熱容量と臨界指数は計算され、過去の研究や実験データとよく一致している。

By means of Cornwall-Jackiw-Tomboulis effective action approach we investigate a homogeneous dilute weakly interacting Bose gas at finite temperature in vicinity of critical region. A longstanding debate, the shift of critical temperature, is considered and obtained in the universal form $\Delta T_C/T_C^{(0)} = cn_0^{1/3}a_s$ with constants $c$ and $a$. The non-condensate fraction is contributed by quantum fluctuations as well as thermal exitations and can be expressed in sum of three terms. These terms correspond to the quantum fluctuations, thermal fluctuations and both. Indeed, the specific heat capacity and critical exponents are calculated and in excellent agreement with those in previous works and experimental data.
翻訳日:2024-04-04 12:13:26 公開日:2024-04-01
# 後部蒸留サンプリング

Posterior Distillation Sampling ( http://arxiv.org/abs/2311.13831v3 )

ライセンス: Link先を確認
Juil Koo, Chanho Park, Minhyuk Sung, (参考訳) 本稿では,拡散モデルに基づくパラメトリック画像編集のための新しい最適化手法であるPosterior Distillation Sampling (PDS)を紹介する。 様々なパラメトリック画像の処理に拡散モデルの強力な2次元前処理を利用する既存の最適化手法は,主に生成に重点を置いている。 生成とは異なり、編集にはターゲット属性への準拠とソースコンテンツのアイデンティティの保存のバランスが必要である。 近年の2次元画像編集法は,拡散モデルの生成過程に符号化された確率的潜伏を利用して,このバランスを達成している。 画素空間で示される拡散モデルのパラメータ空間への編集能力を拡張するため、2次元画像編集法をPDSという最適化形式に再構成する。 PDSはソースとターゲットの確率的潜在値と一致し、ソースのアイデンティティを維持しながら、望ましい属性と整合する多様なパラメータ空間におけるターゲットのサンプリングを可能にする。 この最適化は, 生成過程と対象属性との類似性を示すが, 生成過程の軌跡との整合性を示す。 Neural Radiance Fields と Scalable Vector Graphics representations の広範囲な編集結果は、PDS が上記のパラメータ空間間のバランスを満たすためにターゲットをサンプリングできることを示している。

We introduce Posterior Distillation Sampling (PDS), a novel optimization method for parametric image editing based on diffusion models. Existing optimization-based methods, which leverage the powerful 2D prior of diffusion models to handle various parametric images, have mainly focused on generation. Unlike generation, editing requires a balance between conforming to the target attribute and preserving the identity of the source content. Recent 2D image editing methods have achieved this balance by leveraging the stochastic latent encoded in the generative process of diffusion models. To extend the editing capabilities of diffusion models shown in pixel space to parameter space, we reformulate the 2D image editing method into an optimization form named PDS. PDS matches the stochastic latents of the source and the target, enabling the sampling of targets in diverse parameter spaces that align with a desired attribute while maintaining the source's identity. We demonstrate that this optimization resembles running a generative process with the target attribute, but aligning this process with the trajectory of the source's generative process. Extensive editing results in Neural Radiance Fields and Scalable Vector Graphics representations demonstrate that PDS is capable of sampling targets to fulfill the aforementioned balance across various parameter spaces.
翻訳日:2024-04-04 12:13:26 公開日:2024-04-01
# VSCode: 2D Prompt Learningによる汎用ビジュアルサリエントとカモフラージュオブジェクト検出

VSCode: General Visual Salient and Camouflaged Object Detection with 2D Prompt Learning ( http://arxiv.org/abs/2311.15011v2 )

ライセンス: Link先を確認
Ziyang Luo, Nian Liu, Wangbo Zhao, Xuguang Yang, Dingwen Zhang, Deng-Ping Fan, Fahad Khan, Junwei Han, (参考訳) サリアントオブジェクト検出(SOD)とカモフラージュオブジェクト検出(COD)は、全く異なるバイナリマッピングタスクである。 これらのタスクには複数のモダリティが含まれ、共通性とユニークなキューを共有する。 既存の研究はしばしば複雑なタスク固有の専門モデルを採用しており、冗長性と準最適結果をもたらす可能性がある。 4つのSODタスクと3つのCODタスクを共同で扱うために,新しい2Dプロンプト学習を備えたジェネラリストモデルであるVSCodeを紹介した。 基礎モデルとしてVSTを利用し、エンコーダ・デコーダアーキテクチャ内で2Dプロンプトを導入し、2つの異なる次元におけるドメインとタスク固有の知識を学習する。 迅速な識別損失は、モデル最適化の恩恵を受けるために特異性を歪めるのに役立つ。 VSCodeは26のデータセット上の6つのタスクの最先端メソッドよりも優れており、RGB-D CODのような2Dプロンプトを組み合わせることで、目に見えないタスクにゼロショットの一般化を示す。 ソースコードはhttps://github.com/Ssssuperior/VSCode.comで公開されている。

Salient object detection (SOD) and camouflaged object detection (COD) are related yet distinct binary mapping tasks. These tasks involve multiple modalities, sharing commonalities and unique cues. Existing research often employs intricate task-specific specialist models, potentially leading to redundancy and suboptimal results. We introduce VSCode, a generalist model with novel 2D prompt learning, to jointly address four SOD tasks and three COD tasks. We utilize VST as the foundation model and introduce 2D prompts within the encoder-decoder architecture to learn domain and task-specific knowledge on two separate dimensions. A prompt discrimination loss helps disentangle peculiarities to benefit model optimization. VSCode outperforms state-of-the-art methods across six tasks on 26 datasets and exhibits zero-shot generalization to unseen tasks by combining 2D prompts, such as RGB-D COD. Source code has been available at https://github.com/Sssssuperior/VSCode.
翻訳日:2024-04-04 12:13:26 公開日:2024-04-01
# MobileCLIP:マルチモーダル強化トレーニングによる高速画像テキストモデル

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training ( http://arxiv.org/abs/2311.17049v2 )

ライセンス: Link先を確認
Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Raviteja Vemulapalli, Oncel Tuzel, (参考訳) CLIPのような画像テキスト基盤モデルの対照的な事前トレーニングは、優れたゼロショット性能を示し、幅広い下流タスクにおいてロバスト性を改善した。 しかし、これらのモデルは大きなトランスフォーマーベースのエンコーダを使用しており、メモリと遅延のオーバーヘッドが大きいため、モバイルデバイスへのデプロイが困難である。 本研究では,実行時性能に最適化された画像テキストモデルの新たなファミリであるMobileCLIPと,マルチモーダル強化トレーニング(マルチモーダル強化トレーニング)を新たに導入する。 提案手法は,画像キャプションモデルと強力なCLIPエンコーダのアンサンブルからの知識伝達を利用して,効率的なモデルの精度を向上させる。 我々のアプローチは、強化データセットに付加的な知識を格納することで、列車時の計算オーバーヘッドを回避する。 MobileCLIPは、ゼロショット分類と複数のデータセットの検索タスクのための、最先端の遅延精度トレードオフを新たに設定する。 われわれのMobileCLIP-S2は2.3$\times$速く、ViT-B/16をベースにしたCLIPモデルよりも正確である。 さらに,VT-B/16画像バックボーンに基づくCLIPモデルのトレーニングによるマルチモーダル強化トレーニングの有効性を示す。 さらに,提案手法は,非強化CLIPトレーニングと比較して,学習効率が向上する10$\times$-1000$\times$。 コードとモデルはhttps://github.com/apple/ml-mobileclip で公開されている。

Contrastive pretraining of image-text foundation models, such as CLIP, demonstrated excellent zero-shot performance and improved robustness on a wide range of downstream tasks. However, these models utilize large transformer-based encoders with significant memory and latency overhead which pose challenges for deployment on mobile devices. In this work, we introduce MobileCLIP -- a new family of efficient image-text models optimized for runtime performance along with a novel and efficient training approach, namely multi-modal reinforced training. The proposed training approach leverages knowledge transfer from an image captioning model and an ensemble of strong CLIP encoders to improve the accuracy of efficient models. Our approach avoids train-time compute overhead by storing the additional knowledge in a reinforced dataset. MobileCLIP sets a new state-of-the-art latency-accuracy tradeoff for zero-shot classification and retrieval tasks on several datasets. Our MobileCLIP-S2 variant is 2.3$\times$ faster while more accurate compared to previous best CLIP model based on ViT-B/16. We further demonstrate the effectiveness of our multi-modal reinforced training by training a CLIP model based on ViT-B/16 image backbone and achieving +2.9% average performance improvement on 38 evaluation benchmarks compared to the previous best. Moreover, we show that the proposed approach achieves 10$\times$-1000$\times$ improved learning efficiency when compared with non-reinforced CLIP training. Code and models are available at https://github.com/apple/ml-mobileclip .
翻訳日:2024-04-04 12:13:26 公開日:2024-04-01
# それぞれのテスト画像は特定のプロンプトを保持する:2次元医用画像分割のための連続的なテスト時間適応

Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation ( http://arxiv.org/abs/2311.18363v3 )

ライセンス: Link先を確認
Ziyang Chen, Yiwen Ye, Mengkang Lu, Yongsheng Pan, Yong Xia, (参考訳) 分布シフトは、異なる医療センターから取得した医療画像に広く存在し、実世界の応用に事前訓練されたセマンティックセグメンテーションモデルを展開する上で重要な障害となる。 テスト時間適応は、推論中にドメイン間の分布シフトに取り組むのに有効であることが証明されている。 しかし、既存のほとんどの手法は、事前訓練されたモデルを更新することで適応し、一連の分散シフト(すなわち連続的なテスト時間適応設定の下で)に遭遇した場合にエラーの蓄積や破滅的な忘れをしがちである。 モデル更新に伴うこれらの課題を克服するため,本論文では,事前学習したモデルを凍結し,各テストイメージに対して特定のプロンプトをトレーニングし,バッチ正規化層内の統計を整合させるためのVisual Prompt-based Test-Time Adaptation (VPTTA)法を提案する。 具体的には、少数のパラメータしか持たず、単一のイテレーションで効果的に訓練できる軽量な低周波プロンプトを提案する。 迅速な初期化を促進するため、我々はVPTTAをメモリバンクに装備し、現在のプロンプトを以前のものから恩恵を受ける。 さらに、ソースとターゲット統計を混合してウォームアップ統計を構築し、トレーニングプロセスを容易にするウォームアップ機構を設計する。 2つの医用画像セグメンテーションベンチマークタスクにおいて、他の最先端手法よりもVPTTAの方が優れていることを示す。 事前トレーニング済みのソースモデルのコードと重みはhttps://github.com/Chen-Ziyang/VPTTAで公開されている。

Distribution shift widely exists in medical images acquired from different medical centres and poses a significant obstacle to deploying the pre-trained semantic segmentation model in real-world applications. Test-time adaptation has proven its effectiveness in tackling the cross-domain distribution shift during inference. However, most existing methods achieve adaptation by updating the pre-trained models, rendering them susceptible to error accumulation and catastrophic forgetting when encountering a series of distribution shifts (i.e., under the continual test-time adaptation setup). To overcome these challenges caused by updating the models, in this paper, we freeze the pre-trained model and propose the Visual Prompt-based Test-Time Adaptation (VPTTA) method to train a specific prompt for each test image to align the statistics in the batch normalization layers. Specifically, we present the low-frequency prompt, which is lightweight with only a few parameters and can be effectively trained in a single iteration. To enhance prompt initialization, we equip VPTTA with a memory bank to benefit the current prompt from previous ones. Additionally, we design a warm-up mechanism, which mixes source and target statistics to construct warm-up statistics, thereby facilitating the training process. Extensive experiments demonstrate the superiority of our VPTTA over other state-of-the-art methods on two medical image segmentation benchmark tasks. The code and weights of pre-trained source models are available at https://github.com/Chen-Ziyang/VPTTA.
翻訳日:2024-04-04 12:13:26 公開日:2024-04-01
# テキスト誘導型遅延拡散画像編集のためのコントラストDenoising Score

Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing ( http://arxiv.org/abs/2311.18608v2 )

ライセンス: Link先を確認
Hyelin Nam, Gihyun Kwon, Geon Yeong Park, Jong Chul Ye, (参考訳) テキストと画像の拡散モデルの顕著な出現により、画像編集手法はより多様化し、進化を続けている。 Delta Denoising Score (DDS) - Score Distillation Sampling (SDS)フレームワークに基づく画像編集技術で、テキストから画像への拡散モデルのリッチな生成モデルを活用する。 しかし、スコアリング機能の違いにのみ依存することは、画像編集の重要な側面である原画像から特定の構造要素を保存するのに不十分である。 そこで本研究では,遅延拡散モデル(LDM)のためのCDS(Contrastive Denoising Score, Contrastive Denoising Score, CDS)と呼ばれる,非常に単純なDDSの変形について述べる。 画像間翻訳(CUT)におけるDDSとコントラスト学習の類似性と相違に着想を得て,DDSフレームワーク内でのCUT損失を用いた簡単なアプローチを提案する。 従来のCUT手法のように補助的ネットワークを利用するのではなく, LDMの中間的特徴, 特に豊かな空間情報を持つ自己注意層の特徴を利用する。 提案手法は, 画像間のゼロショット変換とニューラルラディアンスフィールド(NeRF)の編集を可能にし, コンテンツ制御性を維持しつつ, 入力と出力の間の構造的対応を実現する。 定性的な結果と比較を行った結果,提案手法の有効性が示された。 プロジェクトページ: https://hyelinnam.github.io/CDS/

With the remarkable advent of text-to-image diffusion models, image editing methods have become more diverse and continue to evolve. A promising recent approach in this realm is Delta Denoising Score (DDS) - an image editing technique based on Score Distillation Sampling (SDS) framework that leverages the rich generative prior of text-to-image diffusion models. However, relying solely on the difference between scoring functions is insufficient for preserving specific structural elements from the original image, a crucial aspect of image editing. To address this, here we present an embarrassingly simple yet very powerful modification of DDS, called Contrastive Denoising Score (CDS), for latent diffusion models (LDM). Inspired by the similarities and differences between DDS and the contrastive learning for unpaired image-to-image translation(CUT), we introduce a straightforward approach using CUT loss within the DDS framework. Rather than employing auxiliary networks as in the original CUT approach, we leverage the intermediate features of LDM, specifically those from the self-attention layers, which possesses rich spatial information. Our approach enables zero-shot image-to-image translation and neural radiance field (NeRF) editing, achieving structural correspondence between the input and output while maintaining content controllability. Qualitative results and comparisons demonstrates the effectiveness of our proposed method. Project page: https://hyelinnam.github.io/CDS/
翻訳日:2024-04-04 12:13:26 公開日:2024-04-01
# OpenStereo: ステレオマッチングと強力なベースラインのための総合ベンチマーク

OpenStereo: A Comprehensive Benchmark for Stereo Matching and Strong Baseline ( http://arxiv.org/abs/2312.00343v5 )

ライセンス: Link先を確認
Xianda Guo, Juntao Lu, Chenming Zhang, Yiqi Wang, Yiqun Duan, Tian Yang, Zheng Zhu, Long Chen, (参考訳) ステレオマッチングは、ロボット工学、自律運転、その他のコンピュータビジョンタスクにおいて非常に重要であるステレオ画像ペア内のマッチングピクセル間の格差を推定することを目的としている。 近年、数多くの印象的な手法が開発されているにもかかわらず、その結果を複製し、実用的なアプリケーションに適したアーキテクチャを決定することは依然として困難である。 このギャップに対処するため,本研究では,性能向上にのみ焦点をあてるのではなく,実用性を重視した総合的なベンチマークを提案する。 具体的には,OpenStereoと呼ばれる,柔軟で効率的なステレオマッチングコードベースを開発する。 OpenStereoには10以上のネットワークモデルのトレーニングと推論コードが含まれています。 OpenStereoに基づいて実験を行い、元の論文で報告されたパフォーマンス指標を達成または超えた。 さらに, 立体マッチングにおける最近の展開の総合的分析とデコンストラクションを, 包括的アブレーション実験を通じて実施する。 これらの調査により、強力なベースラインモデルであるStereoBaseが誕生した。 私たちのStereoBaseは、SceneFlow、KITTI 2015、2012(Reflective)で第1位であり、すべてのメトリクスで最高のパフォーマンスを実現しています。 さらに、StereoBaseは強力なクロスデータセットの一般化を持ち、コードは \url{https://github.com/XiandaGuo/OpenStereo} で入手できる。

Stereo matching aims to estimate the disparity between matching pixels in a stereo image pair, which is of great importance to robotics, autonomous driving, and other computer vision tasks. Despite the development of numerous impressive methods in recent years, replicating their results and determining the most suitable architecture for practical application remains challenging. Addressing this gap, our paper introduces a comprehensive benchmark focusing on practical applicability rather than solely on performance enhancement. Specifically, we develop a flexible and efficient stereo matching codebase, called OpenStereo. OpenStereo includes training and inference codes of more than 10 network models, making it, to our knowledge, the most complete stereo matching toolbox available. Based on OpenStereo, we conducted experiments and have achieved or surpassed the performance metrics reported in the original paper. Additionally, we carry out an exhaustive analysis and deconstruction of recent developments in stereo matching through comprehensive ablative experiments. These investigations inspired the creation of StereoBase, a strong baseline model. Our StereoBase ranks 1st on SceneFlow, KITTI 2015, 2012 (Reflective) among published methods and achieves the best performance across all metrics. In addition, StereoBase has strong cross-dataset generalization.Code is available at \url{https://github.com/XiandaGuo/OpenStereo}.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-01
# 量子時系列類似度尺度と量子時間カーネル

Quantum Time Series Similarity Measures and Quantum Temporal Kernels ( http://arxiv.org/abs/2312.01602v2 )

ライセンス: Link先を確認
Vanio Markov, Vladimir Rastunkov, Daniel Fry, (参考訳) 本稿では,確率的記号時系列の分類のための類似度尺度とカーネルを設計するための量子コンピューティング手法を提案する。 機械学習の分野では、カーネルは様々な類似性に基づく分類、クラスタリング、回帰アルゴリズムの重要な構成要素である。 問題固有のカーネルを考案するための効果的な戦略は、実例空間の既存の生成モデルを活用することである。 本研究では、量子隠れマルコフモデル(QHMM)と呼ばれる量子生成モデルが、その基礎となる分布を記述すると仮定する。 シーケンス構造と確率はモデルの密度演算子空間内の遷移によって決定される。 その結果、QHMMは例空間から密度作用素のより広い量子空間への写像を定義する。 量子状態間のトレースやビュール距離などの分岐測度を用いて、シーケンス類似性を評価する。 我々は、カーネル推定類似性の分布とQHMMのヒルベルト空間の次元性との関係について、広範なシミュレーションを行った。 予想されたように、ヒルベルト空間の高次元はより大きなシーケンス距離とより明確な例の分離に対応する。 カーネルの性能を実証的に評価するために,市場における方向性価格運動の簡易な生成モデルに基づいて分類タスクを定義した。 我々は、古典的カーネルと量子的カーネルの両方を用いて、2つの広く使われているカーネルベースのアルゴリズム、ベクトルマシンとk-アネレストを実装した。 全ての分類タスクのシナリオにおいて、量子カーネルは古典的なタスクよりも優れた性能を示した。

This article presents a quantum computing approach to designing of similarity measures and kernels for classification of stochastic symbolic time series. In the area of machine learning, kernels are important components of various similarity-based classification, clustering, and regression algorithms. An effective strategy for devising problem-specific kernels is leveraging existing generative models of the example space. In this study we assume that a quantum generative model, known as quantum hidden Markov model (QHMM), describes the underlying distributions of the examples. The sequence structure and probability are determined by transitions within model's density operator space. Consequently, the QHMM defines a mapping from the example space into the broader quantum space of density operators. Sequence similarity is evaluated using divergence measures such as trace and Bures distances between quantum states. We conducted extensive simulations to explore the relationship between the distribution of kernel-estimated similarity and the dimensionality of the QHMMs Hilbert space. As anticipated, a higher dimension of the Hilbert space corresponds to greater sequence distances and a more distinct separation of the examples. To empirically evaluate the performance of the kernels, we defined classification tasks based on a simplified generative model of directional price movement in the stock market. We implemented two widely-used kernel-based algorithms - support vector machines and k-nearest neighbors - using both classical and quantum kernels. Across all classification task scenarios, the quantum kernels consistently demonstrated superior performance compared to their classical counterparts.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-01
# 身体的ナビゲーションのためのジェネリストモデル学習に向けて

Towards Learning a Generalist Model for Embodied Navigation ( http://arxiv.org/abs/2312.02010v3 )

ライセンス: Link先を確認
Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang, (参考訳) 世界と対話できる汎用エージェントの構築は、AIシステムの興味深いターゲットであり、エージェントが指示に従ってナビゲートしたり、クエリに応答する必要のある、実施されたナビゲーションの研究を刺激する。 大きく進歩したにもかかわらず、以前の研究は主にタスク固有のエージェントに焦点を当てており、目に見えないシナリオに対する一般化性に欠けていた。 近年、LSMは様々な分野において顕著な能力を示しており、航法を具現化するための有望な機会を提供している。 そこで本研究では,NaviLLMを具体化したナビゲーションモデルを提案する。 スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。 スキーマベースの命令は、様々なタスクを生成問題に柔軟に投入することで、幅広いタスクを統一する。 このアプローチにより、さまざまなデータセットからさまざまなデータソースをトレーニングに統合し、ナビゲーションを具体化するために必要な幅広い機能を備えたNaviLLMを装備できます。 我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。 実験により, CVDN, SOON, ScanQA上での最先端性能が得られた。 具体的には、CVDNにおける目標進捗の29%のかなりのマージンで、従来の最先端の手法を超越している。 さらに,本モデルでは高い一般化性を示し,未知の課題,例えば具体的質問応答,3Dキャプションなどの印象的な結果を示す。

Building a generalist agent that can interact with the world is the intriguing target of AI systems, thus spurring the research for embodied navigation, where an agent is required to navigate according to instructions or respond to queries. Despite the major progress attained, previous works primarily focus on task-specific agents and lack generalizability to unseen scenarios. Recently, LLMs have presented remarkable capabilities across various fields, and provided a promising opportunity for embodied navigation. Drawing on this, we propose the first generalist model for embodied navigation, NaviLLM. It adapts LLMs to embodied navigation by introducing schema-based instruction. The schema-based instruction flexibly casts various tasks into generation problems, thereby unifying a wide range of tasks. This approach allows us to integrate diverse data sources from various datasets into the training, equipping NaviLLM with a wide range of capabilities required by embodied navigation. We conduct extensive experiments to evaluate the performance and generalizability of our model. The experimental results demonstrate that our unified model achieves state-of-the-art performance on CVDN, SOON, and ScanQA. Specifically, it surpasses the previous stats-of-the-art method by a significant margin of 29% in goal progress on CVDN. Moreover, our model also demonstrates strong generalizability and presents impressive results on unseen tasks, e.g., embodied question answering and 3D captioning.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-01
# DiffiT:画像生成のための拡散ビジョン変換器

DiffiT: Diffusion Vision Transformers for Image Generation ( http://arxiv.org/abs/2312.02139v2 )

ライセンス: Link先を確認
Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat, (参考訳) 高い発現率と高い試料品質を持つ拡散モデルにより, 生成領域における状態-Of-The-Art (SOTA) の性能が向上した。 ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。 本稿では,拡散型生成学習におけるViTの有効性について検討し,拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。 具体的には,認知過程のきめ細かい制御手法を提案し,時間依存型マルチヘッド自己注意(TMSA)機構を導入する。 DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。 また,遅延および画像空間DiffiTモデルを提案し,様々なクラス条件および非条件合成タスクに対して,異なる解像度でSOTA性能を示す。 Latent DiffiTモデルでは、ImageNet-256データセットで新しいSOTA FIDスコアが1.73で、それぞれ19.85%、16.88%のパラメータがMDTやDiTのような他のトランスフォーマーベースの拡散モデルよりも小さい。 コード:https://github.com/NVlabs/DiffiT

Diffusion models with their powerful expressivity and high sample quality have achieved State-Of-The-Art (SOTA) performance in the generative domain. The pioneering Vision Transformer (ViT) has also demonstrated strong modeling capabilities and scalability, especially for recognition tasks. In this paper, we study the effectiveness of ViTs in diffusion-based generative learning and propose a new model denoted as Diffusion Vision Transformers (DiffiT). Specifically, we propose a methodology for finegrained control of the denoising process and introduce the Time-dependant Multihead Self Attention (TMSA) mechanism. DiffiT is surprisingly effective in generating high-fidelity images with significantly better parameter efficiency. We also propose latent and image space DiffiT models and show SOTA performance on a variety of class-conditional and unconditional synthesis tasks at different resolutions. The Latent DiffiT model achieves a new SOTA FID score of 1.73 on ImageNet-256 dataset while having 19.85%, 16.88% less parameters than other Transformer-based diffusion models such as MDT and DiT, respectively. Code: https://github.com/NVlabs/DiffiT
翻訳日:2024-04-04 12:03:39 公開日:2024-04-01
# 遠方拡散による感情音声駆動型3次元身体アニメーション

Emotional Speech-driven 3D Body Animation via Disentangled Latent Diffusion ( http://arxiv.org/abs/2312.04466v2 )

ライセンス: Link先を確認
Kiran Chhatre, Radek Daněček, Nikos Athanasiou, Giorgio Becherini, Christopher Peters, Michael J. Black, Timo Bolkart, (参考訳) 既存の音声から3次元の人間のジェスチャーを合成する方法は、有望な結果を示しているが、それらが生成したジェスチャーに対する感情の影響を明示的にモデル化するものではない。 代わりに、これらの手法は、表現された感情を制御せずに、音声から直接アニメーションを出力する。 この制限に対処するために,潜伏拡散に基づく感情音声駆動体アニメーションモデルAMUSEを提案する。 我々の観察では、内容(すなわち、発声リズムと単語発声に関連するジェスチャー)、感情、個人的スタイルが分離可能である。 これを説明するため、AMUSEは、駆動音声を3つの非絡み合った潜伏ベクトル(コンテンツ用、感情用、個人用)にマッピングする。 ジェスチャー動作シーケンスを生成するために訓練された潜伏拡散モデルが、これらの潜伏ベクトルに条件付けされる。 訓練後、AMUSEは、音声から直接3Dの人間のジェスチャーを合成し、表現された感情とスタイルを制御し、駆動音声からのコンテンツと他の音声シーケンスの感情とスタイルを組み合わせる。 拡散モデルのノイズをランダムにサンプリングすると、同じ感情表現性を持つジェスチャーのバリエーションがさらに生成される。 定性的、定量的、知覚的な評価は、AMUSEが現実的なジェスチャーシーケンスを出力することを示す。 現状と比較して、生成したジェスチャーは、音声内容とよりよく同期し、入力された音声によって表現される感情をより良く表現する。 私たちのコードは amuse.is.tue.mpg.de で利用可能です。

Existing methods for synthesizing 3D human gestures from speech have shown promising results, but they do not explicitly model the impact of emotions on the generated gestures. Instead, these methods directly output animations from speech without control over the expressed emotion. To address this limitation, we present AMUSE, an emotional speech-driven body animation model based on latent diffusion. Our observation is that content (i.e., gestures related to speech rhythm and word utterances), emotion, and personal style are separable. To account for this, AMUSE maps the driving audio to three disentangled latent vectors: one for content, one for emotion, and one for personal style. A latent diffusion model, trained to generate gesture motion sequences, is then conditioned on these latent vectors. Once trained, AMUSE synthesizes 3D human gestures directly from speech with control over the expressed emotions and style by combining the content from the driving speech with the emotion and style of another speech sequence. Randomly sampling the noise of the diffusion model further generates variations of the gesture with the same emotional expressivity. Qualitative, quantitative, and perceptual evaluations demonstrate that AMUSE outputs realistic gesture sequences. Compared to the state of the art, the generated gestures are better synchronized with the speech content, and better represent the emotion expressed by the input speech. Our code is available at amuse.is.tue.mpg.de.
翻訳日:2024-04-04 12:03:39 公開日:2024-04-01
# 繰り返し相互作用によるリンドブラディアンダイナミクスの量子シミュレーション

Quantum Simulation of Lindbladian Dynamics via Repeated Interactions ( http://arxiv.org/abs/2312.05371v3 )

ライセンス: Link先を確認
Matthew Pocrnic, Dvira Segal, Nathan Wiebe, (参考訳) リンドブラッド方程式(リンドブラッドりょうり、Lindblad equation)は、散逸動力学を行う量子系にシュルンディンガー方程式を一般化する方程式である。 したがって、リンドブラディアン力学の量子シミュレーションは非一意であり、最先端の量子アルゴリズムの単純適用を妨げている。 ここでは、繰り返し相互作用(RI) CPTP写像に基づくリンドブラディアン力学と進化の近似対応を利用して、リンドブラディアン力学のハミルトン的定式化を記述し、マスター方程式に有界な厳密な誤差を導出する。 具体的には、Liouvillian $e^{t\mathcal{L}}$を誤差$\epsilon$スケールでシミュレートするために必要な相互作用の数を示す: $\nu\in O(t^2\|\mathcal{L}\|_{1\rightarrow 1}^2/\epsilon)$。 これは、リンドブラディアン近似のダイナミックスへの誤差が、オープンシステムシミュレーションのための既存の量子アルゴリズムにおいて明示的に境界づけられていないためである。 次に、反復Qubitizationアプローチとトロッタースズキ公式を用いてRIマップをシミュレートする量子アルゴリズムを提供し、反復Qubitizationでは、力学をシミュレートするのに必要な演算数(固定値$$\nu$)が弱結合極限において$O(\alpha_0 t + \nu \log(1/\epsilon)/\log\log(1/\epsilon))$$$\alpha_0$がシステムとバスハミルトニアンの係数1ドルノルムであることを示す。 このスケーリングは、$\nu$の複雑さが考慮されない場合、最適に思える。

The Lindblad equation generalizes the Schr\"{o}dinger equation to quantum systems that undergo dissipative dynamics. The quantum simulation of Lindbladian dynamics is therefore non-unitary, preventing a naive application of state-of-the-art quantum algorithms. Here, we make use of an approximate correspondence between Lindbladian dynamics and evolution based on Repeated Interaction (RI) CPTP maps to write down a Hamiltonian formulation of the Lindblad dynamics and derive a rigorous error bound on the master equation. Specifically, we show that the number of interactions needed to simulate the Liouvillian $e^{t\mathcal{L}}$ within error $\epsilon$ scales in a weak coupling limit as $\nu\in O(t^2\|\mathcal{L}\|_{1\rightarrow 1}^2/\epsilon)$. This is significant because the error in the Lindbladian approximation to the dynamics is not explicitly bounded in existing quantum algorithms for open system simulations. We then provide quantum algorithms to simulate RI maps using an iterative Qubitization approach and Trotter-Suzuki formulas and specifically show that for iterative Qubitization the number of operations needed to simulate the dynamics (for a fixed value of $\nu$) scales in a weak coupling limit as $O(\alpha_0 t + \nu \log(1/\epsilon)/\log\log(1/\epsilon))$ where $\alpha_0$ is the coefficient $1$-norm for the system and bath Hamiltonians. This scaling would appear to be optimal if the complexity of $\nu$ is not considered, which underscores the importance of considering the error in the Liouvillian that we reveal in this work.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-01
# 画像からのデカップリングスタイルとスパーラス特徴による不変表現

Invariant Representation via Decoupling Style and Spurious Features from Images ( http://arxiv.org/abs/2312.06226v2 )

ライセンス: Link先を確認
Ruimeng Li, Yuanhao Pu, Zhaoyi Li, Hong Xie, Defu Lian, (参考訳) 本稿では,スタイル分布シフトとスプリアス機能の両方が存在すること,ドメインラベルが欠落していることを前提として,アウト・オブ・ディストリビューション(OOD)の一般化問題を考察する。 この設定は現実世界のアプリケーションで頻繁に発生し、以前のアプローチが主にこれら2つの要因のどちらかを扱うため、見当たらない。 重要な課題は、ドメインラベルの欠如において、スタイルと派手な機能を分離することである。 この課題に対処するために、まず、画像生成プロセスのための構造因果モデル(SCM)を提案する。 提案したSCMは,逆ニューラルネットワークとマルチ環境最適化を導入して,画像からスタイル分布と刺激特徴を段階的に分離し,OOD一般化を実現する,IRSSと呼ばれる新しいフレームワークを設計することができる。 さらに、画像と対応するラベル以外の追加の監督(ドメインラベルなど)を必要としない。 ベンチマークデータセットの実験では、IRSSは従来のOOD法よりも優れており、不変リスク最小化(IRM)劣化の問題を解決し、分散シフトによる不変特徴の抽出を可能にしている。

This paper considers the out-of-distribution (OOD) generalization problem under the setting that both style distribution shift and spurious features exist and domain labels are missing. This setting frequently arises in real-world applications and is underlooked because previous approaches mainly handle either of these two factors. The critical challenge is decoupling style and spurious features in the absence of domain labels. To address this challenge, we first propose a structural causal model (SCM) for the image generation process, which captures both style distribution shift and spurious features. The proposed SCM enables us to design a new framework called IRSS, which can gradually separate style distribution and spurious features from images by introducing adversarial neural networks and multi-environment optimization, thus achieving OOD generalization. Moreover, it does not require additional supervision (e.g., domain labels) other than the images and their corresponding labels. Experiments on benchmark datasets demonstrate that IRSS outperforms traditional OOD methods and solves the problem of Invariant risk minimization (IRM) degradation, enabling the extraction of invariant features under distribution shift.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-01
# 長めのエゴセントリックビデオにおける接地的質問応答

Grounded Question-Answering in Long Egocentric Videos ( http://arxiv.org/abs/2312.06505v4 )

ライセンス: Link先を確認
Shangzhe Di, Weidi Xie, (参考訳) ビデオ理解への既存のアプローチは、主に第三者の視点からの短いビデオ用に設計されており、ロボット工学などの特定の分野における適用性に制限がある。 本稿では,個人やロボットが過去の視覚的体験を尋ねることのできる,長くてエゴセントリックなビデオで,オープンエンドな質問回答(QA)を探索する。 この課題は、広範囲なビデオコンテンツにおけるクエリの時間的グラウンド化の複雑さ、正確なデータアノテーションに対する高いリソース要求、そして、そのあいまいな性質からオープンな回答を評価することの難しさなど、固有の課題を提示する。 提案手法はこれらの課題に対処する。 i) クエリグラウンディングと応答を統一モデルに統合し、エラーの伝搬を低減すること。 (二)大規模言語モデルによる効率的かつスケーラブルなデータ合成 三 回答のあいまいさを管理するため、評価のためのクローズドなQAタスクを導入すること。 QaEgo4D と Ego4D-NLQ ベンチマークにおいて, 最先端性能を実現する手法の有効性を実証した。 コード、データ、モデルはhttps://github.com/Becomebright/GroundVQA.comで入手できる。

Existing approaches to video understanding, mainly designed for short videos from a third-person perspective, are limited in their applicability in certain fields, such as robotics. In this paper, we delve into open-ended question-answering (QA) in long, egocentric videos, which allows individuals or robots to inquire about their own past visual experiences. This task presents unique challenges, including the complexity of temporally grounding queries within extensive video content, the high resource demands for precise data annotation, and the inherent difficulty of evaluating open-ended answers due to their ambiguous nature. Our proposed approach tackles these challenges by (i) integrating query grounding and answering within a unified model to reduce error propagation; (ii) employing large language models for efficient and scalable data synthesis; and (iii) introducing a close-ended QA task for evaluation, to manage answer ambiguity. Extensive experiments demonstrate the effectiveness of our method, which also achieves state-of-the-art performance on the QaEgo4D and Ego4D-NLQ benchmarks. Code, data, and models are available at https://github.com/Becomebright/GroundVQA.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-01
# Honeybee:マルチモーダルLDMの局所性向上プロジェクター

Honeybee: Locality-enhanced Projector for Multimodal LLM ( http://arxiv.org/abs/2312.06742v2 )

ライセンス: Link先を確認
Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh, (参考訳) MLLM(Multimodal Large Language Models)では、学習済みの視覚エンコーダをLLMでブリッジする上で、視覚プロジェクタが重要な役割を果たす。 ビジュアルプロジェクターの重要性にもかかわらず、比較的調査が進んでいない。 本研究では,まず2つの重要なプロジェクター特性を同定する。 一 視覚トークンの個数管理の柔軟性、MLLMの全体的な効率に欠かせないこと、及び (II)視覚的特徴からの局所的文脈の保存,空間的理解に不可欠である。 これらの知見に基づき, フレキシブルかつ局所性に富んだ新規プロジェクタの設計を提案し, 2つの望ましい特性を効果的に満たした。 さらに,複数の命令データセットを効果的に活用するための包括的戦略を提案する。 広範囲な実験を通じて,個々の設計選択の影響について検討する。 最後に,提案するMLLM,Honeybeeは,MME,MMBench,SEED-Bench,LLaVA-Benchなど,様々なベンチマークにおいて従来の最先端手法よりも優れ,高い効率を実現している。 コードとモデルはhttps://github.com/kakaobrain/honeybee.comで入手できる。

In Multimodal Large Language Models (MLLMs), a visual projector plays a crucial role in bridging pre-trained vision encoders with LLMs, enabling profound visual understanding while harnessing the LLMs' robust capabilities. Despite the importance of the visual projector, it has been relatively less explored. In this study, we first identify two essential projector properties: (i) flexibility in managing the number of visual tokens, crucial for MLLMs' overall efficiency, and (ii) preservation of local context from visual features, vital for spatial understanding. Based on these findings, we propose a novel projector design that is both flexible and locality-enhanced, effectively satisfying the two desirable properties. Additionally, we present comprehensive strategies to effectively utilize multiple and multifaceted instruction datasets. Through extensive experiments, we examine the impact of individual design choices. Finally, our proposed MLLM, Honeybee, remarkably outperforms previous state-of-the-art methods across various benchmarks, including MME, MMBench, SEED-Bench, and LLaVA-Bench, achieving significantly higher efficiency. Code and models are available at https://github.com/kakaobrain/honeybee.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-01
# NViST: トランスフォーマー付き単一画像からのワイルド・ニュービュー・シンセサイザー

NViST: In the Wild New View Synthesis from a Single Image with Transformers ( http://arxiv.org/abs/2312.08568v2 )

ライセンス: Link先を確認
Wonbong Jang, Lourdes Agapito, (参考訳) そこで本研究では,NViSTを提案する。NViSTは,実世界のシーンの単一画像から,効率的かつ一般化可能なノベルビュー合成のためのトランスフォーマーモデルである。 合成データやオブジェクト中心のシナリオ、あるいはカテゴリ固有の方法でトレーニングされた多くの方法とは対照的に、NViSTは、さまざまな背景を持つ数百のオブジェクトカテゴリのカジュアルにキャプチャされた実世界の大規模なデータセットであるMVImgNetでトレーニングされている。 NViSTは、適応層正規化によりカメラパラメータに条件付けされた画像入力を直接放射場に変換する。 実際には、NViSTは微調整されたマスク付きオートエンコーダ(MAE)機能を利用して、自己注意でオクルージョンに対処しながら、3D出力トークンに変換する。 オブジェクト中心のデータセットから離れ、フルシーン合成を可能にするため、NViSTは6-DOFカメラのポーズモデルを採用し、相対的なポーズのみを必要とする。 MVImgNetからの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャへの一般化結果を示す。 我々は,MVImgNetとShapeNetの質的,定量的な評価を行い,本モデルが単一の画像から真のインザワイルドな新規ビュー合成を実現するための一歩であることを示す。 プロジェクトWebページ: https://wbjang.github.io/nvist_webpage.com

We propose NViST, a transformer-based model for efficient and generalizable novel-view synthesis from a single image for real-world scenes. In contrast to many methods that are trained on synthetic data, object-centred scenarios, or in a category-specific manner, NViST is trained on MVImgNet, a large-scale dataset of casually-captured real-world videos of hundreds of object categories with diverse backgrounds. NViST transforms image inputs directly into a radiance field, conditioned on camera parameters via adaptive layer normalisation. In practice, NViST exploits fine-tuned masked autoencoder (MAE) features and translates them to 3D output tokens via cross-attention, while addressing occlusions with self-attention. To move away from object-centred datasets and enable full scene synthesis, NViST adopts a 6-DOF camera pose model and only requires relative pose, dropping the need for canonicalization of the training data, which removes a substantial barrier to it being used on casually captured datasets. We show results on unseen objects and categories from MVImgNet and even generalization to casual phone captures. We conduct qualitative and quantitative evaluations on MVImgNet and ShapeNet to show that our model represents a step forward towards enabling true in-the-wild generalizable novel-view synthesis from a single image. Project webpage: https://wbjang.github.io/nvist_webpage.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-01
# SMILE:言語モデルによるビデオ中の娘の理解のためのマルチモーダルデータセット

SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models ( http://arxiv.org/abs/2312.09818v2 )

ライセンス: Link先を確認
Lee Hyun, Kim Sung-Bin, Seungju Han, Youngjae Yu, Tae-Hyun Oh, (参考訳) 人工知能の最近の進歩にもかかわらず、ソーシャルインテリジェンスの構築は依然として課題だ。 社会的なシグナルの中で、笑いは人間同士の社会的相互作用の間に生じる特徴的な表現の1つである。 本研究では、ビデオにおける笑いの背景にある理論的根拠を理解するために、機械が新しい課題に取り組む。 このタスクを導入し、人々がなぜ特定のビデオやデータセットで笑うのかを説明する。 提案するデータセットSMILEは、人々がなぜ笑うのかをビデオクリップと言語記述で記述する。 本稿では,大規模言語モデル(LLM)の推論能力とテキスト映像表現を併用したベースラインを提案する。 実験により、我々の基準線は笑いのもっともらしい説明を生成できることが示された。 さらに,他のビデオ理解タスクや,その中の動画を探索することで,ベースラインのスケーラビリティについて検討する。 私たちはデータセット、コード、モデルチェックポイントをhttps://github.com/postech-ami/SMILE-Datasetでリリースしています。

Despite the recent advances of the artificial intelligence, building social intelligence remains a challenge. Among social signals, laughter is one of the distinctive expressions that occurs during social interactions between humans. In this work, we tackle a new challenge for machines to understand the rationale behind laughter in video, Video Laugh Reasoning. We introduce this new task to explain why people laugh in a particular video and a dataset for this task. Our proposed dataset, SMILE, comprises video clips and language descriptions of why people laugh. We propose a baseline by leveraging the reasoning capacity of large language models (LLMs) with textual video representation. Experiments show that our baseline can generate plausible explanations for laughter. We further investigate the scalability of our baseline by probing other video understanding tasks and in-the-wild videos. We release our dataset, code, and model checkpoints on https://github.com/postech-ami/SMILE-Dataset.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-01
# LogoStyleFool:Logoスタイル転送によるビデオ認識システムの実現

LogoStyleFool: Vitiating Video Recognition Systems via Logo Style Transfer ( http://arxiv.org/abs/2312.09935v2 )

ライセンス: Link先を確認
Yuxin Cao, Ziyu Zhao, Xi Xiao, Derui Wang, Minhui Xue, Jin Lu, (参考訳) ビデオ認識システムは敵の例に弱い。 近年の研究では、スタイル転送ベースおよびパッチベース非制限摂動が攻撃効率を効果的に改善できることが示されている。 しかし、これらの攻撃は2つの大きな課題に直面している。 1)全ての画素に大きなスタイリングされた摂動を加えると、ビデオの自然性が低下し、そのような摂動が容易に検出できる。 2)近年のビデオ攻撃で広く使われている強化学習の検索スペースが限られているため,パッチベースのビデオ攻撃はターゲット攻撃には拡張できない。 本稿では,ビデオブラックボックスの設定に焦点をあて,クリーンビデオにスタイリングされたロゴを追加することで,LogoStyleFoolという新しい攻撃フレームワークを提案する。 攻撃は、スタイル参照選択、強化学習に基づくロゴスタイル転送、摂動最適化の3段階に分けられる。 第1の課題は,地域ロゴへの摂動範囲を拡大することで解決し,第2の課題は,強化学習後の最適化段階を補完することで解決する。 実験結果は、攻撃性能とセマンティック保存の観点から、3つの最先端のパッチベースの攻撃に対して、LogoStyleFoolの全体的な優位性を裏付けるものである。 一方、LogoStyleFoolは、既存の2つのパッチベースのディフェンスメソッドに対するパフォーマンスを維持している。 我々は,このようなサブリージョンスタイルの転送攻撃に対して,セキュリティコミュニティの注意を喚起する上で,我々の研究が有益であると信じている。

Video recognition systems are vulnerable to adversarial examples. Recent studies show that style transfer-based and patch-based unrestricted perturbations can effectively improve attack efficiency. These attacks, however, face two main challenges: 1) Adding large stylized perturbations to all pixels reduces the naturalness of the video and such perturbations can be easily detected. 2) Patch-based video attacks are not extensible to targeted attacks due to the limited search space of reinforcement learning that has been widely used in video attacks recently. In this paper, we focus on the video black-box setting and propose a novel attack framework named LogoStyleFool by adding a stylized logo to the clean video. We separate the attack into three stages: style reference selection, reinforcement-learning-based logo style transfer, and perturbation optimization. We solve the first challenge by scaling down the perturbation range to a regional logo, while the second challenge is addressed by complementing an optimization stage after reinforcement learning. Experimental results substantiate the overall superiority of LogoStyleFool over three state-of-the-art patch-based attacks in terms of attack performance and semantic preservation. Meanwhile, LogoStyleFool still maintains its performance against two existing patch-based defense methods. We believe that our research is beneficial in increasing the attention of the security community to such subregional style transfer attacks.
翻訳日:2024-04-04 11:33:25 公開日:2024-04-01
# Blind-Touch: プライバシー保護指紋認証のための同型暗号化に基づく分散ニューラルネットワーク推論

Blind-Touch: Homomorphic Encryption-Based Distributed Neural Network Inference for Privacy-Preserving Fingerprint Authentication ( http://arxiv.org/abs/2312.11575v2 )

ライセンス: Link先を確認
Hyunmin Choi, Simon Woo, Hyoungshick Kim, (参考訳) 指紋認証は、スマートフォンやラップトップのセキュリティメカニズムとして人気がある。 しかし、Webとクラウド環境における採用は、サーバー上の生体データの保存と処理に関するプライバシー上の懸念から制限されている。 本稿では,Blind-Touchについて紹介する。Blind-Touchは,これらのプライバシー問題に対処するために同型暗号化を利用する,機械学習ベースの指紋認証システムである。 ホモモルフィック暗号化は、復号化せずに暗号化データの計算を可能にする。 これにより、Blind-Touchは、機械学習操作を実行しながら、サーバ上で指紋データを暗号化し続けることができる。 1) 分散アーキテクチャの機能ベクトルを最適化し、クライアント側で最初の完全に接続された層(FC-16)とその後の層(FC-1)を後処理し、暗号化処理を最小化し、(2) 8,192の認証結果を同時に処理できる同型暗号化互換データ圧縮技術、(3) クラスタ化されたサーバアーキテクチャを用いて認証結果を同時に処理し、ユーザ数の増加に伴うスケーラビリティを向上させる。 Blind-Touchは2つのベンチマーク指紋データセットで高い精度を実現しており、PolyUデータセットでは93.6%のF1スコア、SOKOTOデータセットでは98.2%のF1スコアである。 さらに、Blind-Touchは、約0.65秒で5000の指紋を一致させることができる。 Blind-Touchは、プライバシを重視した設計、高精度、効率の面で、Webおよびクラウドアプリケーションの従来の指紋認証に代わる有望な代替手段である。

Fingerprint authentication is a popular security mechanism for smartphones and laptops. However, its adoption in web and cloud environments has been limited due to privacy concerns over storing and processing biometric data on servers. This paper introduces Blind-Touch, a novel machine learning-based fingerprint authentication system leveraging homomorphic encryption to address these privacy concerns. Homomorphic encryption allows computations on encrypted data without decrypting. Thus, Blind-Touch can keep fingerprint data encrypted on the server while performing machine learning operations. Blind-Touch combines three strategies to efficiently utilize homomorphic encryption in machine learning: (1) It optimizes the feature vector for a distributed architecture, processing the first fully connected layer (FC-16) in plaintext on the client side and the subsequent layer (FC-1) post-encryption on the server, thereby minimizing encrypted computations; (2) It employs a homomorphic encryption compatible data compression technique capable of handling 8,192 authentication results concurrently; and (3) It utilizes a clustered server architecture to simultaneously process authentication results, thereby enhancing scalability with increasing user numbers. Blind-Touch achieves high accuracy on two benchmark fingerprint datasets, with a 93.6% F1- score for the PolyU dataset and a 98.2% F1-score for the SOKOTO dataset. Moreover, Blind-Touch can match a fingerprint among 5,000 in about 0.65 seconds. With its privacy focused design, high accuracy, and efficiency, Blind-Touch is a promising alternative to conventional fingerprint authentication for web and cloud applications.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-01
# タスクあたりのサンプル数が極めて少ないメタラーニング

Metalearning with Very Few Samples Per Task ( http://arxiv.org/abs/2312.13978v2 )

ライセンス: Link先を確認
Maryam Aliakbarpour, Konstantina Bairaktari, Gavin Brown, Adam Smith, Nathan Srebro, Jonathan Ullman, (参考訳) メタラーニングとマルチタスク学習は、個々のタスクをそれぞれ自分で解決したいと願うよりも、関連する学習タスクのグループを効率的に解決するための2つのフレームワークです。 マルチタスク学習では、関連する学習タスクの固定セットが与えられ、タスクごとに1つの正確なモデルを出力する必要があるが、メタ学習では、メタディストリビューションから引き出されたタスクが与えられ、メタディストリビューションから新しいタスクに容易に専門化できる共通情報を出力する必要がある。 ここでは、タスクが共有表現によって関連づけられたバイナリ分類設定、すなわち、すべてのタスク$P$は、$f_{P} \circ h$という形の分類器で解決できる、そこで$h \in H$は、タスク間で共有される表現空間への写像であり、$f_{P} \in F$は、表現空間からラベルへのタスク固有の分類器である。 一番の疑問は、良い表現を創出するために、どれだけのデータが必要なのかということです。 ここでは、データ量は、見る必要のあるタスク数$t$と、タスク当たりのサンプル数$n$で測定されます。 我々は、$n$が極端に小さい体制に焦点を当てている。 我々の主な結果は、特徴ベクトルが$\mathbb{R}^d$ の分布自由な環境では、表現は $\mathbb{R}^d \to \mathbb{R}^k$ の線型写像であり、タスク固有の分類器は $\mathbb{R}^k$ のハーフスペースであり、$n = k+2$ のタスク毎のサンプルと $d \cdot (1/\varepsilon)^{O(k)} のタスクで表わすことができることを示している。 なぜなら、メタラーニングはタスク毎の$k+1$サンプルでは不可能であり、タスク毎の$k+2$サンプルで正確なタスク固有の分類器を学習することを望んでいないからです。 我々の研究は、分布のないマルチタスク学習の特性とメタとマルチタスク学習の削減をもたらす。

Metalearning and multitask learning are two frameworks for solving a group of related learning tasks more efficiently than we could hope to solve each of the individual tasks on their own. In multitask learning, we are given a fixed set of related learning tasks and need to output one accurate model per task, whereas in metalearning we are given tasks that are drawn i.i.d. from a metadistribution and need to output some common information that can be easily specialized to new tasks from the metadistribution. We consider a binary classification setting where tasks are related by a shared representation, that is, every task $P$ can be solved by a classifier of the form $f_{P} \circ h$ where $h \in H$ is a map from features to a representation space that is shared across tasks, and $f_{P} \in F$ is a task-specific classifier from the representation space to labels. The main question we ask is how much data do we need to metalearn a good representation? Here, the amount of data is measured in terms of the number of tasks $t$ that we need to see and the number of samples $n$ per task. We focus on the regime where $n$ is extremely small. Our main result shows that, in a distribution-free setting where the feature vectors are in $\mathbb{R}^d$, the representation is a linear map from $\mathbb{R}^d \to \mathbb{R}^k$, and the task-specific classifiers are halfspaces in $\mathbb{R}^k$, we can metalearn a representation with error $\varepsilon$ using $n = k+2$ samples per task, and $d \cdot (1/\varepsilon)^{O(k)}$ tasks. Learning with so few samples per task is remarkable because metalearning would be impossible with $k+1$ samples per task, and because we cannot even hope to learn an accurate task-specific classifier with $k+2$ samples per task. Our work also yields a characterization of distribution-free multitask learning and reductions between meta and multitask learning.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-01
# QuaR-VLA:四足歩行ロボットの視覚言語行動モデル

QUAR-VLA: Vision-Language-Action Model for Quadruped Robots ( http://arxiv.org/abs/2312.14457v2 )

ライセンス: Link先を確認
Pengxiang Ding, Han Zhao, Zhitao Wang, Zhenyu Wei, Shangke Lyu, Donglin Wang, (参考訳) ロボットインテリジェンスの重要な発現は、自然と対話し、自律的に意思決定する能力である。 従来のロボット制御のアプローチは、知覚、計画、意思決定を分割し、システム設計を単純化するが、異なる情報ストリーム間のシナジーを制限する。 この区画化は、シームレスな自律的推論、意思決定、行動実行を達成する上での課題を提起する。 これらの制約に対処するため、Quadruped Robots (QUAR-VLA) のためのビジョン・ランゲージ・アクション・タスク(Vision-Language-Action task)という新しいパラダイムが論文で紹介されている。 このアプローチは、視覚情報と指示を密に統合し、実行可能なアクションを生成し、知覚、計画、意思決定を効果的にマージする。 中心となるアイデアは、ロボットの全体的な知性を高めることだ。 この枠組みの中で注目すべき課題は、きめ細かい指示を視覚的知覚情報と整合させることである。 これは、ロボットが視覚的な観察と調和して正確に解釈し、詳細な指示に従って行動することを保証する複雑さを強調している。 そこで本研究では,VLAモデルのファミリーである Quadruped Robotic Transformer (QUART) を提案し,実世界のロボットの入力として様々なモードから視覚情報と指示を統合し,実世界のロボットに対して実行可能なアクションを生成するとともに, quadruped Robot Dataset (QUARD) を提示する。 評価試験(4000回)により,本手法がロボットの能力向上に寄与し,QUIRTが創発的能力の獲得に有効であることが示唆された。

The important manifestation of robot intelligence is the ability to naturally interact and autonomously make decisions. Traditional approaches to robot control often compartmentalize perception, planning, and decision-making, simplifying system design but limiting the synergy between different information streams. This compartmentalization poses challenges in achieving seamless autonomous reasoning, decision-making, and action execution. To address these limitations, a novel paradigm, named Vision-Language-Action tasks for QUAdruped Robots (QUAR-VLA), has been introduced in this paper. This approach tightly integrates visual information and instructions to generate executable actions, effectively merging perception, planning, and decision-making. The central idea is to elevate the overall intelligence of the robot. Within this framework, a notable challenge lies in aligning fine-grained instructions with visual perception information. This emphasizes the complexity involved in ensuring that the robot accurately interprets and acts upon detailed instructions in harmony with its visual observations. Consequently, we propose QUAdruped Robotic Transformer (QUART), a family of VLA models to integrate visual information and instructions from diverse modalities as input and generates executable actions for real-world robots and present QUAdruped Robot Dataset (QUARD), a large-scale multi-task dataset including navigation, complex terrain locomotion, and whole-body manipulation tasks for training QUART models. Our extensive evaluation (4000 evaluation trials) shows that our approach leads to performant robotic policies and enables QUART to obtain a range of emergent capabilities.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-01
# UniHuman:野生の人間の画像を編集する統一モデル

UniHuman: A Unified Model for Editing Human Images in the Wild ( http://arxiv.org/abs/2312.14985v2 )

ライセンス: Link先を確認
Nannan Li, Qing Liu, Krishna Kumar Singh, Yilin Wang, Jianming Zhang, Bryan A. Plummer, Zhe Lin, (参考訳) 人間の画像編集には、人のポーズや服装を変えたり、テキストのプロンプトに従って画像を編集したりするタスクが含まれる。 しかし、先行研究はしばしばこれらの課題に別々に取り組み、共同で学習することによる相互強化の利益を見落としている。 本論文では,実際の環境下での人間の画像編集の複数の側面に対処する統一モデルUniHumanを提案する。 モデルの生成品質と一般化能力を向上させるために、人間の視覚エンコーダからのガイダンスを活用し、異なるポーズ表現を利用する軽量なポーズウォーピングモジュールを導入し、目に見えないテクスチャやパターンを調節する。 さらに,既存の人体編集ベンチマークと実世界のデータとの格差を埋めるために,400Kの高品質な人体画像テキストペアをトレーニングし,ドメイン外テストのために2Kの人体画像を収集した。 ドメイン内テストセットとドメイン外テストセットの両方の実験では、UniHumanがタスク固有のモデルよりも大きなマージンで優れていることが示されている。 ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。 私たちのプロジェクトはhttps://github.com/NannanLi999/UniHuman.comで利用可能です。

Human image editing includes tasks like changing a person's pose, their clothing, or editing the image according to a text prompt. However, prior work often tackles these tasks separately, overlooking the benefit of mutual reinforcement from learning them jointly. In this paper, we propose UniHuman, a unified model that addresses multiple facets of human image editing in real-world settings. To enhance the model's generation quality and generalization capacity, we leverage guidance from human visual encoders and introduce a lightweight pose-warping module that can exploit different pose representations, accommodating unseen textures and patterns. Furthermore, to bridge the disparity between existing human editing benchmarks with real-world data, we curated 400K high-quality human image-text pairs for training and collected 2K human images for out-of-domain testing, both encompassing diverse clothing styles, backgrounds, and age groups. Experiments on both in-domain and out-of-domain test sets demonstrate that UniHuman outperforms task-specific models by a significant margin. In user studies, UniHuman is preferred by the users in an average of 77% of cases. Our project is available at https://github.com/NannanLi999/UniHuman.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-01
# 変分量子リニアソルバーのプレコンディショニング

Preconditioning for a Variational Quantum Linear Solver ( http://arxiv.org/abs/2312.15657v2 )

ライセンス: Link先を確認
Aruto Hosaka, Koichi Yanagisawa, Shota Koshikawa, Isamu Kudo, Xiafukaiti Alifu, Tsuyoshi Yoshida, (参考訳) 線形系に対して古典的解法において広く用いられるプリコンディショニングを、変分量子線形解に対して適用する。 Incomplete LU factorization as a preconditioner for linear equations formed by $128\times128$ random sparse matrices, we demonstrated a notable reduction of the necessary ansatz depth, we revealed that preconditioning is useful for quantum algorithm。 この回路深さの低減は、ノイズ中間スケール量子(NISQ)アルゴリズムの効率と精度を向上させる鍵となる。 この結果から, プリコンディショニングや量子アルゴリズムといった古典的計算技術を組み合わせることで, NISQアルゴリズムの性能が大幅に向上することが示唆された。

We apply preconditioning, widely used in classical solvers for linear systems $A\textbf{x}=\textbf{b}$, to the Variational Quantum Linear Solver. By utilizing Incomplete LU factorization as a preconditioner for linear equations formed by $128\times128$ random sparse matrices, we numerically demonstrate a notable reduction in the required ansatz depth, thereby clarifying that preconditioning is useful for quantum algorithms as well. This reduction in circuit depth is key to improving the efficiency and accuracy of Noisy Intermediate-Scale Quantum (NISQ) algorithms. Our findings suggest that combining classical computing techniques like preconditioning with quantum algorithms can significantly enhance their performance in NISQ algorithms.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-01
# 初期量子コヒーレンスをもつ仕事のゆらぎ定理

Work fluctuation theorems with initial quantum coherence ( http://arxiv.org/abs/2312.16227v2 )

ライセンス: Link先を確認
Gianluca Francica, Luca Dell'Anna, (参考訳) ゆらぎ定理は、線形反応則を超えた非平衡熱力学の基本的な結果である。 これらのうち、パラダイム的タサキ・クルークスの揺らぎ定理は、フォワード・オブ・平衡量子過程および対応する後方量子過程においてなされた仕事の統計を関連づける。 特に、2つの過程の初期状態は熱状態であり、したがってエネルギーベースでは不整合である。 ここでは、作業変動定理における初期量子コヒーレンスの役割について検討する。 これを実現するために、初期量子コヒーレンスがない場合に、タサキ・クルークスの揺らぎ定理を再現する強いゆらぎ定理の意義を定式化し、検証する。

Fluctuation theorems are fundamental results in nonequilibrium thermodynamics beyond the linear response regime. Among these, the paradigmatic Tasaki-Crooks fluctuation theorem relates the statistics of the works done in a forward out-of-equilibrium quantum process and in a corresponding backward one. In particular, the initial states of the two processes are thermal states and thus incoherent in the energy basis. Here, we aim to investigate the role of initial quantum coherence in work fluctuation theorems. To do this, we formulate and examine the implications of a stronger fluctuation theorem, which reproduces the Tasaki-Crooks fluctuation theorem in the absence of initial quantum coherence.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-01
# City-on-Web: Web上の大規模シーンのリアルタイムニューラルレンダリング

City-on-Web: Real-time Neural Rendering of Large-scale Scenes on the Web ( http://arxiv.org/abs/2312.16457v2 )

ライセンス: Link先を確認
Kaiwen Song, Xiaoyi Zeng, Chenqu Ren, Juyong Zhang, (参考訳) 既存のニューラルラディアンス場に基づく手法は、Webプラットフォーム上で小さなシーンをリアルタイムにレンダリングすることができる。 しかし、これらの手法を大規模なシーンに拡張することは、計算、メモリ、帯域幅の資源が限られているため、依然として大きな課題となっている。 本稿では,Web上の大規模シーンをリアルタイムにレンダリングする最初の方法であるCity-on-Webを提案する。 本稿では,ブロック間の3次元整合性を保証するブロックベースのボリュームレンダリング手法を提案し,メモリ要求を著しく低減するために,リソースの動的ロード/アンロードを併用したレベル・オブ・ディーテール戦略を提案する。 本システムは,Web上のRTX 3060 GPUを用いた32FPS程度の大規模シーンのリアルタイムレンダリングを実現し,現在の最先端の新規ビュー合成手法に匹敵するレンダリング品質を維持する。

Existing neural radiance field-based methods can achieve real-time rendering of small scenes on the web platform. However, extending these methods to large-scale scenes still poses significant challenges due to limited resources in computation, memory, and bandwidth. In this paper, we propose City-on-Web, the first method for real-time rendering of large-scale scenes on the web. We propose a block-based volume rendering method to guarantee 3D consistency and correct occlusion between blocks, and introduce a Level-of-Detail strategy combined with dynamic loading/unloading of resources to significantly reduce memory demands. Our system achieves real-time rendering of large-scale scenes at approximately 32FPS with RTX 3060 GPU on the web and maintains rendering quality comparable to the current state-of-the-art novel view synthesis methods.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-01
# 説明可能な強化学習のための因果状態蒸留

Causal State Distillation for Explainable Reinforcement Learning ( http://arxiv.org/abs/2401.00104v2 )

ライセンス: Link先を確認
Wenhao Lu, Xufeng Zhao, Thilo Fryen, Jae Hee Lee, Mengdi Li, Sven Magg, Stefan Wermter, (参考訳) 強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための強力なテクニックであるが、これらのエージェントが特定の決定を下す理由を理解することは、非常に難しい。 RLモデルにおけるこの透明性の欠如は長年の問題であり、エージェントの振る舞いの背後にある理由を理解するのが難しくなった。 この問題に対処するために様々なアプローチが検討され、ある有望な道は報酬分解(RD)である。 RDは、エージェントの振る舞いをポストホックな方法で合理化しようとする他の方法に関連する懸念のいくつかを傍受するので、魅力的である。 RDは、訓練中のエージェントの目的に寄与する報酬の様々な面を明らかにすることで機能する。 しかしRDは、主にサブリワードに基づく洞察を提供し、RLエージェントの神経モデル内で起こる複雑な因果関係を掘り下げないため、制限がある。 本稿では,より情報的な説明を提供するために,サブリワードを超えてRDの拡張を提案する。 我々のアプローチは、因果的要因の3つの重要な特性である因果的充足性、スパース性、直交性を促進する、説明目的のための情報理論的尺度を活用する因果的学習の枠組みに重点を置いている。 これらの性質は、エージェントの状態と行動や報酬の間の因果関係を蒸留し、意思決定プロセスのより深い理解を可能にする。 我々のフレームワークは局所的な説明を生成するように設計されており、複数の報奨チャンネルを持つ広範囲なRLタスクに適用できる。 一連の実験を通して、我々のアプローチはエージェントの行動選択に対してより有意義で洞察に富んだ説明を提供することを示した。

Reinforcement learning (RL) is a powerful technique for training intelligent agents, but understanding why these agents make specific decisions can be quite challenging. This lack of transparency in RL models has been a long-standing problem, making it difficult for users to grasp the reasons behind an agent's behaviour. Various approaches have been explored to address this problem, with one promising avenue being reward decomposition (RD). RD is appealing as it sidesteps some of the concerns associated with other methods that attempt to rationalize an agent's behaviour in a post-hoc manner. RD works by exposing various facets of the rewards that contribute to the agent's objectives during training. However, RD alone has limitations as it primarily offers insights based on sub-rewards and does not delve into the intricate cause-and-effect relationships that occur within an RL agent's neural model. In this paper, we present an extension of RD that goes beyond sub-rewards to provide more informative explanations. Our approach is centred on a causal learning framework that leverages information-theoretic measures for explanation objectives that encourage three crucial properties of causal factors: causal sufficiency, sparseness, and orthogonality. These properties help us distill the cause-and-effect relationships between the agent's states and actions or rewards, allowing for a deeper understanding of its decision-making processes. Our framework is designed to generate local explanations and can be applied to a wide range of RL tasks with multiple reward channels. Through a series of experiments, we demonstrate that our approach offers more meaningful and insightful explanations for the agent's action selections.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-01
# DEM: 航空宇宙におけるディープニューラルネットワーク分類器出力の認証方法

DEM: A Method for Certifying Deep Neural Network Classifier Outputs in Aerospace ( http://arxiv.org/abs/2401.02283v2 )

ライセンス: Link先を確認
Guy Katz, Natan Levy, Idan Refaeli, Raz Yerushalmi, (参考訳) 航空宇宙分野におけるソフトウェア開発は、厳格で高品質な標準に固執する必要がある。 この領域には商用ソフトウェア(例えば ARP-4754 や DO-178)の規制ガイドラインがあるが、ディープニューラルネットワーク(DNN)コンポーネントを持つソフトウェアには適用されない。 したがって、航空宇宙システムが深層学習革命の恩恵を受けるためには、どうすればよいのかは不明である。 我々の研究は、DNN認証のための新しいアウトプット中心のアプローチで、この問題に対処しようとしています。 提案手法は統計的検証手法を用いており,DNNの出力が信頼できない可能性のある特定の入力をフラグできる重要な利点がある。 そこで本手法では,DNNの他の近傍入力に対する予測を統計的に解析し,不整合を検出する。 これは、個々の出力とは対照的に、DNN全体を認証しようとする既存の技術とは対照的である。 本手法では,DNNをブラックボックスとして使用し,そのトポロジを仮定しない。 この作業が、特に高品質と信頼性の基準が不可欠である航空宇宙領域において、安全クリティカルなアプリケーションにDNNを統合するための別のステップになることを期待しています。

Software development in the aerospace domain requires adhering to strict, high-quality standards. While there exist regulatory guidelines for commercial software in this domain (e.g., ARP-4754 and DO-178), these do not apply to software with deep neural network (DNN) components. Consequently, it is unclear how to allow aerospace systems to benefit from the deep learning revolution. Our work here seeks to address this challenge with a novel, output-centric approach for DNN certification. Our method employs statistical verification techniques, and has the key advantage of being able to flag specific inputs for which the DNN's output may be unreliable - so that they may be later inspected by a human expert. To achieve this, our method conducts a statistical analysis of the DNN's predictions for other, nearby inputs, in order to detect inconsistencies. This is in contrast to existing techniques, which typically attempt to certify the entire DNN, as opposed to individual outputs. Our method uses the DNN as a black-box, and makes no assumptions about its topology. We hope that this work constitutes another step towards integrating DNNs in safety-critical applications - especially in the aerospace domain, where high standards of quality and reliability are crucial.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-01
# Webの3次元現象を学習する

Learning the 3D Fauna of the Web ( http://arxiv.org/abs/2401.02400v2 )

ライセンス: Link先を確認
Zizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu, (参考訳) 地球上のすべての動物の3Dモデルを学ぶには、既存のソリューションを大規模にスケールアップする必要がある。 この究極の目標を念頭に、3D-Faunaを開発した。これは、100種以上の動物種に対して、パンカテゴリーで変形可能な3D動物モデルを学ぶアプローチである。 動物をモデリングする上で重要なボトルネックのひとつは、トレーニングデータの入手が限られていることです。 従来のカテゴリー固有の試みは,訓練画像に制限のある希少種への一般化に失敗することを示す。 この課題に対処するために、SBSM(Semantic Bank of Skinned Models)を導入し、幾何学的帰納的先行と意味的知識を、既成の自己監督的特徴抽出器によって暗黙的に捉えた意味的知識を組み合わせることで、基礎動物形状の小さな集合を自動的に発見する。 このようなモデルをトレーニングするために,多様な動物種の大規模データセットを新たに提供した。 推定時, 四足歩行の1つの画像が与えられた場合, 我々のモデルは数秒で3Dメッシュをフィードフォワードで再構成する。

Learning 3D models of all animals on the Earth requires massively scaling up existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an approach that learns a pan-category deformable 3D animal model for more than 100 animal species jointly. One crucial bottleneck of modeling animals is the limited availability of training data, which we overcome by simply learning from 2D Internet images. We show that prior category-specific attempts fail to generalize to rare species with limited training images. We address this challenge by introducing the Semantic Bank of Skinned Models (SBSM), which automatically discovers a small set of base animal shapes by combining geometric inductive priors with semantic knowledge implicitly captured by an off-the-shelf self-supervised feature extractor. To train such a model, we also contribute a new large-scale dataset of diverse animal species. At inference time, given a single image of any quadruped animal, our model reconstructs an articulated 3D mesh in a feed-forward fashion within seconds.
翻訳日:2024-04-04 11:23:11 公開日:2024-04-01
# 2D-3Dビジョンランゲージ蒸留を用いた3次元オープンボキャブラリパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパ

3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation ( http://arxiv.org/abs/2401.02402v2 )

ライセンス: Link先を確認
Zihao Xiao, Longlong Jing, Shangxuan Wu, Alex Zihao Zhu, Jingwei Ji, Chiyu Max Jiang, Wei-Chih Hung, Thomas Funkhouser, Weicheng Kuo, Anelia Angelova, Yin Zhou, Shiwei Sheng, (参考訳) 3Dパノプティクスのセグメンテーションは、特に自動運転において、困難な認識課題である。 シーン内の3Dポイントに対するセマンティックアノテーションとインスタンスアノテーションの両方を予測することを目的としている。 従来の3Dパノプティクスのセグメンテーションアプローチはクローズドセットのベンチマークでは優れたパフォーマンスを達成しているが、これらのアプローチを目に見えないものや見えないものへの一般化は未解決の問題である。 未確認のオブジェクトカテゴリでは、2Dオープンボキャブラリセグメンテーションは、凍結したCLIPバックボーンにのみ依存し、複数の分類アウトプットをアンサンブルする、有望な結果を達成した。 しかし、これらの2Dモデルを3Dに単純に拡張しても、特に新しいカテゴリーにおいて、マスクごとの分類品質が低いため、良好な性能が保証されないことが判明した。 本稿では,3次元オープンボキャブラリパノプタセグメンテーションのための最初の手法を提案する。 本モデルは,学習可能なLiDAR特徴と高密度凍結視覚CLIP特徴との融合を利用して,ベースクラスと新規クラスの両方の予測を行う。 新たなクラスにおける分類性能をさらに向上させ,CLIPモデルを活用するために,オブジェクトレベルの蒸留損失とボクセルレベルの蒸留損失の2つの新しい損失関数を提案する。 nuScenes と SemanticKITTI のデータセットを用いた実験により,本手法は強いベースラインを大きなマージンで上回ることを示した。

3D panoptic segmentation is a challenging perception task, especially in autonomous driving. It aims to predict both semantic and instance annotations for 3D points in a scene. Although prior 3D panoptic segmentation approaches have achieved great performance on closed-set benchmarks, generalizing these approaches to unseen things and unseen stuff categories remains an open problem. For unseen object categories, 2D open-vocabulary segmentation has achieved promising results that solely rely on frozen CLIP backbones and ensembling multiple classification outputs. However, we find that simply extending these 2D models to 3D does not guarantee good performance due to poor per-mask classification quality, especially for novel stuff categories. In this paper, we propose the first method to tackle 3D open-vocabulary panoptic segmentation. Our model takes advantage of the fusion between learnable LiDAR features and dense frozen vision CLIP features, using a single classification head to make predictions for both base and novel classes. To further improve the classification performance on novel classes and leverage the CLIP model, we propose two novel loss functions: object-level distillation loss and voxel-level distillation loss. Our experiments on the nuScenes and SemanticKITTI datasets show that our method outperforms the strong baseline by a large margin.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-01
# バターフライのプロンプト効果:小変化と脱獄が大規模言語モデルの性能に与える影響

The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Model Performance ( http://arxiv.org/abs/2401.03729v3 )

ライセンス: Link先を確認
Abel Salinas, Fred Morstatter, (参考訳) 大規模言語モデル(LLM)は、多くのドメインにまたがるデータや無数のタスクに定期的に使われています。 単に LLM に答えを求めるだけで、'prompting'' の実践者は LLM を使って任意のタスクに対する応答を素早く得ることができる。 このプロンプトは、プロンプトの単純なワード化から特定のデータ形式の出力要求、よりセンシティブなトピックに対処するプロンプトの場合のジェイルブレイクに至るまで、実践者による一連の決定を通じて行われる。 プロンプトの構築方法のバリエーションは、LLMの最終的な決定を変えるか? 我々は、様々なテキスト分類タスクにまたがって、一連の急激なバリエーションを使って、これに答える。 プロンプトの終端に空間を追加するような最小の摂動でさえ、LSMはその答えを変える可能性がある。 さらに,XML や一般的なjailbreak の要求応答が LLM でラベル付けされたデータにカタクリスティックな影響があることが判明した。

Large Language Models (LLMs) are regularly being used to label data across many domains and for myriad tasks. By simply asking the LLM for an answer, or ``prompting,'' practitioners are able to use LLMs to quickly get a response for an arbitrary task. This prompting is done through a series of decisions by the practitioner, from simple wording of the prompt, to requesting the output in a certain data format, to jailbreaking in the case of prompts that address more sensitive topics. In this work, we ask: do variations in the way a prompt is constructed change the ultimate decision of the LLM? We answer this using a series of prompt variations across a variety of text classification tasks. We find that even the smallest of perturbations, such as adding a space at the end of a prompt, can cause the LLM to change its answer. Further, we find that requesting responses in XML and commonly used jailbreaks can have cataclysmic effects on the data labeled by LLMs.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-01
# Tunable Coupler-based Superconducting Quantum Computer におけるコンテキストアウェア・カプラ再構成

Context-Aware Coupler Reconfiguration for Tunable Coupler-Based Superconducting Quantum Computers ( http://arxiv.org/abs/2401.03817v2 )

ライセンス: Link先を確認
Leanghok Hour, Sovanmonynuth Heng, Sengthai Heng, Myeongseong Go, Youngsun Han, (参考訳) 量子コンピュータ(SQC)における相互接続の課題に対処する。 既存の緩和手法では、ハードウェアカプラやソフトウェアベースのゲートスケジューリングといったトレードオフがある。 私たちのイノベーションであるCA-CORE(Context-Aware Coupler Reconfiguration)コンパイルメソッドは、アプリケーション固有の設計原則に準拠しています。 キュービット接続を最適化してSQC性能を改善し、調整可能なカプラを活用する。 量子ビット相関の文脈解析を通じて、SQC制約を考慮した効率的なカップリングマップを構成する。 本手法では,深度とSWAP操作をそれぞれ18.84%,42.47%削減する。 また、IBMやGoogleのトポロジと比べて回路の忠実度を40%向上させる。 特に,33量子ビット回路を1秒未満でコンパイルする。

We address interconnection challenges in limited-qubit superconducting quantum computers (SQC), which often face crosstalk errors due to expanded qubit interactions during operations. Existing mitigation methods carry trade-offs, like hardware couplers or software-based gate scheduling. Our innovation, the Context-Aware COupler REconfiguration (CA-CORE) compilation method, aligns with application-specific design principles. It optimizes the qubit connections for improved SQC performance, leveraging tunable couplers. Through contextual analysis of qubit correlations, we configure an efficient coupling map considering SQC constraints. Our method reduces depth and SWAP operations by up to 18.84% and 42.47%, respectively. It also enhances circuit fidelity by 40% compared to IBM and Google's topologies. Notably, our method compiles a 33-qubit circuit in less than 1 second.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-01
# 粉末X線回折によるエンド・ツー・エンド結晶構造予測

End-to-End Crystal Structure Prediction from Powder X-Ray Diffraction ( http://arxiv.org/abs/2401.03862v2 )

ライセンス: Link先を確認
Qingsi Lai, Lin Yao, Zhifeng Gao, Siyuan Liu, Hongshuai Wang, Shuqi Lu, Di He, Liwei Wang, Cheng Wang, Guolin Ke, (参考訳) 結晶構造予測(CSP)は大きな進歩を遂げているが、ほとんどの方法は単細胞に限られた原子を持つ無機結晶の無条件世代に焦点を当てている。 本研究では、Powder X-ray Diffraction (PXRD) からエンド・ツー・エンド CSP のための最初の同変深部生成モデルである XtalNet を紹介する。 組成のみに依存する従来の方法とは異なり、XtalNetはPXRDを追加条件として利用し、曖昧さを排除し、単位細胞に最大400個の原子を持つ複雑な有機構造を生成する。 XtalNetは、PXRD空間を結晶構造空間と整列するCPCPモジュールと、PXRDパターンに条件付けられた候補結晶構造を生成する条件結晶構造生成(CCSG)モジュールの2つのモジュールから構成される。 2つのMOFデータセット(hMOF-100とhMOF-400)の評価は、XtalNetの有効性を示している。 XtalNetは、条件付き結晶構造予測タスクにおいて、hMOF-100とhMOF-400データセットに対して、90.2%と79%のトップ10マッチングレートを達成した。 XtalNetは、外部データベースや手動の介入を必要とせずに、PXRDデータから複雑な構造を予測できるCSPの大幅な進歩を表している。 PXRD分析に革命をもたらす可能性がある。 これにより、実験的な測定から結晶構造の直接予測が可能になり、手動の介入や外部データベースの必要がなくなる。 これにより、結晶構造の自動決定と新規物質の発見が加速する新たな可能性が開ける。

Crystal structure prediction (CSP) has made significant progress, but most methods focus on unconditional generations of inorganic crystal with limited atoms in the unit cell. This study introduces XtalNet, the first equivariant deep generative model for end-to-end CSP from Powder X-ray Diffraction (PXRD). Unlike previous methods that rely solely on composition, XtalNet leverages PXRD as an additional condition, eliminating ambiguity and enabling the generation of complex organic structures with up to 400 atoms in the unit cell. XtalNet comprises two modules: a Contrastive PXRD-Crystal Pretraining (CPCP) module that aligns PXRD space with crystal structure space, and a Conditional Crystal Structure Generation (CCSG) module that generates candidate crystal structures conditioned on PXRD patterns. Evaluation on two MOF datasets (hMOF-100 and hMOF-400) demonstrates XtalNet's effectiveness. XtalNet achieves a top-10 Match Rate of 90.2% and 79% for hMOF-100 and hMOF-400 datasets in conditional crystal structure prediction task, respectively. XtalNet represents a significant advance in CSP, enabling the prediction of complex structures from PXRD data without the need for external databases or manual intervention. It has the potential to revolutionize PXRD analysis. It enables the direct prediction of crystal structures from experimental measurements, eliminating the need for manual intervention and external databases. This opens up new possibilities for automated crystal structure determination and the accelerated discovery of novel materials.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-01
# HiCMAE: 自己監督型音声・視覚感情認識のための階層型コントラストマスクオートエンコーダ

HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition ( http://arxiv.org/abs/2401.05698v2 )

ライセンス: Link先を確認
Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao, (参考訳) AVER(Audio-Visual Emotion Recognition)は、感情を意識する知的な機械を作る上で重要な役割を担っているため、近年注目を集めている。 この領域におけるこれまでの取り組みは、教師付き学習パラダイムによって支配されている。 大幅な進歩にもかかわらず、教師あり学習は、AVERの長年のデータ不足の問題のためにボトルネックを満たしている。 近年の自己教師型学習の進歩に触発された階層型コントラスト・マスケッド・オートエンコーダ(HiCMAE)を提案する。 自己教師型音声視覚表現学習における先行技術に続いて、HiCMAEは事前学習のための2つの主要なセルフスーパービジョン、すなわちマスク付きデータモデリングとコントラスト学習を採用した。 中間層の明示的なガイダンスを無視しながらトップ層表現のみに焦点を絞ったものとは異なり、HiCMAEは階層的な音声・視覚的特徴学習を育成し、学習された表現の全体的な品質を改善するための3つの戦略を開発する。 HiCMAEの有効性を検証するため、分類的タスクと次元的タスクの両方をカバーする9つのデータセットに対して広範な実験を行った。 実験結果から,HCMAEは音声・視覚的感情表現学習において,最先端の教師付き・自己教師型音声・視覚的手法よりも優れていたことが示唆された。 コードとモデルはhttps://github.com/sunlicai/HiCMAE.comで公開される。

Audio-Visual Emotion Recognition (AVER) has garnered increasing attention in recent years for its critical role in creating emotion-ware intelligent machines. Previous efforts in this area are dominated by the supervised learning paradigm. Despite significant progress, supervised learning is meeting its bottleneck due to the longstanding data scarcity issue in AVER. Motivated by recent advances in self-supervised learning, we propose Hierarchical Contrastive Masked Autoencoder (HiCMAE), a novel self-supervised framework that leverages large-scale self-supervised pre-training on vast unlabeled audio-visual data to promote the advancement of AVER. Following prior arts in self-supervised audio-visual representation learning, HiCMAE adopts two primary forms of self-supervision for pre-training, namely masked data modeling and contrastive learning. Unlike them which focus exclusively on top-layer representations while neglecting explicit guidance of intermediate layers, HiCMAE develops a three-pronged strategy to foster hierarchical audio-visual feature learning and improve the overall quality of learned representations. To verify the effectiveness of HiCMAE, we conduct extensive experiments on 9 datasets covering both categorical and dimensional AVER tasks. Experimental results show that our method significantly outperforms state-of-the-art supervised and self-supervised audio-visual methods, which indicates that HiCMAE is a powerful audio-visual emotion representation learner. Codes and models will be publicly available at https://github.com/sunlicai/HiCMAE.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-01
# 責任あるAIを実装するための倫理的トレードオフの解決

Resolving Ethics Trade-offs in Implementing Responsible AI ( http://arxiv.org/abs/2401.08103v3 )

ライセンス: Link先を確認
Conrad Sanderson, Emma Schleiger, David Douglas, Petra Kuhnert, Qinghua Lu, (参考訳) 高レベルのAI倫理原則を実践的なAI/MLシステムに運用することは、まだ進展しているが、基礎となるAI倫理の側面間の緊張を管理するための理論と実践のギャップがある。 初歩的なものから複雑なものまで、トレードオフを通じて緊張に対処するための5つのアプローチをカバーします。 アプローチは、考慮された文脈、スコープ、文脈を測定する方法、正当化の度合いのタイプによって異なる。 いずれのアプローチも、すべての組織、システム、アプリケーションに適していない可能性が高い。 この問題に対処するため、我々は以下のフレームワークを提案する。 一 緊張の積極的特定、 二 倫理面の優先及び重み付け 三 トレードオフ決定の正当化及び文書 提案するフレームワークは,潜在的な規制要件に適合する,十分に包括されたAI/MLシステムの実装を容易にすることを目的としている。

While the operationalisation of high-level AI ethics principles into practical AI/ML systems has made progress, there is still a theory-practice gap in managing tensions between the underlying AI ethics aspects. We cover five approaches for addressing the tensions via trade-offs, ranging from rudimentary to complex. The approaches differ in the types of considered context, scope, methods for measuring contexts, and degree of justification. None of the approaches is likely to be appropriate for all organisations, systems, or applications. To address this, we propose a framework which consists of: (i) proactive identification of tensions, (ii) prioritisation and weighting of ethics aspects, (iii) justification and documentation of trade-off decisions. The proposed framework aims to facilitate the implementation of well-rounded AI/ML systems that are appropriate for potential regulatory requirements.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-01
# プロキシによる言語モデルのチューニング

Tuning Language Models by Proxy ( http://arxiv.org/abs/2401.08565v2 )

ライセンス: Link先を確認
Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith, (参考訳) 大きな事前訓練された言語モデルの一般的な能力にもかかわらず、彼らは常に、望ましい振る舞いを達成するためにさらなる適応の恩恵を受ける。 しかし、モデルウェイトがプライベートである場合には、これらのモデルのチューニングはますますリソース集約化され、あるいは不可能になっている。 我々は、直接チューニングと同じ目的を達成するためにブラックボックスLM上で動作する軽量な復号時間アルゴリズムであるプロキシチューニングを導入するが、そのパラメータではなく出力語彙上の予測のみにアクセスする。 提案手法は、小型のLMをチューニングし、小型のチューンモデルの予測と未調整のLMとの差を適用して、大規模プレトレーニングの利点を保ちながら、チューニング方向の未調整モデルの元の予測をシフトさせる。 実験では、7Bサイズのプロキシを使用したプロキシチューニングをLlama2-70Bに適用すると、Llama2-70Bと実際にチューニングされたチャットバージョンとのギャップの88%を、知識、推論、安全性ベンチマークで評価することができる。 興味深いことに、TrathfulQAでは、プロキシチューニングされたモデルは直接チューニングされたモデルよりも真実である。 次に、コードへのドメイン適応の適用によるプロキシチューニングの一般化と、質問応答や数学の問題に対するタスク固有の微調整を実証する。 最後に、時間適応のための真のブラックボックスLM(GPT-3.5)のプロキシチューニング方法を示し、近年の出来事に関する知識を高めた。 我々の研究は、デコード時ガイダンスにより、小さく調整されたLMを用いて、大規模で潜在的にプロプライエタリなLMを効率的にカスタマイズする可能性を実証している。

Despite the general capabilities of large pretrained language models, they consistently benefit from further adaptation to better achieve desired behaviors. However, tuning these models has become increasingly resource-intensive, or impossible when model weights are private. We introduce proxy-tuning, a lightweight decoding-time algorithm that operates on top of black-box LMs to achieve the same end as direct tuning, but by accessing only its predictions over the output vocabulary, not its parameters. Our method tunes a smaller LM, then applies the difference between the predictions of the small tuned and untuned LMs to shift the original predictions of the larger untuned model in the direction of tuning, while retaining the benefits of larger-scale pretraining. In experiments, when we apply proxy-tuning to Llama2-70B using proxies of only 7B size, we can close 88% of the gap between Llama2-70B and its truly-tuned chat version, when evaluated across knowledge, reasoning, and safety benchmarks. Interestingly, on TruthfulQA, proxy-tuned models are actually more truthful than directly tuned models, possibly because decoding-time guidance better retains the model's factual knowledge. We then demonstrate the generality of proxy-tuning by applying it to domain adaptation on code, and task-specific finetuning on question-answering and math problems. Finally, we show how to proxy-tune a truly black-box LM, GPT-3.5, for temporal adaptation, increasing its knowledge about recent events. Our work demonstrates the promise of using small tuned LMs to efficiently customize large, potentially proprietary LMs through decoding-time guidance.
翻訳日:2024-04-04 09:10:18 公開日:2024-04-01
# SymTC : 腰部MRIのインスタンス分割のための共生トランスフォーマー-CNNネット

SymTC: A Symbiotic Transformer-CNN Net for Instance Segmentation of Lumbar Spine MRI ( http://arxiv.org/abs/2401.09627v4 )

ライセンス: Link先を確認
Jiasong Chen, Linchen Qian, Linhai Ma, Timur Urakov, Weiyong Gu, Liang Liang, (参考訳) 椎間板疾患はしばしば間欠的または持続的な腰痛を引き起こすが、この疾患の診断と評価は、腰椎MRI画像からの脊椎骨と椎間板の正確な計測に依存している。 ディープニューラルネットワーク(DNN)モデルは、腰椎の個々のインスタンス(ディスクと脊椎)のより効率的なイメージセグメンテーションを、自動化された方法で臨床医を支援することができる。 本研究では,トランスフォーマーと畳み込みニューラルネットワーク(CNN)の強みを組み合わせた,革新的な腰椎MR画像分割モデルであるSymTCを提案する。 具体的には、CNN層とTransformer層を結合する並列デュアルパスアーキテクチャを設計し、Transformerの自己保持モジュールに埋め込み、より正確なセグメンテーションのための位置情報の利用を向上させる。 モデル性能をさらに向上するため,SSMSpineという人工的かつ現実的なMR画像データセットを作成するための新しいデータ拡張手法を導入した。 我々は、Dice similarity Coefficientと95% Hausdorff Distanceの2つの指標を用いて、プライベートな社内データセットとパブリックなSSMSpineデータセット上で、SymTCおよびその他の15の既存の画像セグメンテーションモデルを評価した。 その結果,SymTCは腰椎MRI画像における椎骨と椎間板のセグメンテーションに最適であることが示唆された。 SymTCコードとSSMSpineデータセットはhttps://github.com/jiasongchen/SymTCで公開されている。

Intervertebral disc disease, a prevalent ailment, frequently leads to intermittent or persistent low back pain, and diagnosing and assessing of this disease rely on accurate measurement of vertebral bone and intervertebral disc geometries from lumbar MR images. Deep neural network (DNN) models may assist clinicians with more efficient image segmentation of individual instances (disks and vertebrae) of the lumbar spine in an automated way, which is termed as instance image segmentation. In this work, we proposed SymTC, an innovative lumbar spine MR image segmentation model that combines the strengths of Transformer and Convolutional Neural Network (CNN). Specifically, we designed a parallel dual-path architecture to merge CNN layers and Transformer layers, and we integrated a novel position embedding into the self-attention module of Transformer, enhancing the utilization of positional information for more accurate segmentation. To further improves model performance, we introduced a new data augmentation technique to create synthetic yet realistic MR image dataset, named SSMSpine, which is made publicly available. We evaluated our SymTC and the other 15 existing image segmentation models on our private in-house dataset and the public SSMSpine dataset, using two metrics, Dice Similarity Coefficient and 95% Hausdorff Distance. The results show that our SymTC has the best performance for segmenting vertebral bones and intervertebral discs in lumbar spine MR images. The SymTC code and SSMSpine dataset are available at https://github.com/jiasongchen/SymTC.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-01
# DeepEdit: 制約付きデコードとしての知識編集

DeepEdit: Knowledge Editing as Decoding with Constraints ( http://arxiv.org/abs/2401.10471v2 )

ライセンス: Link先を確認
Yiwei Wang, Muhao Chen, Nanyun Peng, Kai-Wei Chang, (参考訳) 本稿では,制約付き復号化問題として扱う大規模言語モデル(LLM)に対する知識編集(KE)の新たな視点を提案する。 我々は、LLMを規制するデコード制約を設計し、新しい知識を取り入れた場合の推論ステップ間の一貫性を確保する。 これらの制約を強制するために、我々は深度優先探索を用いて、LLMの元々の推論ステップに適応的に新しい知識を置換し、新しい知識を持つマルチホップ推論の最適経路を欲しがる。 本稿では,DeEPEDIT:Depth-first Search-based Decoding for Knowledge Editingを提案する。 DEEPEDITは、新しい知識による推論の簡潔さ、コヒーレンス、永続性、受容性を高めることにより、LLMのKEを改善する。 DEEPEDITは、モデルパラメータやトークン単位の分布へのアクセスを必要とせずに、任意のブラックボックス LLM に柔軟に適用可能である。 DEEPEDITに加えて、我々は、より正確で挑戦的なKEアプローチの評価を提供するために、MQuAKE-2002とMQuAKE-hardという2つの新しいKEベンチマークを提案する。 定性的には、DEEPEDITはLLMが新たな知識に応じてより簡潔な推論出力を生成することを可能にする。 定量的には、複数のKEベンチマークで大幅に改善されている。

We propose a new perspective of knowledge editing (KE) for large language models (LLMs) that treats it as a constrained decoding problem. We design decoding constraints to regulate LLMs, ensuring coherence between reasoning steps when incorporating new knowledge. To enforce these constraints, we utilize a depth-first search to adaptively substitute new knowledge for the LLMs' original reasoning steps, greedily seeking the optimal path of multi-hop reasoning with new knowledge. From this vantage, we propose DEEPEDIT: Depth-first Search-based Decoding for Knowledge Editing. DEEPEDIT improves the KE of LLMs by enhancing the conciseness, coherence, pertinence, and receptiveness of reasoning with new knowledge. DEEPEDIT is flexibly applicable to any black-box LLM without requiring access to model parameters or token-wise distributions. In addition to DEEPEDIT, we propose two new KE benchmarks: MQuAKE-2002 and MQuAKE-hard, which are designed to provide more precise and challenging assessments of KE approaches. Qualitatively, DEEPEDIT enables LLMs to produce more succinct reasoning outputs in accordance with new knowledge. Quantitatively, it yields significant improvements on multiple KE benchmarks.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-01
# Metric Learning for Life Sciencesによるドメインシフト下でのエンティティ認識

Named Entity Recognition Under Domain Shift via Metric Learning for Life Sciences ( http://arxiv.org/abs/2401.10472v2 )

ライセンス: Link先を確認
Hongyi Liu, Qingyun Wang, Payam Karisani, Heng Ji, (参考訳) 名前付きエンティティ認識は情報抽出(IE)の重要な要素であり、特に生物医学や化学などの科学領域では、大きな言語モデル(LLM)、例えばChatGPTが不足している。 バイオメディカルドメイン(ソースドメイン)で訓練され、化学ドメイン(ターゲットドメイン)で使用される名前付きエンティティ認識モデルを強化するための転写学習の適用性について検討する。 このようなモデルを数ショットの学習環境でトレーニングするための一般的な実践は、ラベル付きソースデータ上でモデルを事前訓練し、ラベル付きターゲットサンプルのハンドフルで微調整することである。 実験では、そのようなモデルでは、しばしばテキストに現れるソースエンティティをターゲットエンティティとして誤ラベルする傾向があることを観察した。 この問題を軽減するため、ソースドメインからターゲットドメインへの知識伝達モデルを提案するが、同時に、ソースエンティティとターゲットエンティティを特徴空間の別々の領域に投影する。 これにより、ソースエンティティをターゲットエンティティと誤ラベルするリスクが軽減される。 私たちのモデルは2つの段階から構成されます。 1) エンティティ間の関係を確立するために注釈付きイベントからの知識を取り入れたソースドメイン内のエンティティグループ化 2) 対象ドメインのエンティティ識別は,2つのドメインのエンティティ間の識別を高めるために,擬似ラベリングとコントラスト学習に依存している。 3つのソースと3つのターゲットデータセットにまたがって広範な実験を行い、我々の手法が最大5%の絶対値でベースラインを上回ることを示した。

Named entity recognition is a key component of Information Extraction (IE), particularly in scientific domains such as biomedicine and chemistry, where large language models (LLMs), e.g., ChatGPT, fall short. We investigate the applicability of transfer learning for enhancing a named entity recognition model trained in the biomedical domain (the source domain) to be used in the chemical domain (the target domain). A common practice for training such a model in a few-shot learning setting is to pretrain the model on the labeled source data, and then, to finetune it on a hand-full of labeled target examples. In our experiments, we observed that such a model is prone to mislabeling the source entities, which can often appear in the text, as the target entities. To alleviate this problem, we propose a model to transfer the knowledge from the source domain to the target domain, but, at the same time, to project the source entities and target entities into separate regions of the feature space. This diminishes the risk of mislabeling the source entities as the target entities. Our model consists of two stages: 1) entity grouping in the source domain, which incorporates knowledge from annotated events to establish relations between entities, and 2) entity discrimination in the target domain, which relies on pseudo labeling and contrastive learning to enhance discrimination between the entities in the two domains. We conduct our extensive experiments across three source and three target datasets, demonstrating that our method outperforms the baselines by up to 5% absolute value.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-01
# Sat2Scene: 拡散衛星画像からの3次元都市景観生成

Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion ( http://arxiv.org/abs/2401.10786v2 )

ライセンス: Link先を確認
Zuoyue Li, Zhenqiang Li, Zhaopeng Cui, Marc Pollefeys, Martin R. Oswald, (参考訳) 衛星画像から直接シーンを生成することは、ゲームやマップサービスのようなアプリケーションとの統合にエキサイティングな可能性をもたらす。 しかし、大きな視点の変化とシーンスケールから課題が生じる。 それまでの取り組みは、主に画像や映像生成に焦点を合わせ、任意の視点におけるシーン生成の適応性についての調査を欠いていた。 既存の3D生成作業は、オブジェクトレベルで動作するか、衛星画像から得られる幾何を利用するのが困難である。 これらの制約を克服するために,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。 具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。 この表現は、任意のビューをレンダリングするために使用することができ、単一のフレーム品質とフレーム間の一貫性の両方に優れる。 2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。

Directly generating scenes from satellite imagery offers exciting possibilities for integration into applications like games and map services. However, challenges arise from significant view changes and scene scale. Previous efforts mainly focused on image or video generation, lacking exploration into the adaptability of scene generation for arbitrary views. Existing 3D generation works either operate at the object level or are difficult to utilize the geometry obtained from satellite imagery. To overcome these limitations, we propose a novel architecture for direct 3D scene generation by introducing diffusion models into 3D sparse representations and combining them with neural rendering techniques. Specifically, our approach generates texture colors at the point level for a given geometry using a 3D diffusion model first, which is then transformed into a scene representation in a feed-forward manner. The representation can be utilized to render arbitrary views which would excel in both single-frame quality and inter-frame consistency. Experiments in two city-scale datasets show that our model demonstrates proficiency in generating photo-realistic street-view image sequences and cross-view urban scenes from satellite imagery.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-01
# GI-PIP: グラディエント・インバージョン・アタックの非現実的補助的データセットは必要か?

GI-PIP: Do We Require Impractical Auxiliary Dataset for Gradient Inversion Attacks? ( http://arxiv.org/abs/2401.11748v3 )

ライセンス: Link先を確認
Yu Sun, Gaojian Xiong, Xianxun Yao, Kailang Ma, Jian Cui, (参考訳) 深い勾配の反転攻撃は、共有勾配から個人データを正確に回収することで、フェデレートされた学習(FL)に深刻な脅威を露呈する。 しかし、最先端技術は、FLの基本データ分割原理に違反している過剰な補助データにアクセスするための非現実的な仮定に大きく依存している。 本稿では,GI-PIP(Practical Image Prior)を用いたグラディエント・インバージョン・アタック(Gradient Inversion Attack)を提案する。 GI-PIPは異常検出モデルを利用して、より少ないデータから基礎となる分布をキャプチャする一方、GANベースの手法は画像の合成にかなりの量のデータを消費する。 抽出した分布を利用して攻撃プロセスをAnomaly Score損失として制御する。 実験の結果、GI-PIPは画像Netの3.8%のデータのみを使用して16.12dBのPSNRリカバリを実現し、GANベースの手法は70%以上必要であることがわかった。 さらに,GI-PIPはGAN法に比べて分布一般化に優れる。 本手法は,勾配反転攻撃における量と分布の補助的データ要求を著しく軽減し,現実のFLに対してより重大な脅威となる。

Deep gradient inversion attacks expose a serious threat to Federated Learning (FL) by accurately recovering private data from shared gradients. However, the state-of-the-art heavily relies on impractical assumptions to access excessive auxiliary data, which violates the basic data partitioning principle of FL. In this paper, a novel method, Gradient Inversion Attack using Practical Image Prior (GI-PIP), is proposed under a revised threat model. GI-PIP exploits anomaly detection models to capture the underlying distribution from fewer data, while GAN-based methods consume significant more data to synthesize images. The extracted distribution is then leveraged to regulate the attack process as Anomaly Score loss. Experimental results show that GI-PIP achieves a 16.12 dB PSNR recovery using only 3.8% data of ImageNet, while GAN-based methods necessitate over 70%. Moreover, GI-PIP exhibits superior capability on distribution generalization compared to GAN-based methods. Our approach significantly alleviates the auxiliary data requirement on both amount and distribution in gradient inversion attacks, hence posing more substantial threat to real-world FL.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-01
# 大規模言語モデルは並列コードを書くことができるか?

Can Large Language Models Write Parallel Code? ( http://arxiv.org/abs/2401.12554v2 )

ライセンス: Link先を確認
Daniel Nichols, Joshua H. Davis, Zhaojun Xie, Arjun Rajaram, Abhinav Bhatele, (参考訳) 大規模言語モデルは、ソフトウェア開発の一般的なツールになりつつある。 ソースコードをモデル化し生成する能力は、コード補完、要約、翻訳、ルックアップなど、さまざまな状況で実証されている。 しかし、複雑なプログラムのためのコードを生成するのに苦労することが多い。 本稿では,最先端言語モデルによる並列コード生成能力について検討する。 言語モデルを評価するために、420の異なるコーディングタスクを表すプロンプトからなるベンチマークParEvalを作成します。 我々はParEvalを用いて、これらのタスクにおけるいくつかの最先端のオープンソースおよびクローズドソース言語モデルの有効性を評価する。 生成したコードの性能を評価するための新しいメトリクスを導入し、各LLMが12種類の計算問題タイプと6種類の並列プログラミングモデルに対してどのように機能するかを探索する。

Large language models are increasingly becoming a popular tool for software development. Their ability to model and generate source code has been demonstrated in a variety of contexts, including code completion, summarization, translation, and lookup. However, they often struggle to generate code for complex programs. In this paper, we study the capabilities of state-of-the-art language models to generate parallel code. In order to evaluate language models, we create a benchmark, ParEval, consisting of prompts that represent 420 different coding tasks. We use ParEval to evaluate the effectiveness of several state-of-the-art open- and closed-source language models on these tasks. We introduce novel metrics for evaluating the performance of generated code, and use them to explore how well each LLM performs for 12 different computational problem types and six different parallel programming models.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-01
# ニューラルネットワーク学習のツインピーク

The twin peaks of learning neural networks ( http://arxiv.org/abs/2401.12610v2 )

ライセンス: Link先を確認
Elizaveta Demyanenko, Christoph Feinauer, Enrico M. Malatesta, Luca Saglietti, (参考訳) 近年の研究では、過度にパラメータ化されたモデルが過度に適合し、テスト性能が向上するニューラルネットワークの一般化誤差に対して、統計学習理論によって記述された標準バイアス分散トレードオフに反する、二重発振現象の存在が実証されている。 本研究では,この現象とニューラルネットワークで表される関数の複雑性と感度の増大との関係について検討する。 特に,ブール関数解析の文脈で開発された計量であるブール平均次元(BMD)について検討する。 ランダムな特徴モデルに対する簡単な教師学生設定に着目し,データ点数,特徴数,入力サイズが無限大となる高次元状態において,BMDの解釈可能な表現を生成するレプリカ法に基づく理論的解析を導出する。 ネットワークの過度パラメータ化の度合いが大きくなるにつれて、BMDは一般化誤差ピークに対応して補間しきい値で明らかなピークに達し、その後徐々に低漸近値に近づいた。 同じ現象論は、異なるモデルクラスとトレーニング設定を持つ数値実験で追跡される。 さらに, 逆初期化モデルでは, 高いBMD値を示す傾向があり, 敵攻撃に対してより堅牢なモデルでは低いBMDを示すことが実証的に確認された。

Recent works demonstrated the existence of a double-descent phenomenon for the generalization error of neural networks, where highly overparameterized models escape overfitting and achieve good test performance, at odds with the standard bias-variance trade-off described by statistical learning theory. In the present work, we explore a link between this phenomenon and the increase of complexity and sensitivity of the function represented by neural networks. In particular, we study the Boolean mean dimension (BMD), a metric developed in the context of Boolean function analysis. Focusing on a simple teacher-student setting for the random feature model, we derive a theoretical analysis based on the replica method that yields an interpretable expression for the BMD, in the high dimensional regime where the number of data points, the number of features, and the input size grow to infinity. We find that, as the degree of overparameterization of the network is increased, the BMD reaches an evident peak at the interpolation threshold, in correspondence with the generalization error peak, and then slowly approaches a low asymptotic value. The same phenomenology is then traced in numerical experiments with different model classes and training setups. Moreover, we find empirically that adversarially initialized models tend to show higher BMD values, and that models that are more robust to adversarial attacks exhibit a lower BMD.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-01
# ベクトル値波動関数(質量および質量を持たない)に対するポアンカレ群のユニタリ表現の明示的形式と光子局所化および位置作用素への応用

The explicit form of the unitary representation of the Poincaré group for vector-valued wave functions (massive and massless), with applications to photon's localization and position operators ( http://arxiv.org/abs/2401.14217v2 )

ライセンス: Link先を確認
Arkadiusz Jadczyk, (参考訳) 我々は、ポアンケア群のユニタリ表現の明示的な形式を幾何学的に導出し、それを単純な偏光基底にスピード・オブ・ライト・ブースターを適用して、可換成分を持つホートン・ベイリス光子位置演算子で終わる。 我々は、他の光子ブースト固有モジュラーに対して明示的な公式を与える。 運動量空間における光円錐上の下層のアフィン接続を調査し、プライス接続が計量半対称であるのに対して、平坦なホートン・ベイリス接続は半対称ではないことを示す。 最後に、閉ループ上に局在した光子状態のローカライズ可能性について議論し、非正規化された不適切な状態とワッシャー状領域上にスミアリングされた有限ノルム波パケットの両方が、可換成分を持つホートン・ベイリス作用素および非可換ジャウチ・ピロン・アムレインPOV測度に関して厳密に局所化されていることを示す。

We geometrically derive the explicit form of the Unitary representation of the Poincare group and use it to apply speed-of-light boosts to simple polarization basis to end up with Hawton-Baylis photon position operator with commuting components. We give explicit formulas for other photon boost eigenmodes. We investigate the underlying affine connections on the light cone in momentum space and find that while Pryce connection is metric semi-symmetric, the flat Hawton-Baylis connection is not semi-symmetric. Finally we discuss localizability of photon states localized on closed loops and show that photon states on the circle, both unnormalized improper states and finite norm wave packet smeared over washer-like regions are strictly localized with respect to Hawton-Baylis operators with commuting components and also with respect to the noncommutative Jauch-Piron-Amrein POV measure.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-01
# シンプルな政策最適化

Simple Policy Optimization ( http://arxiv.org/abs/2401.16025v3 )

ライセンス: Link先を確認
Zhengpeng Xie, (参考訳) PPO (Proximal Policy Optimization) アルゴリズムは多くの分野で優れた性能を示しており、TRPO (Trust Region Policy Optimization) アルゴリズムの単純なバージョンと見なされている。 しかし、PPOの切断操作は必ずしも信頼領域の制約を効果的に強制するわけではないため、アルゴリズムの安定性に影響を与える潜在的な要因となる可能性がある。 本稿では,従来のポリシと現在のポリシのKL分散のための新しいクリッピング手法であるSimple Policy Optimization (SPO)アルゴリズムを提案する。 Atari 2600環境における大規模な実験結果から、SPOはPPOの主流の変種と比較して、より優れたサンプル効率、極めて低いKL分散、より高いポリシーエントロピーを実現し、ネットワークの深さや複雑さの増加に対して堅牢であることが示された。 さらに重要なことに、SPOは制約のない一階法アルゴリズムの単純さを維持している。 コードはhttps://github.com/MyRepositories-hub/Simple-Policy-Optimizationで入手できる。

PPO (Proximal Policy Optimization) algorithm has demonstrated excellent performance in many fields, and it is considered as a simple version of TRPO (Trust Region Policy Optimization) algorithm. However, the ratio clipping operation in PPO may not always effectively enforce the trust region constraints, this can be a potential factor affecting the stability of the algorithm. In this paper, we propose Simple Policy Optimization (SPO) algorithm, which introduces a novel clipping method for KL divergence between the old and current policies. Extensive experimental results in Atari 2600 environments indicate that, compared to the mainstream variants of PPO, SPO achieves better sample efficiency, extremely low KL divergence, and higher policy entropy, and is robust to the increase in network depth or complexity. More importantly, SPO maintains the simplicity of an unconstrained first-order algorithm. Code is available at https://github.com/MyRepositories-hub/Simple-Policy-Optimization.
翻訳日:2024-04-04 09:00:10 公開日:2024-04-01
# 生成的非教師付きドメイン適応のための事前学習はどの程度有用か?

How Useful is Continued Pre-Training for Generative Unsupervised Domain Adaptation? ( http://arxiv.org/abs/2401.17514v2 )

ライセンス: Link先を確認
Rheeya Uppaal, Yixuan Li, Junjie Hu, (参考訳) 近年の大規模なブレークスルーにより、強力な生成言語モデルの出現と、これらのモデルをプロンプトや命令に投入することで、様々なタスクで微調整することが可能になった。 この状況では、Unsupervised Domain Adaptation(UDA)の問題や、ラベル付きソースドメインからラベル付きターゲットドメインへの知識活用の問題が残されており、近年のUDA法は差別的分類に対処している。 特に、CPT(Continuoused Pre-Training)と学習領域不変表現(Learning Domain Invariant representations)を含む2つの人気のあるUDAアプローチは、生成環境において未探索であり、ギャップを示唆している。 本研究は, 生成型UDAにおけるCPTの有用性を評価するものである。 まず、CPTとドメインの分散を促進する強力な手法のトレードオフを測定する実験的な評価を行う。 さらに、CPTの利点が、異なるアーキテクチャ、チューニング方法、データレシスタンスにいかに優れているかを評価する。 次に、対象領域における分類性能のどの程度に有用かを研究することによって、CPTの使用を動機づける。 最後に、CPTが未ラベルのターゲットドメインの分類性能を改善するメカニズムを理解することを試みる。 以上の結果から,下流の課題を暗黙的に学習し,その課題に有意なマスク付き単語を予測できることが示唆された。 我々の研究は、UDA研究の本体と命令チューニングの身体を結びつけ、現代の言語モデルのより広範な適用性に向けた最初のステップを可能にする。

Recent breakthroughs in scale have enabled the emergence of powerful generative language models, and the ability to fine-tune these models on various tasks by casting them into prompts or instructions. In this landscape, the problem of Unsupervised Domain Adaptation (UDA), or the problem of leveraging knowledge from a labeled source domain to an unlabeled target domain, has been left behind, with recent UDA methods still addressing discriminative classification. In particular, two popular UDA approaches, involving Continued Pre-Training (CPT) and learning domain invariant representations, have been under-explored in the generative setting, signaling a gap. In this work, we evaluate the utility of CPT for generative UDA. We first perform an empirical evaluation to measure the trade-offs between CPT and strong methods promoting domain invariance. We further evaluate how well the benefits of CPT extend to different architectures, tuning methods and data regimes. We then motivate the use of CPT by studying to what degree it benefits classification performance on the target domain. Finally, we attempt to understand the mechanism behind which CPT improves classification performance on the unlabeled target domain. Our findings suggest that a implicitly learns the downstream task while predicting masked words informative to that task. Our work connects the body of UDA research with that of instruction tuning, enabling an initial step towards a wider applicability of modern language models.
翻訳日:2024-04-04 08:49:40 公開日:2024-04-01
# 物理に着想を得た測地学補間による合成データ拡張による集団変数の学習

Learning Collective Variables with Synthetic Data Augmentation through Physics-inspired Geodesic Interpolation ( http://arxiv.org/abs/2402.01542v2 )

ライセンス: Link先を確認
Soojung Yang, Juno Nam, Johannes C. B. Dietschreit, Rafael Gómez-Bombarelli, (参考訳) 分子動力学シミュレーションでは、タンパク質の折り畳みのようなまれな事象は、通常、強化されたサンプリング技術を用いて研究され、その多くは加速が起こる集合変数(CV)の定義に基づいている。 表現力のあるCVを持つことは重要であるが、しばしば特定の事象に関する情報の欠如、例えば、展開された状態から折り畳みされたコンフォメーションへの遷移によって妨げられる。 本研究では,タンパク質の折りたたみ遷移に似た測地的補間を生成するため,物理に着想を得た指標を用いたシミュレーションフリーなデータ拡張戦略を提案し,真の遷移状態サンプルを使わずにサンプリング効率を向上させる。 補間進行パラメータを活用することで,遷移状態データが限定的かつノイズの多い場合に,分類器に基づく手法よりも優れた回帰学習方式をCVモデルに導入する。

In molecular dynamics simulations, rare events, such as protein folding, are typically studied using enhanced sampling techniques, most of which are based on the definition of a collective variable (CV) along which acceleration occurs. Obtaining an expressive CV is crucial, but often hindered by the lack of information about the particular event, e.g., the transition from unfolded to folded conformation. We propose a simulation-free data augmentation strategy using physics-inspired metrics to generate geodesic interpolations resembling protein folding transitions, thereby improving sampling efficiency without true transition state samples. Leveraging interpolation progress parameters, we introduce a regression-based learning scheme for CV models, which outperforms classifier-based methods when transition state data are limited and noisy.
翻訳日:2024-04-04 08:49:40 公開日:2024-04-01
# 外因性分布学習による因果ベイズ最適化

Causal Bayesian Optimization via Exogenous Distribution Learning ( http://arxiv.org/abs/2402.02277v3 )

ライセンス: Link先を確認
Shaogang Ren, Xiaoning Qian, (参考訳) 構造的因果モデルにおける操作対象変数の最大化は重要な問題である。 既存の因果ベイズ最適化(CBO)手法は、報酬を最大化するために因果構造を変更するハード介入に依存するか、データ生成機構を調整して目的を達成するために内在変数にアクションノードを導入するかのいずれかである。 本稿では,従来手法で期待されていた外因性変数の分布を学習するために,新しい手法を提案する。 外因性分布学習は、通常限られた観測データで訓練された代理モデルにおいて、構造化因果モデルの近似精度を向上させる。 さらに、学習した外因性分布は、既存のCBOを付加雑音モデル(ANM)を超えた一般的な因果関係に拡張する。 外因性変数のリカバリにより、ノイズや未観測の隠れ変数に対して、よりフレキシブルな事前利用が可能になります。 学習した外因性分布を利用した新しいCBO法を開発した。 異なるデータセットとアプリケーションの実験により,提案手法の利点が示された。

Maximizing a target variable as an operational objective in a structured causal model is an important problem. Existing Causal Bayesian Optimization (CBO) methods either rely on hard interventions that alter the causal structure to maximize the reward; or introduce action nodes to endogenous variables so that the data generation mechanisms are adjusted to achieve the objective. In this paper, a novel method is introduced to learn the distribution of exogenous variables, which is typically ignored or marginalized through expectation by existing methods. Exogenous distribution learning improves the approximation accuracy of structured causal models in a surrogate model that is usually trained with limited observational data. Moreover, the learned exogenous distribution extends existing CBO to general causal schemes beyond Additive Noise Models (ANM). The recovery of exogenous variables allows us to use a more flexible prior for noise or unobserved hidden variables. A new CBO method is developed by leveraging the learned exogenous distribution. Experiments on different datasets and applications show the benefits of our proposed method.
翻訳日:2024-04-04 08:49:40 公開日:2024-04-01
# Read to Play (R2-Play):マルチモーダルゲーム指導による決定変換器

Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction ( http://arxiv.org/abs/2402.04154v5 )

ライセンス: Link先を確認
Yonggang Jin, Ge Zhang, Hao Zhao, Tianyu Zheng, Jiawei Guo, Liuyu Xiang, Shawn Yue, Stephen W. Huang, Zhaofeng He, Jie Fu, (参考訳) 汎用エージェントの開発は、人工知能の長年の目標である。 さまざまなタスクから広範なオフラインデータセットを活用するこれまでの取り組みは、強化学習内のマルチタスクシナリオにおいて、顕著なパフォーマンスを示している。 しかしながら、これらの作業は、新しいタスクに機能を拡張する際の課題に直面します。 近年,テキスト指導や視覚的軌跡を意思決定ネットワークに統合し,タスク固有の文脈情報を提供し,有望な方向を示す手法が提案されている。 しかし,タスクの文脈情報を正確に伝達するには,テキスト指導や視覚的軌跡のみに頼るだけでは不十分であることが観察された。 本稿では,エージェントに対するタスクガイダンスの強化について検討し,ゲームプレイの指示を理解することによって,「読み上げ」機能を実現する。 視覚タスクにおけるマルチモーダル・インストラクション・チューニングの成功からインスピレーションを得て、視覚ベースのRLタスクを長期視覚タスクとして扱い、インストラクション・チューニングを決定変換器に組み込むためのマルチモーダル・ゲーム・インストラクションのセットを構築する。 実験により,マルチモーダルゲーム命令を組み込むことで,決定変換器のマルチタスクと一般化能力を大幅に向上することが示された。

Developing a generalist agent is a longstanding objective in artificial intelligence. Previous efforts utilizing extensive offline datasets from various tasks demonstrate remarkable performance in multitasking scenarios within Reinforcement Learning. However, these works encounter challenges in extending their capabilities to new tasks. Recent approaches integrate textual guidance or visual trajectory into decision networks to provide task-specific contextual cues, representing a promising direction. However, it is observed that relying solely on textual guidance or visual trajectory is insufficient for accurately conveying the contextual information of tasks. This paper explores enhanced forms of task guidance for agents, enabling them to comprehend gameplay instructions, thereby facilitating a "read-to-play" capability. Drawing inspiration from the success of multimodal instruction tuning in visual tasks, we treat the visual-based RL task as a long-horizon vision task and construct a set of multimodal game instructions to incorporate instruction tuning into a decision transformer. Experimental results demonstrate that incorporating multimodal game instructions significantly enhances the decision transformer's multitasking and generalization capabilities.
翻訳日:2024-04-04 08:49:40 公開日:2024-04-01
# 時系列データ解析のための動的プロセス不確かさを有するパススペースカルマンフィルタ

Pathspace Kalman Filters with Dynamic Process Uncertainty for Analyzing Time-course Data ( http://arxiv.org/abs/2402.04498v2 )

ライセンス: Link先を確認
Chaitra Agrahar, William Poole, Simone Bianco, Hana El-Samad, (参考訳) KF (Kalman Filter) は最適線形状態予測アルゴリズムであり、工学、経済学、ロボット工学、宇宙探査などの分野に応用されている。 ここで、我々は、パススペースカルマンフィルタ(PKF)と呼ばれるKFの拡張を開発する。 a) 基礎となるデータ及び先行知識に関連する不確実性を動的に追跡し、 b) 軌跡全体と基礎となる力学モデルとを入力とし、ベイズ法を用いて異なる不確実性の源を定量化する。 このアルゴリズムの応用は、内部力学モデルがデータから時間依存的に逸脱する時間窓を自動的に検出することである。 まず、PKFアルゴリズムの収束を特徴付ける定理を提案する。 そして、PKFは平均二乗誤差を数桁下げる合成データセット上で、従来のKF法よりも優れていることを数値的に示す。 最後に、この手法を、180万以上の遺伝子発現測定を含む生物学的時系列データセットに適用する。

Kalman Filter (KF) is an optimal linear state prediction algorithm, with applications in fields as diverse as engineering, economics, robotics, and space exploration. Here, we develop an extension of the KF, called a Pathspace Kalman Filter (PKF) which allows us to a) dynamically track the uncertainties associated with the underlying data and prior knowledge, and b) take as input an entire trajectory and an underlying mechanistic model, and using a Bayesian methodology quantify the different sources of uncertainty. An application of this algorithm is to automatically detect temporal windows where the internal mechanistic model deviates from the data in a time-dependent manner. First, we provide theorems characterizing the convergence of the PKF algorithm. Then, we numerically demonstrate that the PKF outperforms conventional KF methods on a synthetic dataset lowering the mean-squared-error by several orders of magnitude. Finally, we apply this method to biological time-course dataset involving over 1.8 million gene expression measurements.
翻訳日:2024-04-04 08:49:40 公開日:2024-04-01
# LlaSMol: 大規模で包括的で高品質なインストラクションチューニングデータセットによる化学用大規模言語モデルの改善

LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset ( http://arxiv.org/abs/2402.09391v3 )

ライセンス: Link先を確認
Botao Yu, Frazier N. Baker, Ziqi Chen, Xia Ning, Huan Sun, (参考訳) 化学は、薬物発見や物質科学など、多くの領域において重要な役割を担っている。 GPT-4のような大規模言語モデル(LLM)は、自然言語処理タスクにおいて顕著な能力を示すが、既存の研究では、それらの化学タスクにおける性能が著しく低いことが示されている。 しかし,本研究で開発したLCMは,より高度なGPT-4およびClaude 3 Opusよりもかなり優れた性能を発揮できることを示す。 そこで我々はSMolInstructを提案する。SMolInstructは大規模で包括的で高品質な命令チューニングデータセットである。 14の選抜された化学タスクと300万以上のサンプルが含まれており、化学のためのLCMの訓練と評価のためのしっかりとした基礎を築いている。 SMolInstructを使ってオープンソースのLCMの集合を微調整し、その中のMistralが化学タスクの最良のベースモデルであることを示す。 我々の分析は、提案したデータセットが性能改善を促進する上で重要な役割を担っていることをさらに示している。

Chemistry plays a crucial role in many domains, such as drug discovery and material science. While large language models (LLMs) such as GPT-4 exhibit remarkable capabilities on natural language processing tasks, existing research indicates that their performance on chemistry tasks is discouragingly low. In this paper, however, we demonstrate that our developed LLMs can achieve very strong results on a comprehensive set of chemistry tasks, outperforming the most advanced GPT-4 and Claude 3 Opus by a substantial margin. To accomplish this, we propose SMolInstruct, a large-scale, comprehensive, and high-quality dataset for instruction tuning. It contains 14 selected chemistry tasks and over three million samples, laying a solid foundation for training and evaluating LLMs for chemistry. Using SMolInstruct, we fine-tune a set of open-source LLMs, among which, we find that Mistral serves as the best base model for chemistry tasks. Our analysis further demonstrates the critical role of the proposed dataset in driving the performance improvements.
翻訳日:2024-04-04 08:49:39 公開日:2024-04-01
# 大規模言語モデルによる説明の解釈はどの程度可能か?

How Interpretable are Reasoning Explanations from Prompting Large Language Models? ( http://arxiv.org/abs/2402.11863v3 )

ライセンス: Link先を確認
Wei Jie Yeo, Ranjan Satapathy, Rick Siow Mong Goh, Erik Cambria, (参考訳) Prompt Engineeringは、多数のタスクにわたる大規模言語モデルの性能向上に重要な注目を集めている。 Chain-of-Thoughtのようなテクニックは、タスクのパフォーマンスを加速させるだけでなく、推論ステップの明確な軌跡を明確にし、聴衆に明確な説明を提供する。 解釈可能性に関する先行研究は、Chain-of-Thoughtによって得られる推論鎖を単軸、すなわち忠実性に沿ってのみ評価する。 本稿では,多面的解釈可能性の評価を包括的かつ多面的に行い,信頼度だけでなく,複数のコモンセンス推論ベンチマークにまたがる堅牢性や有用性についても検討する。 同様に、我々の調査は単一のプロンプト技術に限らず、大規模言語モデルで広く用いられているプロンプト技術の範囲を広くカバーし、広範かつ徹底的な評価を確実にする。 さらに,複数次元の解釈可能性に70 % 以上の改善をもたらす,自己完結型アライメントチェーン(Self-Entailment-Alignment Chain-of-Thought)と呼ばれる単純な解釈可能性アライメント手法を導入する。 コードはhttps://github.com/SenticNet/CoT_interpretabilityで入手できる。

Prompt Engineering has garnered significant attention for enhancing the performance of large language models across a multitude of tasks. Techniques such as the Chain-of-Thought not only bolster task performance but also delineate a clear trajectory of reasoning steps, offering a tangible form of explanation for the audience. Prior works on interpretability assess the reasoning chains yielded by Chain-of-Thought solely along a singular axis, namely faithfulness. We present a comprehensive and multifaceted evaluation of interpretability, examining not only faithfulness but also robustness and utility across multiple commonsense reasoning benchmarks. Likewise, our investigation is not confined to a single prompting technique; it expansively covers a multitude of prevalent prompting techniques employed in large language models, thereby ensuring a wide-ranging and exhaustive evaluation. In addition, we introduce a simple interpretability alignment technique, termed Self-Entailment-Alignment Chain-of-thought, that yields more than 70\% improvements across multiple dimensions of interpretability. Code is available at https://github.com/SenticNet/CoT_interpretability
翻訳日:2024-04-04 08:39:34 公開日:2024-04-01
# Open3DSG: クエリ可能なオブジェクトとオープンセット関係を持つポイントクラウドからのオープン語彙3Dシーングラフ

Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with Queryable Objects and Open-Set Relationships ( http://arxiv.org/abs/2402.12259v2 )

ライセンス: Link先を確認
Sebastian Koch, Narunas Vaskevicius, Mirco Colosi, Pedro Hermosilla, Timo Ropinski, (参考訳) 3Dシーングラフ予測の現在のアプローチは、既知のオブジェクトクラスと関係カテゴリの固定セットのモデルをトレーニングするためのラベル付きデータセットに依存している。 ラベル付きシーングラフデータを必要としないオープンな世界で3次元シーングラフを学習するための代替手法であるOpen3DSGを提案する。 我々は,3次元シーングラフ予測バックボーンの機能を,強力なオープンワールド2Dビジョン言語基盤モデルの特徴空間と組み合わせた。 これにより、オープンな語彙からオブジェクトクラスを問合せし、シーングラフの特徴を持つ接地LLMからオブジェクト間の関係をコンテキストとして予測することで、ゼロショットで3Dポイントクラウドから3Dシーングラフを予測できる。 Open3DSGは、明示的なオープン語彙オブジェクトクラスだけでなく、事前に定義されたラベルセットに制限されないオープンセットの関係を予測する最初の3Dポイントクラウドメソッドである。 実験の結果,Open3DSGは任意のオブジェクトクラスや,空間的,支援的,意味的,比較的な関係を記述した複雑なオブジェクト間関係の予測に有効であることがわかった。

Current approaches for 3D scene graph prediction rely on labeled datasets to train models for a fixed set of known object classes and relationship categories. We present Open3DSG, an alternative approach to learn 3D scene graph prediction in an open world without requiring labeled scene graph data. We co-embed the features from a 3D scene graph prediction backbone with the feature space of powerful open world 2D vision language foundation models. This enables us to predict 3D scene graphs from 3D point clouds in a zero-shot manner by querying object classes from an open vocabulary and predicting the inter-object relationships from a grounded LLM with scene graph features and queried object classes as context. Open3DSG is the first 3D point cloud method to predict not only explicit open-vocabulary object classes, but also open-set relationships that are not limited to a predefined label set, making it possible to express rare as well as specific objects and relationships in the predicted 3D scene graph. Our experiments show that Open3DSG is effective at predicting arbitrary object classes as well as their complex inter-object relationships describing spatial, supportive, semantic and comparative relationships.
翻訳日:2024-04-04 08:39:34 公開日:2024-04-01
# ArEEG_Chars: アラビア文字の脳波を用いた音声認識のためのデータセット

ArEEG_Chars: Dataset for Envisioned Speech Recognition using EEG for Arabic Characters ( http://arxiv.org/abs/2402.15733v2 )

ライセンス: Link先を確認
Hazem Darwish, Abdalrahman Al Malah, Khloud Al Jallad, Nada Ghneim, (参考訳) Brain-Computer-Interface(BCI)は、ここ数年、生活の中で麻痺する人々を助けるホットな研究トピックだ。 脳波(EEG)信号を英語の文字や単語に自動的に分類するために、いくつかの研究がなされた。 アラビア語は世界で最もよく使われている言語の一つである。 しかし、私たちの知る限りでは、アラビア文字EEG信号のデータセットは存在しない。 本稿では、アラビア文字のためのEEGデータセットを作成し、それをArEEG_Charsと命名した。 さらに、ディープラーニングを用いてArEEG_Chars上でいくつかの実験を行った。 LSTMで最良の結果が得られ、精度は97%に達した。 ArEEG_Charsデータセットは研究者向けに公開されている。

Brain-Computer-Interface (BCI) has been a hot research topic in the last few years that could help paralyzed people in their lives. Several researches were done to classify electroencephalography (EEG) signals automatically into English characters and words. Arabic language is one of the most used languages around the world. However, to the best of our knowledge, there is no dataset for Arabic characters EEG signals. In this paper, we have created an EEG dataset for Arabic characters and named it ArEEG_Chars. Moreover, several experiments were done on ArEEG_Chars using deep learning. Best results were achieved using LSTM and reached an accuracy of 97%. ArEEG_Chars dataset will be public for researchers.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-01
# 大規模言語モデル開発の背景にあるデータセットの実践者を理解する

Understanding the Dataset Practitioners Behind Large Language Model Development ( http://arxiv.org/abs/2402.16611v2 )

ライセンス: Link先を確認
Crystal Qian, Emily Reif, Minsuk Kahng, (参考訳) 大規模言語モデル(LLM)がより高度で影響力のあるものになるにつれて、彼らが依存し、生成するデータを精査することがますます重要になっている。 この仕事をしているデータセットの実践者は何でしょう? まず、Googleのテクノロジー企業であるLLM開発に貢献するチームの責任を振り返り分析することで、"データセット実践者"の役割を定義します。 そして,これらの実践者の断面(N=10)で半構造化インタビューを行う。 データ品質が最優先事項であるにも関わらず、データ品質とそれを評価する方法に関するコンセンサスはほとんどありません。 その結果、実践者は自身の直感に頼るか、独自のコードを書いてデータを評価する。 この現象の潜在的な理由と調整の機会について論じる。

As large language models (LLMs) become more advanced and impactful, it is increasingly important to scrutinize the data that they rely upon and produce. What is it to be a dataset practitioner doing this work? We approach this in two parts: first, we define the role of "dataset practitioners" by performing a retrospective analysis on the responsibilities of teams contributing to LLM development at a technology company, Google. Then, we conduct semi-structured interviews with a cross-section of these practitioners (N=10). We find that although data quality is a top priority, there is little consensus around what data quality is and how to evaluate it. Consequently, practitioners either rely on their own intuition or write custom code to evaluate their data. We discuss potential reasons for this phenomenon and opportunities for alignment.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-01
# CricaVPR:視覚的位置認識のためのクロスイメージ相関認識表現学習

CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition ( http://arxiv.org/abs/2402.19231v2 )

ライセンス: Link先を確認
Feng Lu, Xiangyuan Lan, Lijun Zhang, Dongmei Jiang, Yaowei Wang, Chun Yuan, (参考訳) 過去10年間で、視覚的位置認識(VPR)のほとんどの手法は、ニューラルネットワークを使って特徴表現を生成してきた。 これらのネットワークは通常、この画像のみを使用して場所画像のグローバルな表現を生成し、横断像のバリエーション(例えば視点と照明)を無視する。 本稿では,CrycaVPR という,VPR の相互像相関認識を用いたロバストなグローバル表現手法を提案する。 本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。 これらの画像は、異なる条件や視点で同じ場所で撮影することも、異なる場所から撮影することもできる。 そこで,提案手法は,表現学習のガイドとしてクロスイメージのバリエーションを利用することができ,よりロバストな特徴が生成されることを保証する。 さらにロバスト性を高めるために,VPRタスクに事前学習した視覚基盤モデルを適応させるマルチスケールの畳み込み強調適応法を提案し,マルチスケールの局所情報を導入し,画像間の相関認識表現をさらに強化する。 実験結果から,本手法は訓練時間を大幅に短縮し,最先端の手法よりも優れていた。 コードはhttps://github.com/Lu-Feng/CricaVPRで公開されている。

Over the past decade, most methods in visual place recognition (VPR) have used neural networks to produce feature representations. These networks typically produce a global representation of a place image using only this image itself and neglect the cross-image variations (e.g. viewpoint and illumination), which limits their robustness in challenging scenes. In this paper, we propose a robust global representation method with cross-image correlation awareness for VPR, named CricaVPR. Our method uses the attention mechanism to correlate multiple images within a batch. These images can be taken in the same place with different conditions or viewpoints, or even captured from different places. Therefore, our method can utilize the cross-image variations as a cue to guide the representation learning, which ensures more robust features are produced. To further facilitate the robustness, we propose a multi-scale convolution-enhanced adaptation method to adapt pre-trained visual foundation models to the VPR task, which introduces the multi-scale local information to further enhance the cross-image correlation-aware representation. Experimental results show that our method outperforms state-of-the-art methods by a large margin with significantly less training time. The code is released at https://github.com/Lu-Feng/CricaVPR.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-01
# 異種協調行動をもつ多エージェントRLのロバスト化と補助課題に対する対角的スタイルサンプリング

Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behaviors and Adversarial Style Sampling for Assistive Tasks ( http://arxiv.org/abs/2403.00344v2 )

ライセンス: Link先を確認
Takayuki Osa, Tatsuya Harada, (参考訳) 運動障害を持つ人々の自律支援は、自律ロボットシステムの最も有望な応用の1つである。 近年,医療領域における深部強化学習(RL)による奨励効果が報告されている。 これまでの研究では、補助作業はマルチエージェントRLとして定式化することができ、介護者と介護者という2つのエージェントが存在することが示されていた。 しかし、マルチエージェントRLで訓練されたポリシーは、しばしば他のエージェントのポリシーに敏感である。 このような場合、訓練された介護者の政策は、異なる介護者のためには機能しない可能性がある。 この問題を軽減するために,多様な介護者対応を訓練し,ロバストな介護者の政策を学習する枠組みを提案する。 我々の枠組みでは、多様な介護者反応は、試行錯誤によって自律的に学習される。 また,介護者の政策を強固にするために,研修中に相手方で介護者の反応をサンプリングする手法を提案する。 Assistive Gym におけるタスクを用いた提案手法の評価を行った。 我々は,一般的な深層RL法で訓練されたポリシが,他のエージェントのポリシの変更に対して脆弱であること,提案手法がこのような変更に対する堅牢性を向上させることを実証する。

Autonomous assistance of people with motor impairments is one of the most promising applications of autonomous robotic systems. Recent studies have reported encouraging results using deep reinforcement learning (RL) in the healthcare domain. Previous studies showed that assistive tasks can be formulated as multi-agent RL, wherein there are two agents: a caregiver and a care-receiver. However, policies trained in multi-agent RL are often sensitive to the policies of other agents. In such a case, a trained caregiver's policy may not work for different care-receivers. To alleviate this issue, we propose a framework that learns a robust caregiver's policy by training it for diverse care-receiver responses. In our framework, diverse care-receiver responses are autonomously learned through trials and errors. In addition, to robustify the care-giver's policy, we propose a strategy for sampling a care-receiver's response in an adversarial manner during the training. We evaluated the proposed method using tasks in an Assistive Gym. We demonstrate that policies trained with a popular deep RL method are vulnerable to changes in policies of other agents and that the proposed framework improves the robustness against such changes.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-01
# 非符号直交距離場:横3次元形状の正確なニューラルインプシット表現

Unsigned Orthogonal Distance Fields: An Accurate Neural Implicit Representation for Diverse 3D Shapes ( http://arxiv.org/abs/2403.01414v2 )

ライセンス: Link先を確認
Yujie Lu, Long Wan, Nayu Ding, Yulong Wang, Shuhan Shen, Shen Cai, Lin Gao, (参考訳) 幾何学的形状のニューラルな暗黙の表現は、近年かなりの進歩をみせている。 しかし、共通距離場に基づく暗黙的表現、特に水密形状の符号付き距離場(SDF)や任意の形状の符号なし距離場(UDF)は、明示的な表面点やメッシュに変換する際に、通常、再構成精度の低下に悩まされる。 本稿では,符号なし直交距離場(UODF)に基づく新しい暗黙表現を提案する。 UODFでは、任意の空間点から形状面までの最小符号なし距離は、SDFとUDFによる多方向決定とは対照的に、1つの直交方向のみに定義される。 したがって、3D UODFのすべての点は、3つの直交方向に沿って、その最も近い表面点に直接アクセスすることができる。 この特徴は補間誤差を伴わずに表面点の正確な再構成を利用する。 簡単な水密形状や非水密形状から,ホロウ,内装構造,組立構造を含む複雑な形状まで,様々な再構築例を通してUODFの有効性を検証する。

Neural implicit representation of geometric shapes has witnessed considerable advancements in recent years. However, common distance field based implicit representations, specifically signed distance field (SDF) for watertight shapes or unsigned distance field (UDF) for arbitrary shapes, routinely suffer from degradation of reconstruction accuracy when converting to explicit surface points and meshes. In this paper, we introduce a novel neural implicit representation based on unsigned orthogonal distance fields (UODFs). In UODFs, the minimal unsigned distance from any spatial point to the shape surface is defined solely in one orthogonal direction, contrasting with the multi-directional determination made by SDF and UDF. Consequently, every point in the 3D UODFs can directly access its closest surface points along three orthogonal directions. This distinctive feature leverages the accurate reconstruction of surface points without interpolation errors. We verify the effectiveness of UODFs through a range of reconstruction examples, extending from simple watertight or non-watertight shapes to complex shapes that include hollows, internal or assembling structures.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-01
# FaceChain-ImagineID: アンタングル型オーディオの高忠実な対話型顔

FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio ( http://arxiv.org/abs/2403.01901v2 )

ライセンス: Link先を確認
Chao Xu, Yang Liu, Jiazheng Xing, Weida Wang, Mingze Sun, Jun Dan, Tianxin Huang, Siyuan Li, Zhi-Qi Cheng, Ying Tai, Baigui Sun, (参考訳) 本稿では,音声の聴取過程を抽象化し,有意義な手がかりを抽出し,様々な動的音声一貫性のある発話顔を生成する。 ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。 これらの課題に対処するために、まず、顔要素間の複雑な関係を掘り下げ、デカップリングプロセスを単純化し、特定の要因に責任を負うカスタマイズされたトレーニングモジュールを各ステージに組み込んだ、正確な顔形状と意味学習のためのプログレッシブ・オーディオ・ディスタングルメントを調整する。 第2に,単一モデル内の入力音声からのみ視覚的に多彩で音声同期化されたアニメーションを実現するために,フレーム間のテクスチャや時間的コヒーレンスに焦点を合わせるために,3つのトレーニング可能なアダプタと冷凍ラテント拡散モデル(LDM)とのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を導入する。 このようにして,LDMから高品質な多種多様な生成を継承すると同時に,低トレーニングコストで制御性を大幅に向上する。 このパラダイムを扱う上で,本手法の柔軟性と有効性を示す大規模な実験を行った。 コードはhttps://github.com/modelscope/facechain.comでリリースされる。

In this paper, we abstract the process of people hearing speech, extracting meaningful cues, and creating various dynamically audio-consistent talking faces, termed Listening and Imagining, into the task of high-fidelity diverse talking faces generation from a single audio. Specifically, it involves two critical challenges: one is to effectively decouple identity, content, and emotion from entangled audio, and the other is to maintain intra-video diversity and inter-video consistency. To tackle the issues, we first dig out the intricate relationships among facial factors and simplify the decoupling process, tailoring a Progressive Audio Disentanglement for accurate facial geometry and semantics learning, where each stage incorporates a customized training module responsible for a specific factor. Secondly, to achieve visually diverse and audio-synchronized animation solely from input audio within a single model, we introduce the Controllable Coherent Frame generation, which involves the flexible integration of three trainable adapters with frozen Latent Diffusion Models (LDMs) to focus on maintaining facial geometry and semantics, as well as texture and temporal coherence between frames. In this way, we inherit high-quality diverse generation from LDMs while significantly improving their controllability at a low training cost. Extensive experiments demonstrate the flexibility and effectiveness of our method in handling this paradigm. The codes will be released at https://github.com/modelscope/facechain.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-01
# マルチモーダルな社会的相互作用のモデリング : 厳密な表現による新しい課題とベースライン

Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations ( http://arxiv.org/abs/2403.02090v2 )

ライセンス: Link先を確認
Sangmin Lee, Bolin Lai, Fiona Ryan, Bikram Boote, James M. Rehg, (参考訳) 言語と非言語の両方に関わる社会的相互作用を理解することは、社会的状況の効果的解釈に不可欠である。 しかし、それまでのマルチモーダルな社会的手がかりに関する研究は、主に個人の行動に焦点をあてたり、多人数環境における発話と整合しない全体的視覚表現に頼っていた。 その結果、多人数インタラクションの複雑なダイナミクスをモデル化することに制限が課せられる。 本稿では,複数の人物間の微粒化動態をモデル化する3つの課題について紹介する。 我々は、ソーシャル推論ゲーム設定におけるこれらの新たな課題をキュレートするために、広範なデータアノテーションに貢献している。 さらに,視覚的特徴とそれに対応する発話を同期させることにより,密集した言語・視覚的表現を活用する新しいマルチモーダルベースラインを提案する。 これは、社会的推論に関連する言語的・非言語的な手がかりを同時に捉えるのに役立つ。 実験は, きめ細かいソーシャルインタラクションをモデル化する上で, 密集したマルチモーダル表現を用いた提案手法の有効性を示す。 プロジェクトウェブサイト:https://sangmin-git.github.io/projects/MMSI

Understanding social interactions involving both verbal and non-verbal cues is essential for effectively interpreting social situations. However, most prior works on multimodal social cues focus predominantly on single-person behaviors or rely on holistic visual representations that are not aligned to utterances in multi-party environments. Consequently, they are limited in modeling the intricate dynamics of multi-party interactions. In this paper, we introduce three new challenging tasks to model the fine-grained dynamics between multiple people: speaking target identification, pronoun coreference resolution, and mentioned player prediction. We contribute extensive data annotations to curate these new challenges in social deduction game settings. Furthermore, we propose a novel multimodal baseline that leverages densely aligned language-visual representations by synchronizing visual features with their corresponding utterances. This facilitates concurrently capturing verbal and non-verbal cues pertinent to social reasoning. Experiments demonstrate the effectiveness of the proposed approach with densely aligned multimodal representations in modeling fine-grained social interactions. Project website: https://sangmin-git.github.io/projects/MMSI.
翻訳日:2024-04-04 08:29:27 公開日:2024-04-01
# 絡み合った物体の学習とクラス認識による連続的セグメンテーション

Continual Segmentation with Disentangled Objectness Learning and Class Recognition ( http://arxiv.org/abs/2403.03477v3 )

ライセンス: Link先を確認
Yizheng Gong, Siyue Yu, Xiaoyang Wang, Jimin Xiao, (参考訳) ほとんどの連続的なセグメンテーション手法は、ピクセル単位の分類タスクとしてこの問題に取り組む。 しかし、このようなパラダイムは非常に困難であり、オブジェクトが強い転送能力を持ち、抵抗を忘れてしまうため、内蔵されたオブジェクト性を持つクエリベースのセグメンタは、画素単位のセグメンタに比べて本質的に有利である。 そこで本研究では,連続的セグメンテーションを2段階に分けてCoMasTReを提案する。 CoMasTReは、2段階のセグメンタ学習クラスに依存しないマスクの提案を第1段階で使用し、認識は第2段階に留まる。 連続学習では、目的性を高めるため、単純だが効果的な蒸留法が採用される。 古いクラスの忘れを緩和するために,セグメンテーションに適した多ラベルクラスの蒸留戦略を設計する。 PASCAL VOCとADE20Kに対するCoMasTReの有効性を検討した。 大規模な実験により,本手法は両データセットにおいて画素ごと,クエリー毎の手法より優れていた。 コードはhttps://github.com/jordangong/CoMasTReで入手できる。

Most continual segmentation methods tackle the problem as a per-pixel classification task. However, such a paradigm is very challenging, and we find query-based segmenters with built-in objectness have inherent advantages compared with per-pixel ones, as objectness has strong transfer ability and forgetting resistance. Based on these findings, we propose CoMasTRe by disentangling continual segmentation into two stages: forgetting-resistant continual objectness learning and well-researched continual classification. CoMasTRe uses a two-stage segmenter learning class-agnostic mask proposals at the first stage and leaving recognition to the second stage. During continual learning, a simple but effective distillation is adopted to strengthen objectness. To further mitigate the forgetting of old classes, we design a multi-label class distillation strategy suited for segmentation. We assess the effectiveness of CoMasTRe on PASCAL VOC and ADE20K. Extensive experiments show that our method outperforms per-pixel and query-based methods on both datasets. Code will be available at https://github.com/jordangong/CoMasTRe.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-01
# マルチモーダル電子健康記録の動的埋め込みとトークン化のための時間的交差注意

Temporal Cross-Attention for Dynamic Embedding and Tokenization of Multimodal Electronic Health Records ( http://arxiv.org/abs/2403.04012v2 )

ライセンス: Link先を確認
Yingbo Ma, Suraj Kolla, Dhruv Kaliraman, Victoria Nolan, Zhenhong Hu, Ziyuan Guan, Yuanfang Ren, Brooke Armfield, Tezcan Ozrazgat-Baslanti, Tyler J. Loftus, Parisa Rashidi, Azra Bihorac, Benjamin Shickel, (参考訳) 現代の電子健康記録(EHR)システムの幅、規模、時間的粒度は、シーケンシャル・ディープ・ラーニング(シーケンシャル・ラーニング)を用いて、パーソナライズされた患者健康トラジェクトリーを推定する大きな可能性を秘めている。 しかし,高次元性,空間性,多モード性,不規則かつ可変固有な記録周波数,複数測定を同時に記録する場合のタイムスタンプ重複などにより,EHRデータの有用な表現の学習は困難である。 構造化EHRと非構造化臨床ノートを融合する最近の試みは、より正確な臨床結果の予測の可能性を示しているが、マルチモーダルな患者時系列からタイムアウェアな表現を学習することで、時間的EHRの課題に直接対処するEHR埋め込みアプローチにはあまり焦点が当てられていない。 本稿では,時間とシーケンシャルな位置のエンコーディングと時間的クロスアテンションを組み合わせた,マルチモーダルな臨床時系列の正確な表現のための動的埋め込みとトークン化フレームワークを提案する。 組込み・トークン化の枠組みは,スライディングウインドウの注意を伴うマルチタスクトランスフォーマー分類器に統合された場合,米国の3つの病院と2つの学術的健康センターのマルチモーダルデータを用いて,12万回以上の重度入院患者の術後合併症の発生を予測するための,既往の課題に対するベースラインアプローチよりも優れていた。

The breadth, scale, and temporal granularity of modern electronic health records (EHR) systems offers great potential for estimating personalized and contextual patient health trajectories using sequential deep learning. However, learning useful representations of EHR data is challenging due to its high dimensionality, sparsity, multimodality, irregular and variable-specific recording frequency, and timestamp duplication when multiple measurements are recorded simultaneously. Although recent efforts to fuse structured EHR and unstructured clinical notes suggest the potential for more accurate prediction of clinical outcomes, less focus has been placed on EHR embedding approaches that directly address temporal EHR challenges by learning time-aware representations from multimodal patient time series. In this paper, we introduce a dynamic embedding and tokenization framework for precise representation of multimodal clinical time series that combines novel methods for encoding time and sequential position with temporal cross-attention. Our embedding and tokenization framework, when integrated into a multitask transformer classifier with sliding window attention, outperformed baseline approaches on the exemplar task of predicting the occurrence of nine postoperative complications of more than 120,000 major inpatient surgeries using multimodal data from three hospitals and two academic health centers in the United States.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-01
# 遅発性逆行訓練による予期せぬ障害モードの予防

Defending Against Unforeseen Failure Modes with Latent Adversarial Training ( http://arxiv.org/abs/2403.05030v3 )

ライセンス: Link先を確認
Stephen Casper, Lennart Schulze, Oam Patel, Dylan Hadfield-Menell, (参考訳) 開発者による広範な診断とデバッグにもかかわらず、AIシステムは時に有害な意図しない振る舞いを示す。 攻撃面があまりに大きく、有害な行動を引き起こす可能性のある入力を徹底的に探すことは困難である。 赤いチームと敵の訓練(AT)は、強靭性を改善するために一般的に使用されるが、訓練中に使用される攻撃とは異なる障害モードの修正に経験的に苦労している。 本研究では,LAT(Latent Adversarial Training)を用いて,脆弱性を誘発する入力を発生させることなく脆弱性を防御する。 LATは、ネットワークが実際に予測に使用している概念の圧縮、抽象、構造化された潜在表現を利用する。 我々は、トロイの木馬を排除し、敵の攻撃を抑えるためにそれを使う。 画像分類, テキスト分類, テキスト生成タスクにおいて, LATは通常, 新規攻撃に対する堅牢性と, AT に対するクリーンデータの性能を向上することを示す。 これは、LATが開発者によって明確に特定されていない障害モードを防御するための有望なツールになり得ることを示唆している。

Despite extensive diagnostics and debugging by developers, AI systems sometimes exhibit harmful unintended behaviors. Finding and fixing these is challenging because the attack surface is so large -- it is not tractable to exhaustively search for inputs that may elicit harmful behaviors. Red-teaming and adversarial training (AT) are commonly used to improve robustness, however, they empirically struggle to fix failure modes that differ from the attacks used during training. In this work, we utilize latent adversarial training (LAT) to defend against vulnerabilities without generating inputs that elicit them. LAT leverages the compressed, abstract, and structured latent representations of concepts that the network actually uses for prediction. We use it to remove trojans and defend against held-out classes of adversarial attacks. We show in image classification, text classification, and text generation tasks that LAT usually improves both robustness to novel attacks and performance on clean data relative to AT. This suggests that LAT can be a promising tool for defending against failure modes that are not explicitly identified by developers.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-01
# SVD-LLM:大規模言語モデル圧縮のためのトランケーション対応特異値分解

SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression ( http://arxiv.org/abs/2403.07378v3 )

ライセンス: Link先を確認
Xin Wang, Yu Zheng, Zhongwei Wan, Mi Zhang, (参考訳) 大規模言語モデル (LLMs) の進歩は, LLM 圧縮法を実用的展開に必要としていた, 相当なサイズによって妨げられている。 Singular Value Decomposition (SVD)は、LLM圧縮のための有望なソリューションを提供する。 しかし、最先端のSVDベースのLLM圧縮法には、2つの重要な制限がある: より小さい特異値の切り抜きは、圧縮損失を増大させ、SVDの切り抜き後の圧縮重量の更新が欠如する。 本研究では,既存の手法の制約に対処する新たなSVD-LLM圧縮手法であるSVD-LLMを提案する。 SVD-LLMは、特異値と圧縮損失の直接マッピングを保証するために、トラクション対応のデータホワイトニング戦略を組み込んでいる。 さらに, SVD-LLMでは, 高圧縮比下での精度劣化を補償するために, 階層単位の閉形式モデル更新戦略を採用している。 SVD-LLMを4つの異なるスケールで3つのLLMファミリーから合計10のデータセットと8つのモデルで評価した。 以上の結果から, SVD-LLMは最先端技術, 特に高モデル圧縮比よりも優れていることが示された。

The advancements in Large Language Models (LLMs) have been hindered by their substantial sizes, which necessitate LLM compression methods for practical deployment. Singular Value Decomposition (SVD) offers a promising solution for LLM compression. However, state-of-the-art SVD-based LLM compression methods have two key limitations: truncating smaller singular values may lead to higher compression loss, and the lack of update on the compressed weight after SVD truncation. In this work, we propose SVD-LLM, a new SVD-based LLM compression method that addresses the limitations of existing methods. SVD-LLM incorporates a truncation-aware data whitening strategy to ensure a direct mapping between singular values and compression loss. Moreover, SVD-LLM adopts a layer-wise closed-form model parameter update strategy to compensate for accuracy degradation under high compression ratios. We evaluate SVD-LLM on a total of 10 datasets and eight models from three different LLM families at four different scales. Our results demonstrate the superiority of SVD-LLM over state-of-the-arts, especially at high model compression ratios.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-01
# SemGauss-SLAM:Dense Semantic Gaussian Splatting SLAM

SemGauss-SLAM: Dense Semantic Gaussian Splatting SLAM ( http://arxiv.org/abs/2403.07494v2 )

ライセンス: Link先を確認
Siting Zhu, Renjie Qin, Guangming Wang, Jiuming Liu, Hesheng Wang, (参考訳) 本稿では,3次元ガウス表現を利用した最初のセマンティックSLAMシステムであるSemGauss-SLAMを提案する。 本システムでは,3次元ガウス表現にセマンティックな特徴を組み込んで,環境の空間的レイアウト内に意味情報をエンコードすることで,正確なセマンティックなシーン表現を実現する。 さらに、3次元ガウス表現の更新のための特徴レベル損失を提案し、3次元ガウス最適化のための高レベルガイダンスを可能にする。 さらに,3次元ガウス表現とカメラポーズの協調最適化にセマンティックアソシエーションを活用することで,より堅牢なトラッキングと一貫したマッピングを実現する。 我々のSemGauss-SLAM法は,ReplicaおよびScanNetデータセット上でのマッピングと追跡の精度において,既存の高密度なセマンティックSLAM法よりも優れた性能を示すとともに,新規ビューセマンティック合成と3Dセマンティックマッピングの優れた機能を示す。

We propose SemGauss-SLAM, the first semantic SLAM system utilizing 3D Gaussian representation, that enables accurate 3D semantic mapping, robust camera tracking, and high-quality rendering in real-time. In this system, we incorporate semantic feature embedding into 3D Gaussian representation, which effectively encodes semantic information within the spatial layout of the environment for precise semantic scene representation. Furthermore, we propose feature-level loss for updating 3D Gaussian representation, enabling higher-level guidance for 3D Gaussian optimization. In addition, to reduce cumulative drift and improve reconstruction accuracy, we introduce semantic-informed bundle adjustment leveraging semantic associations for joint optimization of 3D Gaussian representation and camera poses, leading to more robust tracking and consistent mapping. Our SemGauss-SLAM method demonstrates superior performance over existing dense semantic SLAM methods in terms of mapping and tracking accuracy on Replica and ScanNet datasets, while also showing excellent capabilities in novel-view semantic synthesis and 3D semantic mapping.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-01
# Ethos: 直交パラメータ空間における言語モデルの定式化

Ethos: Rectifying Language Models in Orthogonal Parameter Space ( http://arxiv.org/abs/2403.08994v2 )

ライセンス: Link先を確認
Lei Gao, Yue Niu, Tingting Tang, Salman Avestimehr, Murali Annavaram, (参考訳) 言語モデル(LM)は自然言語処理の研究を大いに推進してきた。 しかし、LMはバイアスや有害なコンテンツの生成や、トレーニングデータセットから個人情報を開示する可能性についても懸念を提起する。 本研究では, 毒性と出力バイアスを軽減し, プライバシーの漏洩を回避するために, LMを修正した新しい効率的なアプローチであるEthosを提案する。 Ethosはタスク演算に基づいて構築されている。 しかし、現在のタスク演算アルゴリズムとは異なり、Ethosはタスクベクトルを再構成する際の一般的な有益な知識と望ましくない知識を区別する。 具体的には、エトスはまず特異値分解を用いて事前訓練されたモデルから主成分の集合を得る。 次に、タスクベクトルを主成分に射影することにより、Ethosは一般または望ましくない知識を符号化する主成分を特定する。 Ethosは、望ましくない知識しか持たないタスクベクトルを用いてネガ化を行い、一般的なモデルユーティリティに対する副作用を最小限に抑える。 我々は,脱バイアス,解毒,覚醒の3つの課題に対して,アプローチの有効性を実証した。 評価の結果、Ethosは現在のタスク算術法と比較して、望ましくない知識を取り除き、全体のモデル性能を維持するのに効果的であることが示された。

Language models (LMs) have greatly propelled the research on natural language processing. However, LMs also raise concerns regarding the generation of biased or toxic content and the potential disclosure of private information from the training dataset. In this work, we present a new efficient approach, Ethos, that rectifies LMs to mitigate toxicity and bias in outputs and avoid privacy leakage. Ethos is built on task arithmetic. However, unlike current task arithmetic algorithms, Ethos distinguishes general beneficial and undesired knowledge when reconstructing task vectors. Specifically, Ethos first obtains a set of principal components from the pre-trained models using singular value decomposition. Then, by projecting the task vector onto principal components, Ethos identifies the principal components that encode general or undesired knowledge. Ethos performs negating using the task vector with undesired knowledge only, thereby minimizing collateral damage on general model utility. We demonstrate the efficacy of our approach on three different tasks: debiasing, detoxification, and memorization unlearning. Evaluations show Ethos is more effective in removing undesired knowledge and maintaining the overall model performance compared to current task arithmetic methods.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-01
# StreamMultiDiffusion: 領域ベースセマンティック制御によるリアルタイム対話型生成

StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control ( http://arxiv.org/abs/2403.09055v2 )

ライセンス: Link先を確認
Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee, (参考訳) テキストと画像の合成における拡散モデルの成功は、画像生成と編集のための次世代エンドユーザーアプリケーションに有望な候補を与えている。 従来の研究は、推論時間を削減するか、地域ベースのテキストプロンプトのような、よりきめ細かい新しい制御を可能にすることで、拡散モデルのユーザビリティ向上に重点を置いてきた。 しかし、経験的に、作品の両枝を統合することは自明であり、拡散モデルのポテンシャルを制限している。 この不整合性を解決するために,最初のリアルタイム領域ベースのテキスト画像生成フレームワークであるStreamMultiDiffusionを提案する。 高速な推論手法を安定化し,新たに提案したマルチプロンプトストリームバッチアーキテクチャにモデルを再構成することにより,既存のソリューションよりも10ドル高速なパノラマ生成を実現し,単一RTX 2080 Ti GPU上での領域ベーステキスト-画像合成における1.57 FPSの生成速度を実現した。 提案手法は,複数の手書き領域から高品質な画像がリアルタイムで生成され,所定の意味意味(例えば,ワシ,少女)を符号化する,インタラクティブな画像生成のための新しいパラダイムであるセマンティックパレット(セマンティックパレット)を開放する。 私たちのコードとデモアプリケーションはhttps://github.com/ironjr/StreamMultiDiffusion.comで公開されています。

The enormous success of diffusion models in text-to-image synthesis has made them promising candidates for the next generation of end-user applications for image generation and editing. Previous works have focused on improving the usability of diffusion models by reducing the inference time or increasing user interactivity by allowing new, fine-grained controls such as region-based text prompts. However, we empirically find that integrating both branches of works is nontrivial, limiting the potential of diffusion models. To solve this incompatibility, we present StreamMultiDiffusion, the first real-time region-based text-to-image generation framework. By stabilizing fast inference techniques and restructuring the model into a newly proposed multi-prompt stream batch architecture, we achieve $\times 10$ faster panorama generation than existing solutions, and the generation speed of 1.57 FPS in region-based text-to-image synthesis on a single RTX 2080 Ti GPU. Our solution opens up a new paradigm for interactive image generation named semantic palette, where high-quality images are generated in real-time from given multiple hand-drawn regions, encoding prescribed semantic meanings (e.g., eagle, girl). Our code and demo application are available at https://github.com/ironjr/StreamMultiDiffusion.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-01
# 医用ノート自動作成のためのLCMの継続的事前訓練手法

A Continued Pretrained LLM Approach for Automatic Medical Note Generation ( http://arxiv.org/abs/2403.09057v2 )

ライセンス: Link先を確認
Dong Yuan, Eti Rastogi, Gautam Naik, Sree Prasanna Rajagopal, Sagar Goyal, Fen Zhao, Bharath Chintagunta, Jeff Ward, (参考訳) LLMはNLPタスクに革命を起こしています。 しかしながら、GPT-4のような最も先進的なLCMの使用は、ほとんどの専門分野において違法に高価であることが多い。 HEALは13B LLaMA2をベースとしたLLMで, 医療会話用に構築され, 自動切削で測定される。 以上の結果から, HEALはPubMedQAにおいてGPT-4, PMC-LLaMAより78.4\%優れていた。 また、医療用ノートの作成においてGPT-4と同等である。 興味深いことに、HEALはGPT-4とMed-PaLM 2を越え、より正確な医療概念を特定し、正確性と完全性においてヒトの書記やその他の同等のモデルの性能を上回っている。

LLMs are revolutionizing NLP tasks. However, the use of the most advanced LLMs, such as GPT-4, is often prohibitively expensive for most specialized fields. We introduce HEAL, the first continuously trained 13B LLaMA2-based LLM that is purpose-built for medical conversations and measured on automated scribing. Our results demonstrate that HEAL outperforms GPT-4 and PMC-LLaMA in PubMedQA, with an accuracy of 78.4\%. It also achieves parity with GPT-4 in generating medical notes. Remarkably, HEAL surpasses GPT-4 and Med-PaLM 2 in identifying more correct medical concepts and exceeds the performance of human scribes and other comparable models in correctness and completeness.
翻訳日:2024-04-04 08:19:18 公開日:2024-04-01
# MT-PATCHER:機械翻訳のための大規模言語モデルから選択的で拡張可能な知識蒸留

MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation ( http://arxiv.org/abs/2403.09522v2 )

ライセンス: Link先を確認
Jiahuan Li, Shanbo Cheng, Shujian Huang, Jiajun Chen, (参考訳) 大規模言語モデル(LLM)は機械翻訳(MT)の分野でその強力な能力を示しているが、高い計算コストとレイテンシに悩まされている。 したがって、巨大なLLMから中規模の機械翻訳モデルへの翻訳知識の移行は、有望な研究方向である。 しかし,従来の知識蒸留法では,学生モデルや教師モデルの能力は考慮されていないため,学習した知識を学生モデルに繰り返し教えることができず,新しい文脈や知識にまで拡張できない。 本稿では, LLM から既存の MT モデルへ, 選択的かつ包括的かつ積極的に知識を伝達する MT-Patcher というフレームワークを提案する。 学生MTモデルの現在の翻訳能力を考えると、教師からの翻訳全体を蒸留するのではなく、翻訳誤りを識別し、修正するのみである。 LLMの強い言語能力を活用して、LLM教師に多様な文脈を合成し、より潜在的な誤りを学生に予測するように指示する。 特定の言語現象と一般MTベンチマークの両方の翻訳実験の結果、約10%の例で学生のMTモデルを微調整することで、従来の知識蒸留法と同等の結果が得られることが示され、潜在的な誤りや多様な文脈が合成され、未知の文脈や単語の翻訳性能がさらに向上することが示されている。

Large Language Models (LLM) have demonstrated their strong ability in the field of machine translation (MT), yet they suffer from high computational cost and latency. Therefore, transferring translation knowledge from giant LLMs to medium-sized machine translation models is a promising research direction. However, traditional knowledge distillation methods do not take the capability of student and teacher models into consideration, therefore repeatedly teaching student models on the knowledge they have learned, and failing to extend to novel contexts and knowledge. In this paper, we propose a framework called MT-Patcher, which transfers knowledge from LLMs to existing MT models in a selective, comprehensive and proactive manner. Considering the current translation ability of student MT models, we only identify and correct their translation errors, instead of distilling the whole translation from the teacher. Leveraging the strong language abilities of LLMs, we instruct LLM teachers to synthesize diverse contexts and anticipate more potential errors for the student. Experiment results on translating both specific language phenomena and general MT benchmarks demonstrate that finetuning the student MT model on about 10% examples can achieve comparable results to the traditional knowledge distillation method, and synthesized potential errors and diverse contexts further improve translation performances on unseen contexts and words.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-01
# ホワイトボックスの深層学習に向けて

Towards White Box Deep Learning ( http://arxiv.org/abs/2403.09863v3 )

ライセンス: Link先を確認
Maciej Satkiewicz, (参考訳) 本稿では,ホワイトボックスニューラルネットワークの概念的枠組みとしての意味的特徴を紹介する。 MNISTの情報的サブプロブレムの概念モデルの証明は、合計で5Kの学習可能なパラメータを持つ4つの層から構成される。 モデルは十分に動機付けられており、本質的に解釈可能であり、ハイパーパラメータチューニングをほとんど必要とせず、ほぼ人間レベルの対人テストメトリクスを達成します。 これらの結果とアプローチの一般的な性質は、意味的特徴に関するさらなる研究を保証している。 コードはhttps://github.com/314-Foundation/white-box-nnで公開されている。

This paper introduces semantic features as a candidate conceptual framework for white-box neural networks. A proof of concept model for informative subproblem of MNIST consists of 4 such layers with the total of 5K learnable parameters. The model is well-motivated, inherently interpretable, requires little hyperparameter tuning and achieves almost human-level adversarial test metrics - with no form of adversarial training! These results and the general nature of the approach warrant further research on semantic features. The code is available at https://github.com/314-Foundation/white-box-nn
翻訳日:2024-04-04 08:08:50 公開日:2024-04-01
# 高能率視覚変換器の1ステップアテンションによる多基準トークン核融合

Multi-criteria Token Fusion with One-step-ahead Attention for Efficient Vision Transformers ( http://arxiv.org/abs/2403.10030v3 )

ライセンス: Link先を確認
Sanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim, (参考訳) Vision Transformer (ViT) はコンピュータビジョンのバックボーンとして登場した。 より効率的なViTのために、最近の研究は、冗長トークンをプルーニングまたはファンクションすることにより、自己保持層の二次コストを低減している。 しかし、これらの作品は情報の喪失によって引き起こされた速度精度のトレードオフに直面した。 ここでは,トークンの融合は情報損失を最小限に抑えるために,トークン間の多様な関係を考慮する必要があると論じる。 本稿では,多基準トークン(例えば,類似性,情報性,および溶解トークンのサイズ)に基づいて,トークンを徐々に融合させる多基準トークン融合(MCTF)を提案する。 さらに,トークンの情報を捉えるための改良されたアプローチである,ワンステップアヘッドアテンションを利用する。 トークン還元整合性を用いたMCTF搭載モデルの訓練により,画像分類(ImageNet1K)において,最高速度精度のトレードオフを実現する。 実験結果から,MCTF は従来に比べてトレーニングと無トレーニングで常に上回っていることがわかった。 具体的には、MCTFを用いたDeiT-TとDeiT-SはFLOPを約44%削減し、それぞれベースモデルよりも性能(+0.5%、+0.3%)が向上した。 また、様々なビジョン変換器(例えば、T2T-ViT、LV-ViT)におけるMCTFの適用性を実証し、性能劣化を伴わずに少なくとも31%の高速化を実現した。 コードはhttps://github.com/mlvlab/MCTFで入手できる。

Vision Transformer (ViT) has emerged as a prominent backbone for computer vision. For more efficient ViTs, recent works lessen the quadratic cost of the self-attention layer by pruning or fusing the redundant tokens. However, these works faced the speed-accuracy trade-off caused by the loss of information. Here, we argue that token fusion needs to consider diverse relations between tokens to minimize information loss. In this paper, we propose a Multi-criteria Token Fusion (MCTF), that gradually fuses the tokens based on multi-criteria (e.g., similarity, informativeness, and size of fused tokens). Further, we utilize the one-step-ahead attention, which is the improved approach to capture the informativeness of the tokens. By training the model equipped with MCTF using a token reduction consistency, we achieve the best speed-accuracy trade-off in the image classification (ImageNet1K). Experimental results prove that MCTF consistently surpasses the previous reduction methods with and without training. Specifically, DeiT-T and DeiT-S with MCTF reduce FLOPs by about 44% while improving the performance (+0.5%, and +0.3%) over the base model, respectively. We also demonstrate the applicability of MCTF in various Vision Transformers (e.g., T2T-ViT, LV-ViT), achieving at least 31% speedup without performance degradation. Code is available at https://github.com/mlvlab/MCTF.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-01
# FeatUp: どんな解像度でも機能のためのモデルに依存しないフレームワーク

FeatUp: A Model-Agnostic Framework for Features at Any Resolution ( http://arxiv.org/abs/2403.10516v2 )

ライセンス: Link先を確認
Stephanie Fu, Mark Hamilton, Laura Brandt, Axel Feldman, Zhoutong Zhang, William T. Freeman, (参考訳) ディープ機能はコンピュータビジョン研究の基盤であり、画像意味論を捉え、ゼロショットや少数ショットの体制でもコミュニティが下流のタスクを解決できるようにする。 しかし、これらの特徴は、大きな領域に積極的に情報をプールするため、セグメント化や深度予測といった密集した予測タスクを直接実行する空間分解能に欠けることが多い。 本研究では,タスクとモデルに依存しないフレームワークであるFeatUpを紹介し,失われた空間情報を深い特徴で復元する。 FeatUpの2つのバリエーションを紹介します。1つは、1つのフォワードパスで高分解能信号で特徴を導くもので、もう1つは暗黙のモデルを1つのイメージに適合させて、任意の解像度で特徴を再構成するものです。 どちらのアプローチも、NeRFと深い類似性を持つマルチビュー一貫性損失を使用する。 私たちの機能は、元のセマンティクスを保持しており、既存のアプリケーションに置き換えて、再トレーニングすることなく、解像度とパフォーマンスの向上を得ることができる。 FeatUpは、クラスアクティベーションマップ生成、セグメンテーションとデプス予測のためのトランスファーラーニング、セグメンテーションのためのエンドツーエンドトレーニングにおいて、他の機能アップサンプリングや画像超解像アプローチよりも大幅に優れていることを示す。

Deep features are a cornerstone of computer vision research, capturing image semantics and enabling the community to solve downstream tasks even in the zero- or few-shot regime. However, these features often lack the spatial resolution to directly perform dense prediction tasks like segmentation and depth prediction because models aggressively pool information over large areas. In this work, we introduce FeatUp, a task- and model-agnostic framework to restore lost spatial information in deep features. We introduce two variants of FeatUp: one that guides features with high-resolution signal in a single forward pass, and one that fits an implicit model to a single image to reconstruct features at any resolution. Both approaches use a multi-view consistency loss with deep analogies to NeRFs. Our features retain their original semantics and can be swapped into existing applications to yield resolution and performance gains even without re-training. We show that FeatUp significantly outperforms other feature upsampling and image super-resolution approaches in class activation map generation, transfer learning for segmentation and depth prediction, and end-to-end training for semantic segmentation.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-01
# テネシー・イーストマン過程における異常検出・診断のためのGated Dynamic Learnable Attention 機構を用いた双極子変圧器

Twin Transformer using Gated Dynamic Learnable Attention mechanism for Fault Detection and Diagnosis in the Tennessee Eastman Process ( http://arxiv.org/abs/2403.10842v2 )

ライセンス: Link先を確認
Mohammad Ali Labbaf-Khaniki, Mohammad Manthouri, Hanieh Ajami, (参考訳) 故障検出・診断(FDD)は,産業プロセスの安全性と効率を確保するための重要な課題である。 我々は、化学プロセス制御のための広く使われているベンチマークであるテネシー・イーストマン・プロセス(TEP)のための新しいFDD手法を提案する。 このモデルは2つの別々のTransformerブランチを使用しており、入力データの独立処理と多様な情報の潜在的抽出を可能にしている。 新しい注意機構であるGated Dynamic Learnable Attention (GDLAttention)を導入し、ゲーティング機構と動的学習機能を統合する。 ゲーティング機構は注意重みを変調し、モデルが入力の最も関連性の高い部分に集中できるようにする。 動的学習アプローチは、トレーニング中の注意戦略に適応し、パフォーマンスを向上させる可能性がある。 注意機構は双線形類似関数を使用し、クエリとキーベクトルの間の複雑な関係をキャプチャする柔軟性を高める。 提案手法の有効性を評価するため,TEPの21および18の異なる障害シナリオに対してテストを行い,その性能をいくつかのFDD手法と比較した。 その結果, 精度, 誤報率, 誤分類率において, 他者よりも優れていたことが示唆された。 このことは、複雑な工業プロセスにおけるFDDのアプローチの堅牢性と有効性を示している。

Fault detection and diagnosis (FDD) is a crucial task for ensuring the safety and efficiency of industrial processes. We propose a novel FDD methodology for the Tennessee Eastman Process (TEP), a widely used benchmark for chemical process control. The model employs two separate Transformer branches, enabling independent processing of input data and potential extraction of diverse information. A novel attention mechanism, Gated Dynamic Learnable Attention (GDLAttention), is introduced which integrates a gating mechanism and dynamic learning capabilities. The gating mechanism modulates the attention weights, allowing the model to focus on the most relevant parts of the input. The dynamic learning approach adapts the attention strategy during training, potentially leading to improved performance. The attention mechanism uses a bilinear similarity function, providing greater flexibility in capturing complex relationships between query and key vectors. In order to assess the effectiveness of our approach, we tested it against 21 and 18 distinct fault scenarios in TEP, and compared its performance with several established FDD techniques. The outcomes indicate that the method outperforms others in terms of accuracy, false alarm rate, and misclassification rate. This underscores the robustness and efficacy of the approach for FDD in intricate industrial processes.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-01
# 奥行き完了のための双方向伝搬ネットワーク

Bilateral Propagation Network for Depth Completion ( http://arxiv.org/abs/2403.11270v2 )

ライセンス: Link先を確認
Jie Tang, Fei-Peng Tian, Boshi An, Jian Li, Ping Tan, (参考訳) 深度補正は,色画像の同期による疎深度測定から高密度深度マップを導出することを目的としている。 現在の最先端技術(SOTA)法は主に伝播に基づく手法であり、初期推定密度深さの反復精製として機能する。 しかし、初期深度推定は主にスパース深度マップ上の畳み込み層の直接適用によるものである。 本稿では,スパースデータの直接結合を避けるために,最初期の深度を伝播するバイラテラル伝搬ネットワーク(BP-Net)を提案する。 具体的には, 近接深度測定のターゲット深度を非線形モデルを用いて伝搬させ, 係数は, 多層パーセプトロンにより生成する。 BP-Netは,マルチモーダル融合と深度改善を併用して,屋内および屋外の両方で優れた性能を示す。 これはNYUv2データセットでSOTAを達成し、提出時にKITTI深度補完ベンチマークで1位にランクインする。 実験の結果は, 両側伝播の有効性を示すだけでなく, 改良段階とは対照的に早期伝播の重要性も強調した。 私たちのコードとトレーニングされたモデルは、プロジェクトページで公開されます。

Depth completion aims to derive a dense depth map from sparse depth measurements with a synchronized color image. Current state-of-the-art (SOTA) methods are predominantly propagation-based, which work as an iterative refinement on the initial estimated dense depth. However, the initial depth estimations mostly result from direct applications of convolutional layers on the sparse depth map. In this paper, we present a Bilateral Propagation Network (BP-Net), that propagates depth at the earliest stage to avoid directly convolving on sparse data. Specifically, our approach propagates the target depth from nearby depth measurements via a non-linear model, whose coefficients are generated through a multi-layer perceptron conditioned on both \emph{radiometric difference} and \emph{spatial distance}. By integrating bilateral propagation with multi-modal fusion and depth refinement in a multi-scale framework, our BP-Net demonstrates outstanding performance on both indoor and outdoor scenes. It achieves SOTA on the NYUv2 dataset and ranks 1st on the KITTI depth completion benchmark at the time of submission. Experimental results not only show the effectiveness of bilateral propagation but also emphasize the significance of early-stage propagation in contrast to the refinement stage. Our code and trained models will be available on the project page.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-01
# LLMの数学用語問題とは何なのか?

What Makes Math Word Problems Challenging for LLMs? ( http://arxiv.org/abs/2403.11369v2 )

ライセンス: Link先を確認
KV Aditya Srivatsa, Ekaterina Kochmar, (参考訳) 本稿では,大言語モデル (LLM) に挑戦する英語の数学語問題 (MWP) について考察する。 MWPの重要な言語的特徴と数学的特徴を詳細に分析する。 さらに、特徴に基づく分類器を訓練し、各特徴がMWPの難易度全体に与える影響をよりよく理解し、それがMWPの特定のカテゴリに対するLLMの精度予測に役立つかどうかを検討する。

This paper investigates the question of what makes math word problems (MWPs) in English challenging for large language models (LLMs). We conduct an in-depth analysis of the key linguistic and mathematical characteristics of MWPs. In addition, we train feature-based classifiers to better understand the impact of each feature on the overall difficulty of MWPs for prominent LLMs and investigate whether this helps predict how well LLMs fare against specific categories of MWPs.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-01
# X-LLaVA: バイリンガル大視野アライメントの最適化

X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment ( http://arxiv.org/abs/2403.11399v3 )

ライセンス: Link先を確認
Dongjae Shin, Hyeonseok Lim, Inho Won, Changsu Choi, Minjun Kim, Seungwoo Song, Hangyeol Yoo, Sangmin Kim, Kyungtae Lim, (参考訳) 大規模言語モデル(LLM)の印象的な開発は、テキスト以外の複数の種類のデータを含む大規模マルチモーダルモデル(LMM)の領域に拡大している。 しかし、マルチモーダルモデルの性質は、トレーニングデータの作成に多大な費用をもたらす。 さらに、LMMのための多言語データの構築は、言語多様性と複雑さのために、独自の課題セットを提示している。 そこで本研究では,(1)特定の言語に対する多言語 LLM の語彙展開と事前学習,(2) GPT4-V を用いたマルチモーダルデータセットの自動構築,という2つのコスト効率な手法を提案する。 これらの手法に基づいて,91Kの英語・韓国語・中国語多言語・マルチモーダル学習データセットを構築した。 さらに、韓国語と英語の両方で優れた性能を示すバイリンガル・マルチモーダルモデルを開発し、既存のアプローチを超越した。

The impressive development of large language models (LLMs) is expanding into the realm of large multimodal models (LMMs), which incorporate multiple types of data beyond text. However, the nature of multimodal models leads to significant expenses in the creation of training data. Furthermore, constructing multilingual data for LMMs presents its own set of challenges due to language diversity and complexity. Therefore, in this study, we propose two cost-effective methods to solve this problem: (1) vocabulary expansion and pretraining of multilingual LLM for specific languages, and (2) automatic and elaborate construction of multimodal datasets using GPT4-V. Based on015 these methods, we constructed a 91K English-Korean-Chinese multilingual, multimodal training dataset. Additionally, we developed a bilingual multimodal model that exhibits excellent performance in both Korean and English, surpassing existing approaches.
翻訳日:2024-04-04 08:08:50 公開日:2024-04-01
# 無限温度における非可積分スピン鎖の熱固有状態

Exact Thermal Eigenstates of Nonintegrable Spin Chains at Infinite Temperature ( http://arxiv.org/abs/2403.12330v2 )

ライセンス: Link先を確認
Yuuya Chiba, Yasushi Yoneta, (参考訳) 固有状態熱化仮説(ETH)は、孤立量子多体系の熱化を説明する上で重要な役割を果たしている。 しかし、非可積分系の熱エネルギー固有状態の理論的な処理が困難であるため、現実的な系ではETHが証明されていない。 ここでは、非可積分スピン鎖の熱固有状態を初めて解析的に記述する。 我々は, 絡み合った対足動物対 (EAP) 状態と呼ばれる, 理論的に拘束可能な容積法状態のクラスを考える。 これらの状態は熱的であり、最も厳密な意味では、無限の温度で全ての局所観測可能な状態に対してギブス状態と区別できない。 次に、EAP状態が固有状態であるハミルトニアンを同定し、これらのハミルトニアンのうちいくつかが可積分であることを示す。 さらに、EAP状態の想像時間進化により任意の温度で熱純状態を得る。 以上の結果から,ETHの実証可能な例が提案される可能性が示唆された。

The eigenstate thermalization hypothesis (ETH) plays a major role in explaining thermalization of isolated quantum many-body systems. However, there has been no proof of the ETH in realistic systems due to the difficulty in the theoretical treatment of thermal energy eigenstates of nonintegrable systems. Here, we write down analytically, for the first time, thermal eigenstates of nonintegrable spin chains. We consider a class of theoretically tractable volume-law states, which we call entangled antipodal pair (EAP) states. These states are thermal, in the most strict sense that they are indistinguishable from the Gibbs state with respect to all local observables, with infinite temperature. We then identify Hamiltonians having the EAP state as an eigenstate and rigorously show that some of these Hamiltonians are nonintegrable. Furthermore, a thermal pure state at an arbitrary temperature is obtained by the imaginary time evolution of an EAP state. Our results offer a potential avenue for providing a provable example of the ETH.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-01
# ZigMa: DiTスタイルのZigzag Mamba拡散モデル

ZigMa: A DiT-style Zigzag Mamba Diffusion Model ( http://arxiv.org/abs/2403.13802v2 )

ライセンス: Link先を確認
Vincent Tao Hu, Stefan Andreas Baumann, Ming Gui, Olga Grebenkova, Pingchuan Ma, Johannes Fischer, Björn Ommer, (参考訳) 拡散モデルは、特にトランスフォーマーベースの構造において、スケーラビリティと二次的な複雑性の問題に長い間悩まされてきた。 本研究では,Mambaと呼ばれる状態空間モデルの長周期モデリング機能を活用し,その視覚データ生成への適用性を高めることを目的とする。 まず,マンバのスキャン方式における空間的連続性に対する考慮の欠如について,現在のマンバをベースとした視覚的手法における重要な監視点を同定する。 第二に、この知見に基づいて、Zigzag Mambaというシンプルな、プラグアンドプレイゼロパラメータ法を導入し、Mambaベースのベースラインよりも優れ、トランスフォーマーベースのベースラインよりも高速でメモリ利用率の向上を示す。 最後に、Zigzag MambaとStochastic Interpolantフレームワークを統合して、FacesHQ 1024\times 1024$とUCF101、MultiModal-CelebA-HQ、MS COCO $256\times 256$といった大規模なビジュアルデータセット上のモデルのスケーラビリティを調査します。 コードはhttps://taohu.me/zigma/でリリースされる。

The diffusion model has long been plagued by scalability and quadratic complexity issues, especially within transformer-based structures. In this study, we aim to leverage the long sequence modeling capability of a State-Space Model called Mamba to extend its applicability to visual data generation. Firstly, we identify a critical oversight in most current Mamba-based vision methods, namely the lack of consideration for spatial continuity in the scan scheme of Mamba. Secondly, building upon this insight, we introduce a simple, plug-and-play, zero-parameter method named Zigzag Mamba, which outperforms Mamba-based baselines and demonstrates improved speed and memory utilization compared to transformer-based baselines. Lastly, we integrate Zigzag Mamba with the Stochastic Interpolant framework to investigate the scalability of the model on large-resolution visual datasets, such as FacesHQ $1024\times 1024$ and UCF101, MultiModal-CelebA-HQ, and MS COCO $256\times 256$ . Code will be released at https://taohu.me/zigma/
翻訳日:2024-04-04 07:58:37 公開日:2024-04-01
# ActRe: 言語エージェントがデータオートノミーのトレーニングを楽しむ時

ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy ( http://arxiv.org/abs/2403.14589v3 )

ライセンス: Link先を確認
Zonghan Yang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu, (参考訳) 言語エージェントは、基礎モデルによる推論により、自律的な意思決定能力を示した。 近年,多段階推論と行動軌跡をトレーニングデータとして,言語エージェントのパフォーマンス向上のための訓練が試みられている。 しかし、このような軌道の収集には、人工的なアノテーションや様々なプロンプトフレームワークの実装など、かなりの人的努力が必要である。 本稿では,A$^3$Tを提案する。A$^3$Tは,エージェントトラジェクトリの自律アノテーションをReActスタイルで実現するフレームワークである。 中心的な役割は、任意のアクションの理由を説明するActReプロンプトエージェントである。 外部アクションをランダムにサンプリングする場合、ReActスタイルのエージェントはActReエージェントにアクションを問い合わせ、そのテキストの合理性を得る。 新規な軌道は、ActReからサンプル化された作用への後続の推論を前もって合成される。 このようにして、ReActスタイルのエージェントは、失敗したタスクに対して複数のトラジェクトリを実行し、失敗したトラジェクトリを補完して、対照的な自己学習を行う。 二項化報酬を持つポリシー勾配法によって実現され、蓄積された軌道による対照的な自己学習は、言語エージェントによる複数ラウンドの自己改善のための閉ループを促進する。 我々はオープンソースのMistral-7B-Instruct-v0.2を用いたQLoRA微調整実験を行った。 AlfWorldでは、A$^3$Tで訓練されたエージェントが1発成功率96%、100%成功率4回を達成している。 WebShopでは、A$^3$Tエージェントの1ショットのパフォーマンスは人間の平均と一致し、4ラウンドの反復的な改善は、人間の専門家に近づくパフォーマンスに繋がる。 A$^3$Tエージェントは、GPT-4、高度なエージェントフレームワーク、完全に微調整されたLLMなど、既存の技術よりも大幅に優れていた。

Language agents have demonstrated autonomous decision-making abilities by reasoning with foundation models. Recently, efforts have been made to train language agents for performance improvement, with multi-step reasoning and action trajectories as the training data. However, collecting such trajectories still requires considerable human effort, by either artificial annotation or implementations of diverse prompting frameworks. In this work, we propose A$^3$T, a framework that enables the Autonomous Annotation of Agent Trajectories in the style of ReAct. The central role is an ActRe prompting agent, which explains the reason for an arbitrary action. When randomly sampling an external action, the ReAct-style agent could query the ActRe agent with the action to obtain its textual rationales. Novel trajectories are then synthesized by prepending the posterior reasoning from ActRe to the sampled action. In this way, the ReAct-style agent executes multiple trajectories for the failed tasks, and selects the successful ones to supplement its failed trajectory for contrastive self-training. Realized by policy gradient methods with binarized rewards, the contrastive self-training with accumulated trajectories facilitates a closed loop for multiple rounds of language agent self-improvement. We conduct experiments using QLoRA fine-tuning with the open-sourced Mistral-7B-Instruct-v0.2. In AlfWorld, the agent trained with A$^3$T obtains a 1-shot success rate of 96%, and 100% success with 4 iterative rounds. In WebShop, the 1-shot performance of the A$^3$T agent matches human average, and 4 rounds of iterative refinement lead to the performance approaching human experts. A$^3$T agents significantly outperform existing techniques, including prompting with GPT-4, advanced agent frameworks, and fully fine-tuned LLMs.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-01
# 大規模モデルのためのパラメータ効率の良いファインチューニング:包括的調査

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey ( http://arxiv.org/abs/2403.14608v2 )

ライセンス: Link先を確認
Zeyu Han, Chao Gao, Jinyang Liu, Jeff Zhang, Sai Qian Zhang, (参考訳) 大規模モデルは、複数のアプリケーション分野における画期的な進歩を表しており、様々なタスクにおける顕著な達成を可能にしている。 しかし、その前例のない規模には計算コストがかなり伴う。 これらのモデルはしばしば数十億のパラメータで構成され、実行には膨大な量の計算資源を必要とする。 特に、拡張スケールと計算要求は、特定の下流タスク、特に計算能力に制約されたハードウェアプラットフォームをカスタマイズする際に大きな課題を生じさせる。 パラメータ効率の良いファインチューニング(PEFT)は、様々な下流タスクに対して大きなモデルを効率的に適応することで、実用的なソリューションを提供する。 特にPEFTは、訓練済みの大規模モデルのパラメータを調整して特定のタスクに適応させ、導入された追加のパラメータの数や計算リソースを最小化するプロセスを指す。 これらのモデルをスクラッチから微調整することは、計算コストが高く、リソース集約的であり、サポートするシステムプラットフォーム設計において大きな課題を生じさせるため、大きな言語モデルと高いパラメータ数を扱う場合、このアプローチは特に重要である。 本稿では,様々なPEFTアルゴリズムの総合的な研究を行い,その性能と計算オーバーヘッドについて検討する。 さらに,異なるPEFTアルゴリズムを用いて開発されたアプリケーションの概要を述べるとともに,PEFTの計算コストを軽減するための一般的な手法について議論する。 アルゴリズムの観点に加えて,様々な実世界のシステム設計を概観し,異なるPEFTアルゴリズムによる実装コストについて検討する。 この調査は、PEFTアルゴリズムとシステム実装の両方を理解することを目的とした研究者にとって必須のリソースであり、最近の進歩と実用化に関する詳細な知見を提供する。

Large models represent a groundbreaking advancement in multiple application fields, enabling remarkable achievements across various tasks. However, their unprecedented scale comes with significant computational costs. These models, often consisting of billions of parameters, require vast amounts of computational resources for execution. Especially, the expansive scale and computational demands pose considerable challenges when customizing them for particular downstream tasks, particularly over the hardware platforms constrained by computational capabilities. Parameter Efficient Fine-Tuning (PEFT) provides a practical solution by efficiently adapt the large models over the various downstream tasks. In particular, PEFT refers to the process of adjusting the parameters of a pre-trained large models to adapt it to a specific task while minimizing the number of additional parameters introduced or computational resources required. This approach is particularly important when dealing with large language models with high parameter counts, as fine-tuning these models from scratch can be computationally expensive and resource-intensive, posing considerable challenges in the supporting system platform design. In this survey, we present comprehensive studies of various PEFT algorithms, examining their performance and computational overhead. Moreover, we provide an overview of applications developed using different PEFT algorithms and discuss common techniques employed to mitigate computation costs for PEFT. In addition to the algorithmic perspective, we overview various real-world system designs to investigate the implementation costs associated with different PEFT algorithms. This survey serves as an indispensable resource for researchers aiming to understand both the PEFT algorithm and its system implementation, offering detailed insights into recent advancements and practical applications.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-01
# 大規模言語モデルとユーザ信頼--自己参照学習ループと医療専門家のスキル低下の影響

Large Language Models and User Trust: Consequence of Self-Referential Learning Loop and the Deskilling of Healthcare Professionals ( http://arxiv.org/abs/2403.14691v2 )

ライセンス: Link先を確認
Avishek Choudhury, Zaria Chaudhry, (参考訳) 本稿では, LLMにおける臨床医の信頼関係, 主に人間生成コンテンツからAI生成コンテンツへのデータソースの変換, およびその後のLLMの精度と臨床医の能力への影響について検討する。 主な懸念の1つは、LLMが学習のアウトプットにより頼りになるにつれて生じる潜在的なフィードバックループであり、それによってアウトプットの品質が低下し、基本的な診断プロセスへの関与が減少するクリニックスキルが低下する可能性がある。 理論的には、このフィードバックループは、医療におけるLLMの統合が深まり、LLM技術の安全かつ効果的な利用を確実にするための積極的な対話と戦略的対策の必要性を強調しているため、大きな課題となる。 調査から得られた重要なポイントは、ユーザ専門知識の重要な役割と、LCMのアウトプットを信頼し、検証するための差別化アプローチの必要性である。 論文は、専門家、特に臨床医が、AI生成コンテンツの潜在的な不正確性を特定し、修正するための重要な監視を維持しながら、日常的なタスクをオフロードすることで、LCMを活用して生産性を高める方法について強調する。 この信頼と懐疑のバランスは、LCMが患者ケアの質を損なうのではなく、増大することを保証するために不可欠である。 さらに, LLMの自己参照学習ループや, 医療従事者の机詰めに伴う潜在的なリスクについて検討した。 AI生成したコンテンツが学習アルゴリズムに入力されるエコーチャンバー内で運用されるLLMのリスクは、データプールの多様性と品質を脅かし、バイアスを増大させ、LLMの有効性を低下させる。

This paper explores the evolving relationship between clinician trust in LLMs, the transformation of data sources from predominantly human-generated to AI-generated content, and the subsequent impact on the precision of LLMs and clinician competence. One of the primary concerns identified is the potential feedback loop that arises as LLMs become more reliant on their outputs for learning, which may lead to a degradation in output quality and a reduction in clinician skills due to decreased engagement with fundamental diagnostic processes. While theoretical at this stage, this feedback loop poses a significant challenge as the integration of LLMs in healthcare deepens, emphasizing the need for proactive dialogue and strategic measures to ensure the safe and effective use of LLM technology. A key takeaway from our investigation is the critical role of user expertise and the necessity for a discerning approach to trusting and validating LLM outputs. The paper highlights how expert users, particularly clinicians, can leverage LLMs to enhance productivity by offloading routine tasks while maintaining a critical oversight to identify and correct potential inaccuracies in AI-generated content. This balance of trust and skepticism is vital for ensuring that LLMs augment rather than undermine the quality of patient care. Moreover, we delve into the potential risks associated with LLMs' self-referential learning loops and the deskilling of healthcare professionals. The risk of LLMs operating within an echo chamber, where AI-generated content feeds into the learning algorithms, threatens the diversity and quality of the data pool, potentially entrenching biases and reducing the efficacy of LLMs.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-01
# LLaVA-PruMerge: 効率的な大規模マルチモーダルモデルのための適応的トークン削減

LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models ( http://arxiv.org/abs/2403.15388v3 )

ライセンス: Link先を確認
Yuzhang Shang, Mu Cai, Bingxin Xu, Yong Jae Lee, Yan Yan, (参考訳) 大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大規模言語モデルとを接続することで、重要な推論能力を示している。 LMMは通常、プレフィックスの内容としてCLIPビジュアルエンコーダのペナルティ層機能など、一定量のビジュアルトークンを使用する。 近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。 しかし、Transformerアーキテクチャの設計により、これらのモデルに関連する計算コストは入力トークンの数によって2次的に増加する傾向にある。 この問題に対処するため,トークン低減機構を探索し,多くの視覚的トークンが空間的に冗長であることを示す。 そこで我々はPruMergeを提案する。PruMergeは適応型ビジュアルトークン削減手法で、比較モデルの性能を維持しながら、視覚トークンの数を大幅に削減する。 まず、クラストークンと空間トークンとの類似性に基づいて、未実行の視覚トークンを選択する。 次に、キーの類似性に基づいてプルーンドトークンをクラスタ化し、クラスタ化されたトークンと未実行トークンをマージして、情報を補完します。 LLaVA-1.5に適用した場合、我々の手法は平均18倍の視覚トークンを圧縮し、多様な視覚的質問応答および推論タスクに匹敵する性能を達成できる。 コードとチェックポイントはhttps://llava-prumerge.github.io/にある。

Large Multimodal Models (LMMs) have shown significant reasoning capabilities by connecting a visual encoder and a large language model. LMMs typically use a fixed amount of visual tokens, such as the penultimate layer features in the CLIP visual encoder, as the prefix content. Recent LMMs incorporate more complex visual inputs, such as high-resolution images and videos, which increase the number of visual tokens significantly. However, due to the design of the Transformer architecture, computational costs associated with these models tend to increase quadratically with the number of input tokens. To tackle this problem, we explore a token reduction mechanism and find, similar to prior work, that many visual tokens are spatially redundant. Based on this, we propose PruMerge, a novel adaptive visual token reduction approach, which largely reduces the number of visual tokens while maintaining comparable model performance. We first select the unpruned visual tokens based on their similarity to class tokens and spatial tokens. We then cluster the pruned tokens based on key similarity and merge the clustered tokens with the unpruned tokens to supplement their information. Empirically, when applied to LLaVA-1.5, our approach can compress the visual tokens by 18 times on average, and achieve comparable performance across diverse visual question-answering and reasoning tasks. Code and checkpoints are at https://llava-prumerge.github.io/.
翻訳日:2024-04-04 07:58:37 公開日:2024-04-01
# PETスキャン画像解析によるアルツハイマー病早期発見のためのアンサンブル法の導入

Introducing an ensemble method for the early detection of Alzheimer's disease through the analysis of PET scan images ( http://arxiv.org/abs/2403.15443v2 )

ライセンス: Link先を確認
Arezoo Borji, Taha-Hossein Hejazi, Abbas Seifi, (参考訳) アルツハイマー病(英: Alzheimer disease)は、主に記憶、思考、行動などの認知機能に影響を与える進行性神経変性疾患である。 この疾患では、進行性MCI患者が発症するので、早期に診断することが非常に重要である。 本研究は、アルツハイマー病を制御正常(CN)、進行性軽度認知障害(pMCI)、安定性軽度認知障害(sMCI)、アルツハイマー病(AD)の4つのグループに分類する難しい課題について考察した。 この分類は、ADNIデータセットから得られたPETスキャン画像の徹底的な検査に基づいており、疾患の進行を徹底的に理解している。 アルツハイマー病を検出するために、いくつかのディープラーニングモデルと伝統的な機械学習モデルが使用されている。 本稿では、VGG16とAlexNetという3つのディープラーニングモデルと、8倍のクロスバリデーションを持つカスタム畳み込みニューラルネットワーク(CNN)を用いて分類を行った。 最後に、これらのモデル全体の結果を改善するためにアンサンブル技術を用いる。 その結果、深層学習モデルを用いてMCI患者間の差異を判断すると、全体の平均精度は93.13%、AUCは94.4%となることがわかった。

Alzheimer's disease is a progressive neurodegenerative disorder that primarily affects cognitive functions such as memory, thinking, and behavior. In this disease, there is a critical phase, mild cognitive impairment, that is really important to be diagnosed early since some patients with progressive MCI will develop the disease. This study delves into the challenging task of classifying Alzheimer's disease into four distinct groups: control normal (CN), progressive mild cognitive impairment (pMCI), stable mild cognitive impairment (sMCI), and Alzheimer's disease (AD). This classification is based on a thorough examination of PET scan images obtained from the ADNI dataset, which provides a thorough understanding of the disease's progression. Several deep-learning and traditional machine-learning models have been used to detect Alzheimer's disease. In this paper, three deep-learning models, namely VGG16 and AlexNet, and a custom Convolutional neural network (CNN) with 8-fold cross-validation have been used for classification. Finally, an ensemble technique is used to improve the overall result of these models. The results show that using deep-learning models to tell the difference between MCI patients gives an overall average accuracy of 93.13% and an AUC of 94.4%.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-01
# NaturalTurn: テキストを自然な会話のターンに分割する手法

NaturalTurn: A Method to Segment Transcripts into Naturalistic Conversational Turns ( http://arxiv.org/abs/2403.15615v2 )

ライセンス: Link先を確認
Gus Cooney, Andrew Reece, (参考訳) 会話は、社会的、認知的、計算科学への関心の高まりの主題である。 しかし、会話データセットがサイズと複雑さを増し続けているため、研究者は音声からテキストへの書き起こしを会話のターンに分割するスケーラブルな手法を欠いている。 本研究では,自然主義的交換のダイナミクスを正確に捉えるために,ターンセグメンテーションアルゴリズムであるNaturalTurnを紹介する。 NaturalTurnは、リスナーの二次発話(バックチャンネル、短いインタージェクション、会話を特徴付ける他の形式のパラレルスピーチなど)と、話者の主会話のターンを区別することによって機能する。 本研究では,大規模な会話コーパスから得られたデータを用いて,NaturalTurn由来の転写文が,既存の手法による転写文と比較して,統計的・推論的な特徴を示すことを示す。 NaturalTurnアルゴリズムは、研究者がターンテイクのダイナミクスと、会話科学の中心的な目標である社会的相互作用から生じるより広範な結果とを関連付けることができるように、機械生成の転写処理手法の改善(ターンモデル)を表現している。

Conversation is the subject of increasing interest in the social, cognitive, and computational sciences. And yet, as conversational datasets continue to increase in size and complexity, researchers lack scalable methods to segment speech-to-text transcripts into conversational turns--the basic building blocks of social interaction. We introduce "NaturalTurn," a turn segmentation algorithm designed to accurately capture the dynamics of naturalistic exchange. NaturalTurn operates by distinguishing speakers' primary conversational turns from listeners' secondary utterances, such as backchannels, brief interjections, and other forms of parallel speech that characterize conversation. Using data from a large conversation corpus, we show how NaturalTurn-derived transcripts demonstrate favorable statistical and inferential characteristics compared to transcripts derived from existing methods. The NaturalTurn algorithm represents an improvement in machine-generated transcript processing methods, or "turn models" that will enable researchers to associate turn-taking dynamics with the broader outcomes that result from social interaction, a central goal of conversation science.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-01
# 大規模言語モデルの個人別次世代予測

Differentially Private Next-Token Prediction of Large Language Models ( http://arxiv.org/abs/2403.15638v2 )

ライセンス: Link先を確認
James Flemings, Meisam Razaviyayn, Murali Annavaram, (参考訳) LLM(Large Language Models)のプライバシの確保がますます重要になっている。 最も広く採用されているテクニックはDP-SGDであり、差分プライバシー(DP)を保証するためにモデルを訓練している。 しかし、DP-SGDは、ホワイトボックスをモデルにアクセスできる敵の能力を過大評価し、結果として、SGDよりも長いトレーニング時間とメモリ使用量を引き起こす。 一方、商用のLLMデプロイメントは主としてクラウドベースであるため、LLMへの敵対的なアクセスはブラックボックスである。 これらの観測により,次点サンプリングの固有確率性を利用した次点予測のためのプライベート予測プロトコルPMixEDと,微分プライバシーを実現するためのパブリックモデルを提案する。 我々は、RD-molliferを導入し、そのモデルの各出力分布を、細調整されたLLMの集合から、パブリックなLLMの出力分布の集合に投影し、それから予測された分布とサンプルを平均化する。 トレーニング中にモデルアーキテクチャを検討する必要があるDP-SGDとは異なり、PMixEDはモデルに依存しないため、PMixEDは現在のデプロイメントにとって非常に魅力的なソリューションである。 以上の結果から,PMixEDはサンプルレベルのプライバシよりも強力なプライバシ保証を実現し,プライバシに対してDP-SGDより優れていることがわかった。 したがって、PMixEDは、プライバシーを損なうことなく強力な生成ユーティリティを実現するためのDPトレーニングの実践的な代替手段を提供する。

Ensuring the privacy of Large Language Models (LLMs) is becoming increasingly important. The most widely adopted technique to accomplish this is DP-SGD, which trains a model to guarantee Differential Privacy (DP). However, DP-SGD overestimates an adversary's capabilities in having white box access to the model and, as a result, causes longer training times and larger memory usage than SGD. On the other hand, commercial LLM deployments are predominantly cloud-based; hence, adversarial access to LLMs is black-box. Motivated by these observations, we present Private Mixing of Ensemble Distributions (PMixED): a private prediction protocol for next-token prediction that utilizes the inherent stochasticity of next-token sampling and a public model to achieve Differential Privacy. We formalize this by introducing RD-mollifers which project each of the model's output distribution from an ensemble of fine-tuned LLMs onto a set around a public LLM's output distribution, then average the projected distributions and sample from it. Unlike DP-SGD which needs to consider the model architecture during training, PMixED is model agnostic, which makes PMixED a very appealing solution for current deployments. Our results show that PMixED achieves a stronger privacy guarantee than sample-level privacy and outperforms DP-SGD for privacy $\epsilon = 8$ on large-scale datasets. Thus, PMixED offers a practical alternative to DP training methods for achieving strong generative utility without compromising privacy.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-01
# SSLのバックドア攻撃に対する、とても単純な防御策

An Embarrassingly Simple Defense Against Backdoor Attacks On SSL ( http://arxiv.org/abs/2403.15918v2 )

ライセンス: Link先を確認
Aryan Satpathy, Nilaksh Nilaksh, Dhruva Rajwade, (参考訳) 自己監視学習(SSL)は、人間の監督なしにデータランドスケープに取り組むための強力なパラダイムとして登場した。 ラベル付きデータを使わずに意味のあるタスクを学習できるため、SSLはラベルなしで大量のデータを管理できる一般的な方法である。 しかし、最近の研究はSSLがバックドア攻撃に対して脆弱であることを示している。 など。 al (2022)は、新しい周波数ベースのバックドアアタックCTRLを導入した。 彼らは、CTRLがSSLを使って訓練された被害者のモデルの制御を効率よく、ひそかに得ることができることを示した。 本研究では、SSLにおける周波数ベースの攻撃に対する2つの防御戦略を考案する。 最初のコントリビューションは、ダウンストリームタスクの不変性を利用して、一般化可能な方法でバックドアアタックを防御する。 ASR(Attack Success Rate)を観察し、実験全体で60%以上削減した。 我々の推論時防御は攻撃の回避に頼っており、攻撃から防御するために輝度チャネルを使用している。 オブジェクト分類をSSLの下流タスクとして使用し、モデルの再訓練を必要としない防衛戦略を成功させる。 コードはhttps://github.com/Aryan-Satpathy/Backdoor.comで入手できる。

Self Supervised Learning (SSL) has emerged as a powerful paradigm to tackle data landscapes with absence of human supervision. The ability to learn meaningful tasks without the use of labeled data makes SSL a popular method to manage large chunks of data in the absence of labels. However, recent work indicates SSL to be vulnerable to backdoor attacks, wherein models can be controlled, possibly maliciously, to suit an adversary's motives. Li et. al (2022) introduce a novel frequency-based backdoor attack: CTRL. They show that CTRL can be used to efficiently and stealthily gain control over a victim's model trained using SSL. In this work, we devise two defense strategies against frequency-based attacks in SSL: One applicable before model training and the second to be applied during model inference. Our first contribution utilizes the invariance property of the downstream task to defend against backdoor attacks in a generalizable fashion. We observe the ASR (Attack Success Rate) to reduce by over 60% across experiments. Our Inference-time defense relies on evasiveness of the attack and uses the luminance channel to defend against attacks. Using object classification as the downstream task for SSL, we demonstrate successful defense strategies that do not require re-training of the model. Code is available at https://github.com/Aryan-Satpathy/Backdoor.
翻訳日:2024-04-04 07:48:16 公開日:2024-04-01
# 相対論的指数型スピノル軌道とその多電子ディラック方程式解への応用

Relativistic exponential-type spinor orbitals and their use in many-electron Dirac equation solution ( http://arxiv.org/abs/2403.17029v3 )

ライセンス: Link先を確認
Ali Bagci, (参考訳) ディラック・クーロン型微分方程式とその解相対論的指数型スピノル軌道を導入する。 これらは作用素不変量、すなわちディラック不変量に対する修正形式を提供し、多電子系の計算における角成分の扱いを単純化する。 相対論的クーロンエネルギーは、不完全ガンマ関数を含む放射関数で表される一電子ポテンシャルに対するポアソン方程式のスペクトル解を用いて決定される。 不完全ガンマ関数の計算は、それらの級数表現に付随する緩やかな収束率に起因する問題に対処する。 このような困難は、双方向法と超放射関数を用いることで解消される。 クーロンエネルギー計算の効率を向上させる相対論的補助関数の新しい定式化について述べる。 これらの定式化はまた、非整数主量子数を持つ指数軌道の完全正則な直交集合を用いて、ポアソン方程式の解に対する直交展開を求めることにも寄与する。 それらは有意義な代替級数表現を提供するかもしれない。

Dirac-Coulomb type differential equation and its solution relativistic exponential-type spinor orbitals are introduced. They provide a revised form for operator invariants, namely Dirac invariants, simplifying the treatment of the angular components in calculation of many-electron systems. The relativistic Coulomb energy is determined by employing a spectral solution to Poisson's equation for the one-electron potential, which is expressed in terms of radial functions involving incomplete gamma functions. The computation for incomplete gamma functions posses challenges due to slow convergence rate associated with their series representation. Such difficulties are eliminated through use of the bi-directional method along with hyper-radial functions. A new formulation for relativistic auxiliary functions that improve the efficiency in Coulomb energy calculations is presented. These formulations also contribute to inquiring into orthogonal expansions for solutions to Poisson's equation using complete orthonormal sets of exponential orbitals with non-integer principal quantum numbers. They may provide a meaningful alternative series representations.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-01
# Attribute First, then Generate: Locally-Atributable Grounded Text Generation

Attribute First, then Generate: Locally-attributable Grounded Text Generation ( http://arxiv.org/abs/2403.17104v2 )

ライセンス: Link先を確認
Aviv Slobodkin, Eran Hirsch, Arie Cattan, Tal Schuster, Ido Dagan, (参考訳) 近年,Large Language Models (LLMs) における幻覚への取り組みは,生成したテキストに後代事実チェックと修正のための支援源の引用を補足する属性テキスト生成に焦点が当てられている。 しかし、これらの引用は文書や段落全体を指していることが多く、ユーザーを広範囲の検証作業に苦しめている。 本稿では,簡潔な属性を優先する局所帰属型テキスト生成手法を提案する。 提案手法は,従来のエンドツーエンド生成プロセスを,コンテンツ選択,文計画,逐次文生成という3つの直感的なステップに分解する。 最初は関連するソースセグメント(`select first'')を識別し、それから生成プロセス(``then generation''')を条件付けすることで、これらのセグメントが出力のきめ細かい属性(``select''は ``attribute'')としても機能するようにします。 提案手法は,複数文書の要約と長文質問回答に基づいて,ベースラインよりも簡潔な引用を得られるだけでなく,生成品質と帰属精度を向上する。 さらに、人間の評価者による事実検証に要する時間を大幅に短縮する。

Recent efforts to address hallucinations in Large Language Models (LLMs) have focused on attributed text generation, which supplements generated texts with citations of supporting sources for post-generation fact-checking and corrections. Yet, these citations often point to entire documents or paragraphs, burdening users with extensive verification work. In this paper, we introduce a locally-attributable text generation approach, prioritizing concise attributions. Our method, named ``Attribute First, then Generate'', breaks down the conventional end-to-end generation process into three intuitive steps: content selection, sentence planning, and sequential sentence generation. By initially identifying relevant source segments (``select first'') and then conditioning the generation process on them (``then generate''), we ensure these segments also act as the output's fine-grained attributions (``select'' becomes ``attribute''). Tested on Multi-document Summarization and Long-form Question-answering, our method not only yields more concise citations than the baselines but also maintains - and in some cases enhances - both generation quality and attribution accuracy. Furthermore, it significantly reduces the time required for fact verification by human assessors.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-01
# 教育のための大規模言語モデル:調査と展望

Large Language Models for Education: A Survey and Outlook ( http://arxiv.org/abs/2403.18105v2 )

ライセンス: Link先を確認
Shen Wang, Tianlong Xu, Hang Li, Chaoli Zhang, Joleen Liang, Jiliang Tang, Philip S. Yu, Qingsong Wen, (参考訳) LLM(Large Language Models)の出現は、教育の領域における新たな可能性の時代をもたらした。 本稿では,多面的視点から学習環境におけるLLMの様々な技術について要約し,学生と教師の援助,適応学習,商業ツールについて述べる。 各視点の技術的進歩を体系的にレビューし、関連するデータセットとベンチマークを整理し、教育におけるLSMの展開に伴うリスクと課題を特定する。 さらに、将来的な研究の機会を概説し、将来有望な方向性を明らかにする。 本調査は、LLMの力を利用して教育実践を変革し、より効果的なパーソナライズされた学習環境を育むための、教育者、研究者、政策立案者のための総合的な技術図を提供することを目的とする。

The advent of Large Language Models (LLMs) has brought in a new era of possibilities in the realm of education. This survey paper summarizes the various technologies of LLMs in educational settings from multifaceted perspectives, encompassing student and teacher assistance, adaptive learning, and commercial tools. We systematically review the technological advancements in each perspective, organize related datasets and benchmarks, and identify the risks and challenges associated with deploying LLMs in education. Furthermore, we outline future research opportunities, highlighting the potential promising directions. Our survey aims to provide a comprehensive technological picture for educators, researchers, and policymakers to harness the power of LLMs to revolutionize educational practices and foster a more effective personalized learning environment.
翻訳日:2024-04-04 07:37:38 公開日:2024-04-01
# ロバストなイベント誘導型低光画像強調に向けて:大規模実世界のイベント画像データセットと新しいアプローチ

Towards Robust Event-guided Low-Light Image Enhancement: A Large-Scale Real-World Event-Image Dataset and Novel Approach ( http://arxiv.org/abs/2404.00834v1 )

ライセンス: Link先を確認
Guoqiang Liang, Kanghao Chen, Hangyu Li, Yunfan Lu, Lin Wang, (参考訳) イベントカメラは低照度画像強調(LIE)に注目されている。 しかし、現在の研究は、大規模、実世界、空間的に時間的に整合したイベントイメージデータセットの欠如によって禁止されている。 そこで本研究では,低照度および常照度条件下での30万組以上の画像とイベントからなる実世界(屋内および屋外)データセットを提案する。 これを実現するために、一貫した非線形軌道を辿るロボットアームを用いて、空間アライメント精度0.03mm以下のデータセットをキュレートする。 次に、一致したアライメント戦略を導入し、データセットの90%を0.01秒未満のエラーでレンダリングします。 このデータセットに基づいて、実世界の低照度シーンにおけるロバストなパフォーマンスを実現するために、EvLightと呼ばれるイベント誘導型LIEアプローチを提案する。 具体的には、イベントと画像の両方から全体構造とテクスチャ情報を抽出するために、まずマルチスケールの総合的融合分枝を設計する。 地域照明と雑音の変動に対してロバスト性を確保するため,SNR(Signal-to-Noise-Ratio)誘導の地域特徴選択を導入し,高SNR領域の画像の特徴を選択的に融合させ,イベントから地域構造情報を抽出することで低SNR領域の特徴を増強する。 私たちのデータセットと合成SDSDデータセットに関する大規模な実験は、EvLightがフレームベースの方法を大幅に上回っていることを示している。 コードとデータセットはhttps://vlislab22.github.io/eg-lowlight/で公開されている。

Event camera has recently received much attention for low-light image enhancement (LIE) thanks to their distinct advantages, such as high dynamic range. However, current research is prohibitively restricted by the lack of large-scale, real-world, and spatial-temporally aligned event-image datasets. To this end, we propose a real-world (indoor and outdoor) dataset comprising over 30K pairs of images and events under both low and normal illumination conditions. To achieve this, we utilize a robotic arm that traces a consistent non-linear trajectory to curate the dataset with spatial alignment precision under 0.03mm. We then introduce a matching alignment strategy, rendering 90% of our dataset with errors less than 0.01s. Based on the dataset, we propose a novel event-guided LIE approach, called EvLight, towards robust performance in real-world low-light scenes. Specifically, we first design the multi-scale holistic fusion branch to extract holistic structural and textural information from both events and images. To ensure robustness against variations in the regional illumination and noise, we then introduce a Signal-to-Noise-Ratio (SNR)-guided regional feature selection to selectively fuse features of images from regions with high SNR and enhance those with low SNR by extracting regional structure information from events. Extensive experiments on our dataset and the synthetic SDSD dataset demonstrate our EvLight significantly surpasses the frame-based methods. Code and datasets are available at https://vlislab22.github.io/eg-lowlight/.
翻訳日:2024-04-04 01:41:21 公開日:2024-04-01
# エッジラーニングにおける資源管理の再考 : 事前学習と微調整デザインの併用

Rethinking Resource Management in Edge Learning: A Joint Pre-training and Fine-tuning Design Paradigm ( http://arxiv.org/abs/2404.00836v1 )

ライセンス: Link先を確認
Zhonghao Lyu, Yuchen Li, Guangxu Zhu, Jie Xu, H. Vincent Poor, Shuguang Cui, (参考訳) 一部のアプリケーションでは、エッジラーニングは、スクラッチから新しい2段階ラーニングに焦点を合わせ、事前学習とタスク固有の微調整を統一する。 本稿では,2段階のエッジ学習システムにおける共同コミュニケーションと計算資源管理の問題について考察する。 本システムでは、まず、ローカルストアドジェネラルデータの集中学習を介してエッジサーバでモデル事前学習を行い、その後、フェデレーションエッジ学習を介して事前トレーニングされたモデルに基づいて、エッジデバイスでタスク固有の微調整を行う。 2段階の学習モデルでは,まず,2段階の学習ラウンド数やバッチサイズが収束率に与える影響を特徴付ける収束挙動(平均2乗勾配ノルム境界)を解析する。 分析結果に基づいて,送信電力,システムエネルギー消費,トレーニング遅延の制約を考慮し,平均2乗勾配ノルム境界を最小化するための共同通信・計算資源管理設計を提案する。 決定変数には、学習ラウンドの数、バッチサイズ、クロック周波数、事前学習と微調整の両方の段階での電力制御が含まれる。 最後に,提案手法の有効性を数値的に評価する。 事前学習・微調整段階における共同資源管理は, 訓練精度, 遅延, エネルギー消費の両面において, システム性能のトレードオフをうまくバランスさせることが示されている。 提案手法は,事前学習と微調整のトレードオフを効果的に生かし,事前記憶された汎用データとリアルタイムタスク固有データとのデータの分散の違いから,システム全体の性能を効率的に最適化する。

In some applications, edge learning is experiencing a shift in focusing from conventional learning from scratch to new two-stage learning unifying pre-training and task-specific fine-tuning. This paper considers the problem of joint communication and computation resource management in a two-stage edge learning system. In this system, model pre-training is first conducted at an edge server via centralized learning on local pre-stored general data, and then task-specific fine-tuning is performed at edge devices based on the pre-trained model via federated edge learning. For the two-stage learning model, we first analyze the convergence behavior (in terms of the average squared gradient norm bound), which characterizes the impacts of various system parameters such as the number of learning rounds and batch sizes in the two stages on the convergence rate. Based on our analytical results, we then propose a joint communication and computation resource management design to minimize an average squared gradient norm bound, subject to constraints on the transmit power, overall system energy consumption, and training delay. The decision variables include the number of learning rounds, batch sizes, clock frequencies, and transmit power control for both pre-training and fine-tuning stages. Finally, numerical results are provided to evaluate the effectiveness of our proposed design. It is shown that the proposed joint resource management over the pre-training and fine-tuning stages well balances the system performance trade-off among the training accuracy, delay, and energy consumption. The proposed design is also shown to effectively leverage the inherent trade-off between pre-training and fine-tuning, which arises from the differences in data distribution between pre-stored general data versus real-time task-specific data, thus efficiently optimizing overall system performance.
翻訳日:2024-04-04 01:41:21 公開日:2024-04-01
# 深層学習とピラミッドサンプリングによる乳癌画像の自動HER2スコーリング

Automated HER2 Scoring in Breast Cancer Images Using Deep Learning and Pyramid Sampling ( http://arxiv.org/abs/2404.00837v1 )

ライセンス: Link先を確認
Sahan Yoruc Selcuk, Xilin Yang, Bijie Bai, Yijie Zhang, Yuzhu Li, Musa Aydin, Aras Firat Unal, Aditya Gomatam, Zhen Guo, Darrow Morgan Angus, Goren Kolodney, Karine Atlan, Tal Keidar Haran, Nir Pillar, Aydogan Ozcan, (参考訳) ヒト上皮成長因子受容体2(HER2)は、乳癌(BC)の攻撃性を表わし、その予後を予測する重要なタンパク質である。 HER2発現レベルに対する免疫組織化学的(IHC)染色組織スライドの正確な評価は、治療指導と癌機構の理解の両方に不可欠である。 それでも、ボード認定された病理学者による手動検査の伝統的なワークフローは、サーバ間の不整合やターンアラウンドタイムの延長など、課題に直面している。 In this, we introduced a Deep learning-based approach using pyramid sample for the automated classification of HER2 status in IHC-stained BC tissue images。 本手法は, 様々な空間スケールで形態的特徴を分析し, 計算負荷を効率的に管理し, 細胞レベルでの組織レベルでの詳細な検討を容易にする。 この方法は、組織マイクロアレイの523コア画像のデータセット上で、HER2発現の組織不均一性を包括的ビューを提供することにより、盲検分類精度84.70%に導く。 本システムでは, 診断精度と評価速度を向上し, がん治療計画に大きな影響を与える可能性がある。

Human epidermal growth factor receptor 2 (HER2) is a critical protein in cancer cell growth that signifies the aggressiveness of breast cancer (BC) and helps predict its prognosis. Accurate assessment of immunohistochemically (IHC) stained tissue slides for HER2 expression levels is essential for both treatment guidance and understanding of cancer mechanisms. Nevertheless, the traditional workflow of manual examination by board-certified pathologists encounters challenges, including inter- and intra-observer inconsistency and extended turnaround times. Here, we introduce a deep learning-based approach utilizing pyramid sampling for the automated classification of HER2 status in IHC-stained BC tissue images. Our approach analyzes morphological features at various spatial scales, efficiently managing the computational load and facilitating a detailed examination of cellular and larger-scale tissue-level details. This method addresses the tissue heterogeneity of HER2 expression by providing a comprehensive view, leading to a blind testing classification accuracy of 84.70%, on a dataset of 523 core images from tissue microarrays. Our automated system, proving reliable as an adjunct pathology tool, has the potential to enhance diagnostic precision and evaluation speed, and might significantly impact cancer treatment planning.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# 3MOS:光SAR画像マッチングのためのマルチソース、マルチレゾリューション、マルチシーンデータセット

3MOS: Multi-sources, Multi-resolutions, and Multi-scenes dataset for Optical-SAR image matching ( http://arxiv.org/abs/2404.00838v1 )

ライセンス: Link先を確認
Yibin Ye, Xichao Teng, Shuo Chen, Yijie Bian, Tao Tan, Zhang Li, (参考訳) 光-SAR画像マッチングは画像融合と視覚ナビゲーションの基本課題である。 しかしながら、メソッド開発のための大規模オープンSARデータセットは、単一のプラットフォームから収集され、衛星タイプや空間解像度が制限される。 異なるセンサによって撮像された画像は幾何学的および放射的外観の両方で大きく異なるため、既存の方法では同じ内容を含む対応する領域と一致しない可能性がある。 さらに、既存のデータセットのほとんどは、異なるシーンの特徴に基づいて分類されていない。 より一般的なマルチモーダル画像マッチング手法の設計を促進するために,光学SAR画像マッチング(3MOS)のための大規模マルチソース,マルチ解像度,マルチシーンデータセットを導入する。 6つの商用衛星からのSARデータを含む155Kの光学SAR画像対で構成され、解像度は1.25mから12.5mである。 データは、都市、農村、平野、丘、山、水、砂漠、凍った土を含む8つのシーンに分類されている。 大規模な実験では、どの最先端の手法も、異なるソース、解像度、シーンにわたって一貫して優れたパフォーマンスを達成していないことが示されている。 さらに、データの分布がディープラーニングモデルのマッチング能力に大きく影響し、光-SAR画像マッチングにおける領域適応チャレンジを提案する。 私たちのデータとコードは、https://github.com/3M-OS/3MOS.comで公開されます。

Optical-SAR image matching is a fundamental task for image fusion and visual navigation. However, all large-scale open SAR dataset for methods development are collected from single platform, resulting in limited satellite types and spatial resolutions. Since images captured by different sensors vary significantly in both geometric and radiometric appearance, existing methods may fail to match corresponding regions containing the same content. Besides, most of existing datasets have not been categorized based on the characteristics of different scenes. To encourage the design of more general multi-modal image matching methods, we introduce a large-scale Multi-sources,Multi-resolutions, and Multi-scenes dataset for Optical-SAR image matching(3MOS). It consists of 155K optical-SAR image pairs, including SAR data from six commercial satellites, with resolutions ranging from 1.25m to 12.5m. The data has been classified into eight scenes including urban, rural, plains, hills, mountains, water, desert, and frozen earth. Extensively experiments show that none of state-of-the-art methods achieve consistently superior performance across different sources, resolutions and scenes. In addition, the distribution of data has a substantial impact on the matching capability of deep learning models, this proposes the domain adaptation challenge in optical-SAR image matching. Our data and code will be available at:https://github.com/3M-OS/3MOS.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# イベントカメラを用いた直線・運動推定のためのN点線形解法

An N-Point Linear Solver for Line and Motion Estimation with Event Cameras ( http://arxiv.org/abs/2404.00842v1 )

ライセンス: Link先を確認
Ling Gao, Daniel Gehrig, Hang Su, Davide Scaramuzza, Laurent Kneip, (参考訳) イベントカメラは主にエッジに応答し、強い勾配で形成され、ラインベースの動き推定には特に適している。 最近の研究により、一直線で生成された事象は、それぞれ時空体積の多様体を記述する多項式制約を満たすことが示されている。 このような制約を複数同時に解くことで、部分線形速度と線パラメータを復元することができる。 本研究は, 線形パラメトリゼーションにより, この制約系が未知数において実際に線形であることを示し, 新たな線形解法の設計を可能にする。 既存の解法とは異なり、線形解法は (i)は高価な根の発見に依存しないので、高速で数値的に安定である。 (ii)5つ以上の事象を持つ最小および過決定のシステムを解くことができ、 (iii) 退化したすべてのケースと複数の解のキャラクタリゼーションを認める。 検出されたラインパラメータは特異性フリーであり、固定スケールを持つため、以前の研究でよく見られる補助的制約は不要である。 フルリニアカメラ速度を回復するために、幾何学的に動機付けられた残差に依存する新しい速度平均化スキームを用いて複数の線からの観測を融合し、代数的残差を最小化する従来のスキームよりも効率的に問題を解く。 合成および実世界の環境における広範囲な実験により,本手法は従来の数値安定性を超越し,600倍以上の速度で動作可能であることが示された。

Event cameras respond primarily to edges--formed by strong gradients--and are thus particularly well-suited for line-based motion estimation. Recent work has shown that events generated by a single line each satisfy a polynomial constraint which describes a manifold in the space-time volume. Multiple such constraints can be solved simultaneously to recover the partial linear velocity and line parameters. In this work, we show that, with a suitable line parametrization, this system of constraints is actually linear in the unknowns, which allows us to design a novel linear solver. Unlike existing solvers, our linear solver (i) is fast and numerically stable since it does not rely on expensive root finding, (ii) can solve both minimal and overdetermined systems with more than 5 events, and (iii) admits the characterization of all degenerate cases and multiple solutions. The found line parameters are singularity-free and have a fixed scale, which eliminates the need for auxiliary constraints typically encountered in previous work. To recover the full linear camera velocity we fuse observations from multiple lines with a novel velocity averaging scheme that relies on a geometrically-motivated residual, and thus solves the problem more efficiently than previous schemes which minimize an algebraic residual. Extensive experiments in synthetic and real-world settings demonstrate that our method surpasses the previous work in numerical stability, and operates over 600 times faster.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# 点変換器を用いた伝達学習

Transfer Learning with Point Transformers ( http://arxiv.org/abs/2404.00846v1 )

ライセンス: Link先を確認
Kartik Gupta, Rahul Vippala, Sahima Srivastava, (参考訳) Point Transformerは、Point Cloudデータ上の分類、セグメンテーション、検出タスクのための最先端モデルに近い。 それらは自己注意に基づくメカニズムを使用して、複数の点集合間の広い範囲の空間的依存関係をモデル化する。 このプロジェクトでは、ModelNet10データセットに基づくこれらの注目ネットワークの分類性能と、微調整後の3D MNISTデータセットの分類にトレーニングモデルを使用する。 また、3D MNISTデータセットのスクラッチからモデルをトレーニングし、MNISTデータセットの微調整モデルとスクラッチモデルのパフォーマンスを比較する。 2つのデータセットは分布の度合いに大きな違いがあるため、転送学習モデルは、この場合のオフ・スクラッチ・モデルよりも優れていない。 移行学習されたモデルは、すでにModelNet10データセットの下位レベルエッジやコーナーなどを知っているので、より早く収束することを期待しています。

Point Transformers are near state-of-the-art models for classification, segmentation, and detection tasks on Point Cloud data. They utilize a self attention based mechanism to model large range spatial dependencies between multiple point sets. In this project we explore two things: classification performance of these attention based networks on ModelNet10 dataset and then, we use the trained model to classify 3D MNIST dataset after finetuning. We also train the model from scratch on 3D MNIST dataset to compare the performance of finetuned and from-scratch model on the MNIST dataset. We observe that since the two datasets have a large difference in the degree of the distributions, transfer learned models do not outperform the from-scratch models in this case. Although we do expect transfer learned models to converge faster since they already know the lower level edges, corners, etc features from the ModelNet10 dataset.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# 教師なしビデオ異常検出のためのプライバシ付き異常の協調学習:新しいベースライン

Collaborative Learning of Anomalies with Privacy (CLAP) for Unsupervised Video Anomaly Detection: A New Baseline ( http://arxiv.org/abs/2404.00847v1 )

ライセンス: Link先を確認
Anas Al-lahham, Muhammad Zaigham Zaheer, Nurbek Tastan, Karthik Nandakumar, (参考訳) 監視アプリケーションにおける教師なし(US)ビデオ異常検出(VAD)は,現実的な実世界の応用により近年人気が高まっている。 監視ビデオはプライバシーに敏感であり、大規模なビデオデータが利用できることによって、US-VADシステムが改善される可能性があるため、この環境では協調学習が大きな利益をもたらす可能性がある。 しかし、アノテーションなしで学習を行うUS-VADタスクの極めて困難な性質のため、US-VADシステムのプライバシー保護協調学習はまだ研究されていない。 本稿では,複雑な監視ビデオにおける異常事象を,プライバシー保護型参加者による分散トレーニング設定にラベルを付けることなく,完全に教師なしの方法で位置決め可能な,異常検出のための新しいベースラインを提案する。 さらに,共同作業やデータ可用性のさまざまなシナリオにおいて,異常検出手法のベンチマークを行うための3つの新しい評価プロトコルを提案する。 これらのプロトコルに基づいて、UCF-CrimeとXD-Violenceを含む2つの大規模データセット上で、既存のVADデータセットを変更し、我々のアプローチと既存のUS SOTAメソッドを広範囲に評価する。 提案された評価プロトコル、データセットの分割、コードは以下の通りである。

Unsupervised (US) video anomaly detection (VAD) in surveillance applications is gaining more popularity recently due to its practical real-world applications. As surveillance videos are privacy sensitive and the availability of large-scale video data may enable better US-VAD systems, collaborative learning can be highly rewarding in this setting. However, due to the extremely challenging nature of the US-VAD task, where learning is carried out without any annotations, privacy-preserving collaborative learning of US-VAD systems has not been studied yet. In this paper, we propose a new baseline for anomaly detection capable of localizing anomalous events in complex surveillance videos in a fully unsupervised fashion without any labels on a privacy-preserving participant-based distributed training configuration. Additionally, we propose three new evaluation protocols to benchmark anomaly detection approaches on various scenarios of collaborations and data availability. Based on these protocols, we modify existing VAD datasets to extensively evaluate our approach as well as existing US SOTA methods on two large-scale datasets including UCF-Crime and XD-Violence. All proposed evaluation protocols, dataset splits, and codes are available here: https://github.com/AnasEmad11/CLAP
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# コンバウンディングにおける決定政策の予測性能比較

Predictive Performance Comparison of Decision Policies Under Confounding ( http://arxiv.org/abs/2404.00848v1 )

ライセンス: Link先を確認
Luke Guerdan, Amanda Coston, Kenneth Holstein, Zhiwei Steven Wu, (参考訳) 予測モデルは、しばしば既存の意思決定ポリシーよりもパフォーマンスを向上させるという根拠の下で意思決定タスクに導入される。 しかし, 予測性能を, 未特定であり, 観測不可能な要因に依存している既存の意思決定方針と比較することは困難である。 これらの不確実性の源は、しばしばデータ生成機構について強い仮定をすることで、現実的に対処される。 本研究では, 因果推論と非政治評価文献(例えば, 器楽変数, 限界感度モデル, 近位変数)から, 多様な近代的識別手法による意思決定ポリシーの予測性能を比較する手法を提案する。 我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。 本研究では, 現状クオポリシーのパラメトリック形式を仮定せずに, 後悔区間の有限サンプル推定のための実践的アプローチを開発する。 理論的および合成データ実験により,我々の枠組みを検証した。 我々は、我々の枠組みを用いた実世界のアプリケーションを用いて、医療機関の入学方針への修正案の事前配備評価を支援する。

Predictive models are often introduced to decision-making tasks under the rationale that they improve performance over an existing decision-making policy. However, it is challenging to compare predictive performance against an existing decision-making policy that is generally under-specified and dependent on unobservable factors. These sources of uncertainty are often addressed in practice by making strong assumptions about the data-generating mechanism. In this work, we propose a method to compare the predictive performance of decision policies under a variety of modern identification approaches from the causal inference and off-policy evaluation literatures (e.g., instrumental variable, marginal sensitivity model, proximal variable). Key to our method is the insight that there are regions of uncertainty that we can safely ignore in the policy comparison. We develop a practical approach for finite-sample estimation of regret intervals under no assumptions on the parametric form of the status quo policy. We verify our framework theoretically and via synthetic data experiments. We conclude with a real-world application using our framework to support a pre-deployment evaluation of a proposed modification to a healthcare enrollment policy.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# 周波数から見たHDRデゴストリングのためのコンテンツ生成

Generating Content for HDR Deghosting from Frequency View ( http://arxiv.org/abs/2404.00849v1 )

ライセンス: Link先を確認
Tao Hu, Qingsen Yan, Yuankai Qi, Yanning Zhang, (参考訳) 複数の低ダイナミックレンジ (LDR) 画像からのゴーストフリーハイダイナミックレンジ (HDR) 画像の復元は, 飽和度と顕著な動きを示すと困難になる。 近年の拡散モデル (DM) はHDRイメージングの分野で導入されており、特に従来のDNN法と比較して視覚的に知覚可能な結果を得る上で有望な性能を示している。 しかし、DMは画像全体を推定するために大規模なモデルによる広範囲なイテレーションを必要とし、その結果、実用的応用を妨げる非効率性に繋がる。 この課題に対処するために、ゴーストフリーHDRイメージングのための低周波数対応拡散(LF-Diff)モデルを提案する。 LF-Diffの鍵となるアイデアは、高度にコンパクト化された潜在空間でDMを実装し、それを回帰モデルに統合して再構成画像の詳細を強化することである。 具体的には、低周波情報は人間の視覚知覚と密接な関係にあるため、DMを用いて再構成プロセスのためのコンパクトな低周波先行情報を作成することを提案する。 さらに、上記低周波前兆をフル活用するために、動的HDR再構成ネットワーク(DHRNet)を回帰ベースで実行し、最終的なHDR画像を得る。 合成および実世界のベンチマークデータセットで実施された大規模な実験により、LF-Diffはいくつかの最先端手法に対して良好に動作し、従来のDMベースの手法よりも10$\times$高速であることが示された。

Recovering ghost-free High Dynamic Range (HDR) images from multiple Low Dynamic Range (LDR) images becomes challenging when the LDR images exhibit saturation and significant motion. Recent Diffusion Models (DMs) have been introduced in HDR imaging field, demonstrating promising performance, particularly in achieving visually perceptible results compared to previous DNN-based methods. However, DMs require extensive iterations with large models to estimate entire images, resulting in inefficiency that hinders their practical application. To address this challenge, we propose the Low-Frequency aware Diffusion (LF-Diff) model for ghost-free HDR imaging. The key idea of LF-Diff is implementing the DMs in a highly compacted latent space and integrating it into a regression-based model to enhance the details of reconstructed images. Specifically, as low-frequency information is closely related to human visual perception we propose to utilize DMs to create compact low-frequency priors for the reconstruction process. In addition, to take full advantage of the above low-frequency priors, the Dynamic HDR Reconstruction Network (DHRNet) is carried out in a regression-based manner to obtain final HDR images. Extensive experiments conducted on synthetic and real-world benchmark datasets demonstrate that our LF-Diff performs favorably against several state-of-the-art methods and is 10$\times$ faster than previous DM-based methods.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# リニアシステムにおけるリプレイアタック検出のための遅延誘起透かし

Delay-Induced Watermarking for Detection of Replay Attacks in Linear Systems ( http://arxiv.org/abs/2404.00850v1 )

ライセンス: Link先を確認
Christoforos Somarakis, Raman Goyal, Erfaun Noorani, Shantanu Rane, (参考訳) 線形システムにおけるリプレイ攻撃検出のための状態フィードバック型透かし信号の設計を提案する。 制御入力は、リプレイタイプの攻撃に対してシステムを保護するために、システム状態推定のランダムな時間遅延項で拡張される。 LQG制御系における状態フィードバック型透かしの閉ループ応答に関する基礎解析について概説する。 本理論は, 温度制御の例に適用した。 提案するセキュアな制御方式は極めて複雑な分析を必要とするが,攻撃検出能力とシステム性能の両面において,従来のフィードフォワード方式よりも優れた性能を期待できる。

A state-feedback watermarking signal design for the detection of replay attacks in linear systems is proposed. The control input is augmented with a random time-delayed term of the system state estimate, in order to secure the system against attacks of replay type. We outline the basic analysis of the closed-loop response of the state-feedback watermarking in a LQG controlled system. Our theoretical results are applied on a temperature process control example. While the proposed secure control scheme requires very involved analysis, it, nevertheless, holds promise of being superior to conventional, feed-forward, watermarking schemes, in both its ability to detect attacks as well as the secured system performance.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# メタレギュラー化によるプロンプト学習

Prompt Learning via Meta-Regularization ( http://arxiv.org/abs/2404.00851v1 )

ライセンス: Link先を確認
Jinyoung Park, Juyeon Ko, Hyunwoo J. Kim, (参考訳) 事前学習された視覚言語モデルは、ゼロショットの一般化性で様々なコンピュータビジョンタスクで顕著な成功を収めている。 近年,様々な下流タスクに視覚言語モデルを効果的かつ効果的に適用するために,迅速な学習手法が研究されている。 しかし、既存のプロンプト学習手法の多くは、訓練済みの視覚言語モデルの一般的な知識が忘れられ、プロンプトは特定の目標タスクから設定された小さなデータセットに微調整されるため、タスク過適合に悩まされている。 本稿では,ProMetaR(Prompt Meta-Regularization)を提案する。 具体的には、ProMetaRは正規化器とソフトプロンプトの両方をメタラーニングし、下流のタスクからタスク固有の知識と視覚言語モデルからタスクに依存しない一般的な知識を活用する。 さらに、ProMetaRはタスクを拡張して複数の仮想タスクを生成し、メタオーバーフィッティングを緩和する。 さらに, 勾配アライメントの観点から, ProMetaR がプロンプトチューニングの一般化性をいかに改善するかを理解するための解析を行う。 我々のProMetaRは,ベース・ツー・ベース・トゥ・ベース・トゥ・ベース・ツー・ドメインの一般化設定の下で,従来のプロンプト学習手法の一般化性を向上することを示した。 ProMetaRのコードはhttps://github.com/mlvlab/ProMetaRで公開されている。

Pre-trained vision-language models have shown impressive success on various computer vision tasks with their zero-shot generalizability. Recently, prompt learning approaches have been explored to efficiently and effectively adapt the vision-language models to a variety of downstream tasks. However, most existing prompt learning methods suffer from task overfitting since the general knowledge of the pre-trained vision language models is forgotten while the prompts are finetuned on a small data set from a specific target task. To address this issue, we propose a Prompt Meta-Regularization (ProMetaR) to improve the generalizability of prompt learning for vision-language models. Specifically, ProMetaR meta-learns both the regularizer and the soft prompts to harness the task-specific knowledge from the downstream tasks and task-agnostic general knowledge from the vision-language models. Further, ProMetaR augments the task to generate multiple virtual tasks to alleviate the meta-overfitting. In addition, we provide the analysis to comprehend how ProMetaR improves the generalizability of prompt tuning in the perspective of the gradient alignment. Our extensive experiments demonstrate that our ProMetaR improves the generalizability of conventional prompt learning methods under base-to-base/base-to-new and domain generalization settings. The code of ProMetaR is available at https://github.com/mlvlab/ProMetaR.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# ベトナムの都市環境におけるテキストスポッティングのためのアンサンブル学習

Ensemble Learning for Vietnamese Scene Text Spotting in Urban Environments ( http://arxiv.org/abs/2404.00852v1 )

ライセンス: Link先を確認
Hieu Nguyen, Cong-Hoang Ta, Phuong-Thuy Le-Nguyen, Minh-Triet Tran, Trung-Nghia Le, (参考訳) 本稿ではベトナムのシーンテキストスポッティングのための簡易かつ効率的なアンサンブル学習フレームワークを提案する。 複数のモデルを組み合わせてより正確な予測を行うアンサンブル学習の力を活用し,都市環境におけるシーンテキストスポッティングの性能を大幅に向上することを目的としている。 VinTextデータセットの実験的評価により,提案手法は従来の手法に比べて5%の精度で精度が向上した。 これらの結果は、ベトナムの都市環境におけるシーンテキストスポッティングの文脈におけるアンサンブル学習の有効性を明白に示しており、都市シグナージにおけるテキストの検出や認識、広告、および様々なテキストリッチな都市シーンにおける実世界の応用の可能性を強調している。

This paper presents a simple yet efficient ensemble learning framework for Vietnamese scene text spotting. Leveraging the power of ensemble learning, which combines multiple models to yield more accurate predictions, our approach aims to significantly enhance the performance of scene text spotting in challenging urban settings. Through experimental evaluations on the VinText dataset, our proposed method achieves a significant improvement in accuracy compared to existing methods with an impressive accuracy of 5%. These results unequivocally demonstrate the efficacy of ensemble learning in the context of Vietnamese scene text spotting in urban environments, highlighting its potential for real world applications, such as text detection and recognition in urban signage, advertisements, and various text-rich urban scenes.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# TSOM:鳥の視覚回路にインスパイアされた小型物体運動検出ニューラルネットワーク

TSOM: Small Object Motion Detection Neural Network Inspired by Avian Visual Circuit ( http://arxiv.org/abs/2404.00855v1 )

ライセンス: Link先を確認
Pignge Hu, Xiaoteng Zhang, Mengmeng Li, Yingjie Zhu, Li Shi, (参考訳) オーバーヘッドの観点から複雑な背景にある小さな移動物体を検出することは、マシンビジョンシステムにとって非常に難しい課題である。 自然界からのインスピレーションとして、鳥の視覚系は様々な複雑な空中シーンで運動情報を処理でき、その網膜-OT-Rt視覚回路は高高度から小さな物体の運動情報を捕捉するのに非常に敏感である。 しかし、鳥の視覚システムに基づく小さな物体の動き検出アルゴリズムでは、さらに多くのことを行う必要がある。 本稿では,網膜-OT-Rt視覚回路の生物学的機構に関する広範な研究に基づいて,数学的モデリングを行った。 そこで我々は,新しい触覚小物体運動検出ニューラルネットワーク(TSOM)を提案する。 神経ネットワークは、網膜、SGC樹状体、SGC SomaおよびRt層を含み、視覚経路のニューロンに対応する。 網膜層は入力内容を正確に投影し、SGC樹状層は空間時間情報を知覚して符号化し、SGCソマ層は複雑な動き情報を計算して小さな物体を抽出し、Rt層は複数の方向から運動情報を統合して復号し、小さな物体の位置を決定する。 TSOMは生物学的に解釈可能であり、複雑な高高度背景から信頼性の高い小さな物体の運動特徴を抽出するのに有効であることを示した。

Detecting small moving objects in complex backgrounds from an overhead perspective is a highly challenging task for machine vision systems. As an inspiration from nature, the avian visual system is capable of processing motion information in various complex aerial scenes, and its Retina-OT-Rt visual circuit is highly sensitive to capturing the motion information of small objects from high altitudes. However, more needs to be done on small object motion detection algorithms based on the avian visual system. In this paper, we conducted mathematical modeling based on extensive studies of the biological mechanisms of the Retina-OT-Rt visual circuit. Based on this, we proposed a novel tectum small object motion detection neural network (TSOM). The neural network includes the retina, SGC dendritic, SGC Soma, and Rt layers, each layer corresponding to neurons in the visual pathway. The Retina layer is responsible for accurately projecting input content, the SGC dendritic layer perceives and encodes spatial-temporal information, the SGC Soma layer computes complex motion information and extracts small objects, and the Rt layer integrates and decodes motion information from multiple directions to determine the position of small objects. Extensive experiments on pigeon neurophysiological experiments and image sequence data showed that the TSOM is biologically interpretable and effective in extracting reliable small object motion features from complex high-altitude backgrounds.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# 可変長ソフトポーリングを用いた音声表現からの話者情報の除去

Removing Speaker Information from Speech Representation using Variable-Length Soft Pooling ( http://arxiv.org/abs/2404.00856v1 )

ライセンス: Link先を確認
Injune Hwang, Kyogu Lee, (参考訳) 近年,音声合成のための自己教師型フレームワークを用いて,音声の言語情報を符号化する取り組みが進められている。 しかし、周囲の表現から表現を予測することは、音声表現において不注意に話者情報を絡めることがある。 本研究の目的は、明瞭な境界を持つ音素のような独立した単位からなる音声の構造的性質を利用して、話者情報を除去することである。 ニューラルネットワークはこれらの境界を予測し、固定レートメソッドの代わりにイベントベースの表現抽出のための可変長プーリングを可能にする。 境界予測器は、0と1の境界の確率を出力し、プーリングをソフトにする。 このモデルは、タイムストレッチとピッチシフトによって強化されたデータのプール表現との違いを最小限に抑えるよう訓練されている。 学習した表現が内容情報を含み、話者情報とは無関係であることを確認するため、リブリライトの音声ABXタスクとSUPERBの話者識別タスクを用いてモデルの評価を行った。

Recently, there have been efforts to encode the linguistic information of speech using a self-supervised framework for speech synthesis. However, predicting representations from surrounding representations can inadvertently entangle speaker information in the speech representation. This paper aims to remove speaker information by exploiting the structured nature of speech, composed of discrete units like phonemes with clear boundaries. A neural network predicts these boundaries, enabling variable-length pooling for event-based representation extraction instead of fixed-rate methods. The boundary predictor outputs a probability for the boundary between 0 and 1, making pooling soft. The model is trained to minimize the difference with the pooled representation of the data augmented by time-stretch and pitch-shift. To confirm that the learned representation includes contents information but is independent of speaker information, the model was evaluated with libri-light's phonetic ABX task and SUPERB's speaker identification task.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# CLIPに基づくポイントクラウド分類のための動的タスクサンプリングによるメタエピソード学習

Meta Episodic learning with Dynamic Task Sampling for CLIP-based Point Cloud Classification ( http://arxiv.org/abs/2404.00857v1 )

ライセンス: Link先を確認
Shuvozit Ghose, Yang Wang, (参考訳) ポイントクラウド分類は、ポイントクラウドデータ構造内の個々のポイントにセマンティックラベルやカテゴリを割り当てるプロセスを指す。 最近の研究は、事前訓練されたCLIPから3D認識への拡張を探求している。 この方向では、PointCLIPやCLIP2PointといったCLIPベースのポイントクラウドモデルが、数ショットのセットアップで最先端のメソッドになっている。 これらの手法は、飛行機、机、ギターなどの一部のクラスでは有望なパフォーマンスを示すが、カップ、花鍋、シンク、ナイトスタンドなど一部のクラスでは、まだ満足できない。 これは、CLIPベースのモデルのアダプタが、標準教師付き学習設定においてランダムにサンプル化されたNウェイKショットデータを用いて訓練されているためである。 本稿では,CLIPベースのポイントクラウド分類のためのメタエポゾディック学習フレームワークを提案する。 さらに,パフォーマンスメモリに基づく動的タスクサンプリングも導入する。 このサンプリング戦略は、未知のクラスをサンプリングすることの課題に効果的に対処し、モデルが多様なクラスから学習し、未表現のカテゴリの探索を促進する。 パフォーマンスメモリを動的に更新することにより、パフォーマンスに基づいてクラスのサンプリングを適応的に優先順位付けし、挑戦的で現実的なシナリオを扱うモデルの能力を高めます。 実験では、ModelNet40とScanobjectNNデータセットを数ショットで平均3~6倍のパフォーマンス向上を示す。

Point cloud classification refers to the process of assigning semantic labels or categories to individual points within a point cloud data structure. Recent works have explored the extension of pre-trained CLIP to 3D recognition. In this direction, CLIP-based point cloud models like PointCLIP, CLIP2Point have become state-of-the-art methods in the few-shot setup. Although these methods show promising performance for some classes like airplanes, desks, guitars, etc, the performance for some classes like the cup, flower pot, sink, nightstand, etc is still far from satisfactory. This is due to the fact that the adapter of CLIP-based models is trained using randomly sampled N-way K-shot data in the standard supervised learning setup. In this paper, we propose a novel meta-episodic learning framework for CLIP-based point cloud classification, addressing the challenges of limited training examples and sampling unknown classes. Additionally, we introduce dynamic task sampling within the episode based on performance memory. This sampling strategy effectively addresses the challenge of sampling unknown classes, ensuring that the model learns from a diverse range of classes and promotes the exploration of underrepresented categories. By dynamically updating the performance memory, we adaptively prioritize the sampling of classes based on their performance, enhancing the model's ability to handle challenging and real-world scenarios. Experiments show an average performance gain of 3-6\% on ModelNet40 and ScanobjectNN datasets in a few-shot setup.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# 言語モデルは将来のトークンを計画していますか?

Do language models plan ahead for future tokens? ( http://arxiv.org/abs/2404.00859v1 )

ライセンス: Link先を確認
Wilson Wu, John X. Morris, Lionel Levine, (参考訳) トランスフォーマーは、特定の位置での推論中に“前方”を考えるか? トランスフォーマーは、フォワードパスの隠された状態の情報を$t$で準備し、将来のフォワードパス$t+\tau$で使用される。 この現象の2つの説明は、トレーニング中に非対角勾配項が現れると、現在の推論タスクとは無関係に$t$となるが、将来に役立つモデル計算機能と、時間ステップ $t$ に最も関係のある特徴が、時刻 $t+\tau$ に最も恩恵を受けるものと同じものであるパンクラムである。 我々はこれらの仮説を過去の時間ステップに勾配を伝播させることなく言語モデルを訓練することで検証する。 合成データ設定では、プリキャッシュの明確な証拠が見つかる。 自己回帰言語モデリング設定では、我々の実験はパンクラムス仮説をより示唆している。

Do transformers "think ahead" during inference at a given position? It is known transformers prepare information in the hidden states of the forward pass at $t$ that is then used in future forward passes $t+\tau$. We posit two explanations for this phenomenon: pre-caching, in which off-diagonal gradient terms present in training result in the model computing features at $t$ irrelevant to the present inference task but useful for the future, and breadcrumbs, in which features most relevant to time step $t$ are already the same as those that would most benefit inference at time $t+\tau$. We test these hypotheses by training language models without propagating gradients to past timesteps, a scheme we formalize as myopic training. In a synthetic data setting, we find clear evidence for pre-caching. In the autoregressive language modeling setting, our experiments are more suggestive of the breadcrumbs hypothesis.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# Lipsum-FT:ランダムテキスト誘導を用いたゼロショットモデルのロバスト微調整

Lipsum-FT: Robust Fine-Tuning of Zero-Shot Models Using Random Text Guidance ( http://arxiv.org/abs/2404.00860v1 )

ライセンス: Link先を確認
Giung Nam, Byeongho Heo, Juho Lee, (参考訳) 大規模なコントラスト付き視覚言語事前学習モデルは、下流データでのトレーニングを必要とせずに、様々な画像分類タスクの競合性能を達成するゼロショットモデルを提供する。 近年の研究では、参照データにゼロショットモデルを追加することで、下流のパフォーマンスが向上する一方で、分散シフトに対するモデルの堅牢性を損なうことが確認されている。 本研究は, 特徴歪み理論と連立エネルギーモデルに基づく記述を用いて, 頑健な微調整の目標を達成するために必要な条件を検討することから始まる。 次に,視覚言語事前学習モデルの言語モデリングを効果的に活用する,頑健な微調整アルゴリズムLipsum-FTを提案する。 DomainNet と ImageNet における分布シフトのシナリオに関する大規模な実験により,既存の頑健な微調整法よりもLipsum-FT アプローチの方が優れていることを確認した。

Large-scale contrastive vision-language pre-trained models provide the zero-shot model achieving competitive performance across a range of image classification tasks without requiring training on downstream data. Recent works have confirmed that while additional fine-tuning of the zero-shot model on the reference data results in enhanced downstream performance, it compromises the model's robustness against distribution shifts. Our investigation begins by examining the conditions required to achieve the goals of robust fine-tuning, employing descriptions based on feature distortion theory and joint energy-based models. Subsequently, we propose a novel robust fine-tuning algorithm, Lipsum-FT, that effectively utilizes the language modeling aspect of the vision-language pre-trained models. Extensive experiments conducted on distribution shift scenarios in DomainNet and ImageNet confirm the superiority of our proposed Lipsum-FT approach over existing robust fine-tuning methods.
翻訳日:2024-04-04 01:31:23 公開日:2024-04-01
# Bailong: QLoRAとZip-tieの埋め込みに基づくバイリンガルトランスファー学習

Bailong: Bilingual Transfer Learning based on QLoRA and Zip-tie Embedding ( http://arxiv.org/abs/2404.00862v1 )

ライセンス: Link先を確認
Lung-Chuan Chen, Zong-Ru Li, (参考訳) 大規模言語モデル (LLM) は様々なNLPアプリケーションにおいて例外的な性能を示した。 しかし、既存のオープンソース LLM の大部分は、主に英語のデータと他言語のほとんどに基づいて事前訓練されている。 この多言語学習データの欠如は、利用可能なリソースが少ない言語に適用した場合、最適以下の性能をもたらす。 さらに,低リソース言語におけるLLMの性能を向上させるために,新たなデータを用いたフルパラメータ細調整を行うには,かなりの計算資源が必要であり,研究機関や個々の研究者にとって計算障壁が生じる。 その結果、これらの課題に対処するため、パラメータ効率の調整や高度な埋め込み初期化といったいくつかの手法が提案されている。 本研究では,これらを組み合わせて,英語が支配するオープンソース LLM 上での言語間移動を容易にする。 従来の中国語におけるモデルの習熟度を効果的に向上するために,QLoRAと提案したzip-tie埋め込み初期化を利用して,従来の中国語データを用いたLlama 2 7Bの二次事前学習を行う。 Bailongと呼ばれるこのモデルは、qLOraとzip-tiebeddiNGをベースにしたBilingual trAnsfer learnIngを表す。 マルチターン対話シナリオに最適化されたBailong-instruct 7Bの微調整版であるBailong-instruct 7Bを提案する。 従来の中国語におけるベンチマークデータセットの不十分さを認識し,人選好によるモデルのアライメントと,従来の中国語と英語のタスクにおける指示に従う能力を評価するために,Bailong-benchを導入する。 評価では,Bailong-instruct 7BはBailong-benchや他のベンチマークデータセットに対して,類似あるいはそれ以上のパラメータサイズを持つ他のオープンソースモデルと比較して,競合性能を示す。 Bailong-instruct 7B と Bailong-bench は、コミュニティに我々の努力を基盤として、公開されています。

Large language models (LLMs) have demonstrated exceptional performance in various NLP applications. However, the majority of existing open-source LLMs are pre-trained primarily on English data and little part of other languages. This deficiency in multilingual training data results in suboptimal performance when applied to languages with fewer available resources. Furthermore, enhancing the performance of LLMs on low-resource languages by full-parameter fine-tuning with additional data requires substantial computational resources, posing computational barriers for research organizations and individual researchers. Consequently, several techniques such as parameter-efficient tuning and advanced embedding initialization have been proposed to address these challenges. In this work, we combine them to facilitate cross-lingual transfer on English-dominated open-source LLM. To effectively enhance the model's proficiency in Traditional Chinese, we conduct secondary pre-training on Llama 2 7B with Traditional Chinese data by leveraging QLoRA and our proposed zip-tie embedding initialization. The resulting model called Bailong, which stands for Bilingual trAnsfer learnIng based on qLOra and zip-tie embeddiNG. We present Bailong-instruct 7B, a fine-tuned version of Bailong 7B optimized for multi-turn dialogue scenarios. Recognizing the inadequacy of benchmark datasets in Traditional Chinese, we further introduce Bailong-bench to assess the alignment of models with human preferences and the capability to follow instructions in both Traditional Chinese and English tasks. In our evaluation, Bailong-instruct 7B exhibits competitive performance on Bailong-bench and other benchmark datasets when compared to other open-source models of similar or even larger parameter sizes. Bailong-instruct 7B and Bailong-bench are publicly available with the aim of empowering the community to build upon our efforts.
翻訳日:2024-04-03 23:36:01 公開日:2024-04-01
# サイバーセキュリティ実験とトレーニングのためのスマートグリッドサイバーレンジの自動生成に向けて

Towards Automated Generation of Smart Grid Cyber Range for Cybersecurity Experiments and Training ( http://arxiv.org/abs/2404.00869v1 )

ライセンス: Link先を確認
Daisuke Mashima, Muhammad M. Roomi, Bennet Ng, Zbigniew Kalbarczyk, S. M. Suhail Hussain, Ee-chien Chang, (参考訳) スマートパワーグリッドシステムの信頼性とレジリエンスを確保するためには、サイバーセキュリティの保証が不可欠である。 サイバー攻撃の可能性を評価し、サイバーセキュリティ対策の展開性と効果を評価し、個人によるハンズオン演習とトレーニングを可能にするために、スマートグリッドシステム、すなわちスマートグリッドサイバーレンジの振る舞いをエミュレートする対話型仮想環境が、業界関係者や学術者から要求されている。 スマートグリッドのサイバー範囲は一般的に、対話性を可能にするサイバーシステムエミュレーションと、一貫したサイバーおよび物理的振る舞いに密結合した物理的システム(パワーグリッド)シミュレーションの組み合わせとして実装される。 しかし、その設計と実装は、ソフトウェア/システム工学だけでなく、スマートパワーシステムのサイバーおよび物理的側面の集中的な専門知識と努力を必要とする。 電力グリッドオペレーター、デバイスベンダー、研究および教育部門を含む多くの業界プレーヤーが関心を持っているが、スマートグリッドサイバーレンジの可用性は少数の研究所に限られている。 この課題に対処するため、我々はSG-MLと呼ばれるXMLベースの言語を用いてスマートグリッドサイバーレンジをモデル化し、最小限のエンジニアリング努力で運用サイバーレンジにモデルを"コンパイル"するためのフレームワークを開発した。 モデリング言語には、IEC 61850とIEC 61131の標準化されたスキーマが含まれており、業界のプレイヤーが既存の構成を利用できる。 SG-MLフレームワークは、サイバーセキュリティのR&Dとハンズオン演習を促進するために、より広範なユーザベースにスマートグリッドサイバーレンジを提供することを目標としている。

Assurance of cybersecurity is crucial to ensure dependability and resilience of smart power grid systems. In order to evaluate the impact of potential cyber attacks, to assess deployability and effectiveness of cybersecurity measures, and to enable hands-on exercise and training of personals, an interactive, virtual environment that emulates the behaviour of a smart grid system, namely smart grid cyber range, has been demanded by industry players as well as academia. A smart grid cyber range is typically implemented as a combination of cyber system emulation, which allows interactivity, and physical system (i.e., power grid) simulation that are tightly coupled for consistent cyber and physical behaviours. However, its design and implementation require intensive expertise and efforts in cyber and physical aspects of smart power systems as well as software/system engineering. While many industry players, including power grid operators, device vendors, research and education sectors are interested, availability of the smart grid cyber range is limited to a small number of research labs. To address this challenge, we have developed a framework for modelling a smart grid cyber range using an XML-based language, called SG-ML, and for "compiling" the model into an operational cyber range with minimal engineering efforts. The modelling language includes standardized schema from IEC 61850 and IEC 61131, which allows industry players to utilize their existing configurations. The SG-ML framework aims at making a smart grid cyber range available to broader user bases to facilitate cybersecurity R\&D and hands-on exercises.
翻訳日:2024-04-03 23:36:01 公開日:2024-04-01
# 2モードブライトスクイーズ光を用いた吸収・利得パラメータの量子メトロロジー

Quantum Metrology of Absorption and Gain Parameters using Two-Mode Bright Squeezed Light ( http://arxiv.org/abs/2404.00871v1 )

ライセンス: Link先を確認
Mrunal Kamble, Jiaxuan Wang, Girish S. Agarwal, (参考訳) 吸収と利得のプロセスは光-物質相互作用の基本であり、これらのパラメータの精密な測定は様々な科学的・技術的応用において重要である。 量子プローブ、特に圧縮された状態は、特に位相シフトや力の測定を扱う用途で非常に成功した。 本稿では,弱吸収媒体の光子損失係数の推定の感度向上と,2モードの明るい励起状態を用いた利得パラメータの推定に焦点をあてる。 この状態の生成は、その大きな光子数に対するコヒーレントビームの利点と、光学パラメトリック増幅器における2モードのスクイーズ動作の量子的性質を組み合わせている。 両モードとも2モードの鮮やかなシャープ光を利用して、平衡光検出と時間反転のメロロジーの2つの測定手法を提案する。 2モードの明るい励起光で得られる最大の量子優位性は、吸収パラメータ$\alpha = 0.05$に対して3.7倍、$\alpha = 0.01$に対して8.4倍である。 同様に、光学利得推定の最大量子優位性は利得係数$G=1.05$の約2.81倍、利得係数$G=1.01$の約6.28倍である。 我々は,異なる条件下で,一方の計測方式を他方に対して用いることの重要性について論じる。 我々は,提案手法の質を評価するために,2モードの鮮やかな圧縮状態に対するCram\'er-Rao境界との比較を行った。

Absorption and gain processes are fundamental to any light-matter interaction and a precise measurement of these parameters is important for various scientific and technological applications. Quantum probes, specifically the squeezed states have proved very successful, particularly in the applications that deal with phase shift and force measurements. In this paper, we focus on improving the sensitivity of the estimation of the photon loss coefficient of a weakly absorbing medium as well as the estimation of the gain parameter using a two-mode bright squeezed state. The generation of this state combines the advantage of a coherent beam for its large photon number with the quantum properties of the two-mode squeezing operation in an optical parametric amplifier. We present two measurement schemes: balanced photodetection and time-reversed metrology, both utilizing two-mode bright squeezed light. The maximum quantum advantage we can achieve using two-mode bright squeezed light is 3.7 times for the absorption parameter $\alpha = 0.05$ and 8.4 times for $\alpha = 0.01$ as compared to using only the coherent state. Similarly, the maximum quantum advantage for the estimation of optical gain is found around 2.81 times for the gain coefficient $G=1.05$ and around 6.28 times for $G=1.01$. We discuss the significance of using one measurement scheme over the other under different squeezing conditions. We compare our results with the Cram\'er-Rao bound for a two-mode bright squeezed state to assess the quality of the proposed methodologies.
翻訳日:2024-04-03 23:36:01 公開日:2024-04-01
# DiSR-NeRF:拡散誘導型高分解能NRF

DiSR-NeRF: Diffusion-Guided View-Consistent Super-Resolution NeRF ( http://arxiv.org/abs/2404.00874v1 )

ライセンス: Link先を確認
Jie Long Lee, Chen Li, Gim Hee Lee, (参考訳) 本稿では、ビュー一貫性超解像(SR)NeRFのための拡散誘導フレームワークであるDiSR-NeRFを提案する。 従来と異なり,既存の高解像度2次元超解像モデルを活用することで,高解像度(HR)参照画像の要求を回避する。 それでも、独立したSR 2D画像は、しばしば異なる視点で矛盾する。 そこで我々は,NeRFの固有多視点整合性によって不整合問題を緩和するために,I3DS(Iterative 3D Synchronization)を提案する。 特に、我々のI3DSは、高解像度(LR)レンダリング画像を拡散モデルで置き換え、基礎となる3D表現を標準のNeRFトレーニングで更新する。 さらに2次元画像分解のための新しいスコア蒸留目標であるRenoised Score Distillation (RSD)を紹介する。 我々のRSDは、祖先サンプリングとSDS(Score Distillation Sampling)の機能を組み合わせて、LR一貫性のあるシャープな画像を生成する。 合成と実世界の両方のデータセットの質的および定量的な結果から、我々のDiSR-NeRFは、既存の研究と比較して、NeRF超解像においてより良い結果が得られることが示される。 コードとビデオはプロジェクトのWebサイトで公開されている。

We present DiSR-NeRF, a diffusion-guided framework for view-consistent super-resolution (SR) NeRF. Unlike prior works, we circumvent the requirement for high-resolution (HR) reference images by leveraging existing powerful 2D super-resolution models. Nonetheless, independent SR 2D images are often inconsistent across different views. We thus propose Iterative 3D Synchronization (I3DS) to mitigate the inconsistency problem via the inherent multi-view consistency property of NeRF. Specifically, our I3DS alternates between upscaling low-resolution (LR) rendered images with diffusion models, and updating the underlying 3D representation with standard NeRF training. We further introduce Renoised Score Distillation (RSD), a novel score-distillation objective for 2D image resolution. Our RSD combines features from ancestral sampling and Score Distillation Sampling (SDS) to generate sharp images that are also LR-consistent. Qualitative and quantitative results on both synthetic and real-world datasets demonstrate that our DiSR-NeRF can achieve better results on NeRF super-resolution compared with existing works. Code and video results available at the project website.
翻訳日:2024-04-03 23:36:01 公開日:2024-04-01
# MGMap: オンラインベクトルHDマップ構築のためのマスクガイド学習

MGMap: Mask-Guided Learning for Online Vectorized HD Map Construction ( http://arxiv.org/abs/2404.00876v1 )

ライセンス: Link先を確認
Xiaolu Liu, Song Wang, Wentong Li, Ruizi Yang, Junbo Chen, Jianke Zhu, (参考訳) 現在,ハイデフィニション(HD)マップの構築は,タイムリーで信頼性の高い道路景観情報を維持することを目的とした,軽量なオンライン生成傾向に傾いている。 しかし、地図要素は強い形を持つ。 サブセットとスパースアノテーションにより、現在の検出ベースのフレームワークは、関連する機能スコープの特定において曖昧になり、予測において詳細な構造が失われる。 これらの問題を緩和するために,情報領域を効果的に強調し,学習マスクを導入して正確な地図要素のローカライゼーションを実現するためのMGMapを提案する。 具体的には、MGMapは2つの観点から強化されたマルチスケールBEV機能に基づいて学習マスクを採用する。 インスタンスレベルでは、グローバルインスタンスと構造情報をインスタンスマスクのアクティベートによってインスタンスクエリに組み込む、Mask-activated instance (MAI)デコーダを提案する。 ポイントレベルでは、位置誘導マスクパッチリファインメント(PG-MPR)モジュールは、よりきめ細かい視点からポイント位置を洗練し、ポイント固有のパッチ情報の抽出を可能にするように設計されている。 ベースラインと比較して,提案したMGMapは,入力モードが異なる場合,約10mAPの顕著な改善を実現している。 大規模な実験は、我々のアプローチが強い堅牢性と一般化能力を示すことも示している。 私たちのコードはhttps://github.com/xiaolul2/MGMapで確認できます。

Currently, high-definition (HD) map construction leans towards a lightweight online generation tendency, which aims to preserve timely and reliable road scene information. However, map elements contain strong shape priors. Subtle and sparse annotations make current detection-based frameworks ambiguous in locating relevant feature scopes and cause the loss of detailed structures in prediction. To alleviate these problems, we propose MGMap, a mask-guided approach that effectively highlights the informative regions and achieves precise map element localization by introducing the learned masks. Specifically, MGMap employs learned masks based on the enhanced multi-scale BEV features from two perspectives. At the instance level, we propose the Mask-activated instance (MAI) decoder, which incorporates global instance and structural information into instance queries by the activation of instance masks. At the point level, a novel position-guided mask patch refinement (PG-MPR) module is designed to refine point locations from a finer-grained perspective, enabling the extraction of point-specific patch information. Compared to the baselines, our proposed MGMap achieves a notable improvement of around 10 mAP for different input modalities. Extensive experiments also demonstrate that our approach showcases strong robustness and generalization capabilities. Our code can be found at https://github.com/xiaolul2/MGMap.
翻訳日:2024-04-03 23:36:01 公開日:2024-04-01
# BCFTのレゴで量子時空を作る

Building up quantum spacetimes with BCFT Legos ( http://arxiv.org/abs/2404.00877v1 )

ライセンス: Link先を確認
Ling-Yan Hung, Yikun Jiang, (参考訳) 作用素代数から直接 CFT の量子重力双対を読み取ることは可能か? 本稿では,共形ブートストラップ,トポロジカル対称性,テンソルネットワーク,格子モデルで考案された新しい対称性保存型実空間再正規化アルゴリズム,量子6.j$シンボルの漸近性について述べる。 量子2Dリウヴィル理論(Quantum 2D Liouville theory)は単純で明示的な例であり、BCFT相関関数の局所的な部分から量子重力経路積分を構築する方法を示し、'BCFT Legos' と呼ぶ。 重力と CFT の間の構成的写像は局所幾何学的データ、代数的構造、量子絡み合いを自然に橋渡しし、これは \, Qubit}$ motto から $\it{It \, from \, Qubit}$ motto で想定される。

Is it possible to read off the quantum gravity dual of a CFT directly from its operator algebra? In this essay, we present a step-by-step recipe synthesizing results and techniques from conformal bootstrap, topological symmetries, tensor networks, a novel symmetry-preserving real-space renormalization algorithm devised originally in lattice models, and the asymptotics of quantum $6j$ symbols, thereby providing an answer in the affirmative. Quantum 2D Liouville theory serves as a simple and explicit example, illustrating how the quantum gravitational path integral can be built up from local pieces of BCFT correlation functions, which we call the ``BCFT Legos''. The constructive map between gravity and CFT naturally and explicitly bridges local geometrical data, algebraic structures, and quantum entanglement, as envisaged by the $\it{It \, from \, Qubit}$ motto.
翻訳日:2024-04-03 23:36:00 公開日:2024-04-01
# TryOn-Adapter: 高忠実度仮想トライオンのための効率的なファイングラニング・アイデンティティ・アダプタ

TryOn-Adapter: Efficient Fine-Grained Clothing Identity Adaptation for High-Fidelity Virtual Try-On ( http://arxiv.org/abs/2404.00878v1 )

ライセンス: Link先を確認
Jiazheng Xing, Chao Xu, Yijie Qian, Yang Liu, Guang Dai, Baigui Sun, Yong Liu, Jingdong Wang, (参考訳) 仮想試着は、衣服のパターンやテクスチャの歪みを避けながら、特定の人物にシームレスにフィットするように、所定の衣服を調整することに焦点を当てる。 しかし, 完全パラメータトレーニングにおいてもアイデンティティの維持に苦慮する既存拡散法では, 衣料のアイデンティティの制御不能とトレーニングの非効率性は, 幅広い応用を妨げる重要な限界である。 本研究では,TryOn-Adapterと呼ばれる効果的で効率的なフレームワークを提案する。 具体的には、まず衣服のアイデンティティを、色とカテゴリ情報のスタイル、高周波の詳細のテクスチャ、スムーズな空間適応変換のための構造という、きめ細かな要素に分解する。 提案手法では,注意層を除くパラメータを凍結した基本ネットワークとして,事前学習した模擬拡散モデルを用いる。 次に、3つの軽量モジュール(スタイル保存、テクスチャハイライト、構造適応)を微調整技術でカスタマイズし、正確かつ効率的なアイデンティティ制御を実現します。 一方,トレーニングフリーのT-RePaint戦略を導入し,衣服の身元管理をさらに強化するとともに,推論時のリアルな試行効果を維持した。 提案手法は, 広く利用されている2つのベンチマークにおいて, 最先端の性能を実現することを実証した。 さらに、最近のフルチューニング拡散法と比較して、トレーニング中に調整可能なパラメータの約半分しか使用していない。 コードはhttps://github.com/jiazheng-xing/TryOn-Adapter.comで公開される。

Virtual try-on focuses on adjusting the given clothes to fit a specific person seamlessly while avoiding any distortion of the patterns and textures of the garment. However, the clothing identity uncontrollability and training inefficiency of existing diffusion-based methods, which struggle to maintain the identity even with full parameter training, are significant limitations that hinder the widespread applications. In this work, we propose an effective and efficient framework, termed TryOn-Adapter. Specifically, we first decouple clothing identity into fine-grained factors: style for color and category information, texture for high-frequency details, and structure for smooth spatial adaptive transformation. Our approach utilizes a pre-trained exemplar-based diffusion model as the fundamental network, whose parameters are frozen except for the attention layers. We then customize three lightweight modules (Style Preserving, Texture Highlighting, and Structure Adapting) incorporated with fine-tuning techniques to enable precise and efficient identity control. Meanwhile, we introduce the training-free T-RePaint strategy to further enhance clothing identity preservation while maintaining the realistic try-on effect during the inference. Our experiments demonstrate that our approach achieves state-of-the-art performance on two widely-used benchmarks. Additionally, compared with recent full-tuning diffusion-based methods, we only use about half of their tunable parameters during training. The code will be made publicly available at https://github.com/jiazheng-xing/TryOn-Adapter.
翻訳日:2024-04-03 23:36:00 公開日:2024-04-01
# 拡散モデルにおけるモデル非依存の人差インバージョン

Model-Agnostic Human Preference Inversion in Diffusion Models ( http://arxiv.org/abs/2404.00879v1 )

ライセンス: Link先を確認
Jeeyung Kim, Ze Wang, Qiang Qiu, (参考訳) 拡散モデルにおける多段階サンプリングに伴う計算コストが高いため、効率的なテキスト・画像生成は依然として難しい課題である。 プレトレーニング拡散モデルの蒸留はサンプリング工程の短縮に成功しているが,低ステップ画像生成は品質面では不十分であることが多い。 本研究では,人間の好みに合わせた高品質なワンステップ画像生成を実現するための新しいサンプリング設計を提案する。 提案手法であるPrompt Adaptive Human Preference Inversion (PAHI) は、微調整拡散モデルを必要としない人間の好みに基づいて各プロンプトの雑音分布を最適化する。 実験により, 調整したノイズ分布は, 計算コストを極端に増加させるだけで, 画像品質を著しく向上させることを示した。 本研究は,高効率で高品質なテキスト・ツー・イメージ合成を実現するために,ノイズ最適化の重要性を強調した。

Efficient text-to-image generation remains a challenging task due to the high computational costs associated with the multi-step sampling in diffusion models. Although distillation of pre-trained diffusion models has been successful in reducing sampling steps, low-step image generation often falls short in terms of quality. In this study, we propose a novel sampling design to achieve high-quality one-step image generation aligning with human preferences, particularly focusing on exploring the impact of the prior noise distribution. Our approach, Prompt Adaptive Human Preference Inversion (PAHI), optimizes the noise distributions for each prompt based on human preferences without the need for fine-tuning diffusion models. Our experiments showcase that the tailored noise distributions significantly improve image quality with only a marginal increase in computational cost. Our findings underscore the importance of noise optimization and pave the way for efficient and high-quality text-to-image synthesis.
翻訳日:2024-04-03 23:36:00 公開日:2024-04-01
# リカレントニューラルネットワークと非リカレントニューラルネットワークの関係を再考する:スパーシティの研究

Rethinking the Relationship between Recurrent and Non-Recurrent Neural Networks: A Study in Sparsity ( http://arxiv.org/abs/2404.00880v1 )

ライセンス: Link先を確認
Quincy Hershey, Randy Paffenroth, Harsh Pathak, Simon Tavener, (参考訳) ニューラルネットワーク(NN)は、リカレントと非リカレントという2つの広いカテゴリに分けられる。 どちらのタイプのニューラルネットワークも広く研究されているが、機械学習アルゴリズムの異なるファミリーとして扱われることが多い。 本論文では,これらの2種類のニューラルネットワークには,通常よりも密接な関係があることを論じる。 Recurrent Neural Networks (RNN)、Multi-Layer Perceptrons (MLP)、さらには深層トランスフォーマーなど、多くの一般的なニューラルネットワークモデルが反復写像として表現可能であることを示す。 RNNと他のタイプのNNとの密接な関係は驚くべきことではない。 特に、RNNはチューリング完全であることが知られており、従って計算可能な関数(他の種類のNNなど)を表現できる。 例えば、RNNは、他のタイプのNNよりも訓練が難しいと考えられており、RNNは、消失や爆発的な勾配といった問題に悩まされている。 しかし、本稿で示すように、MLP、RNN、その他の多くのNNは連続体の上にあり、この視点は、NNの理論的側面と実践的側面の両方を照らすいくつかの洞察につながります。

Neural networks (NN) can be divided into two broad categories, recurrent and non-recurrent. Both types of neural networks are popular and extensively studied, but they are often treated as distinct families of machine learning algorithms. In this position paper, we argue that there is a closer relationship between these two types of neural networks than is normally appreciated. We show that many common neural network models, such as Recurrent Neural Networks (RNN), Multi-Layer Perceptrons (MLP), and even deep multi-layer transformers, can all be represented as iterative maps. The close relationship between RNNs and other types of NNs should not be surprising. In particular, RNNs are known to be Turing complete, and therefore capable of representing any computable function (such as any other types of NNs), but herein we argue that the relationship runs deeper and is more practical than this. For example, RNNs are often thought to be more difficult to train than other types of NNs, with RNNs being plagued by issues such as vanishing or exploding gradients. However, as we demonstrate in this paper, MLPs, RNNs, and many other NNs lie on a continuum, and this perspective leads to several insights that illuminate both theoretical and practical aspects of NNs.
翻訳日:2024-04-03 23:36:00 公開日:2024-04-01
# 微分パラメトリックプログラミングのための演算子分割法の収束性向上のためのメトリックラーニング

Metric Learning to Accelerate Convergence of Operator Splitting Methods for Differentiable Parametric Programming ( http://arxiv.org/abs/2404.00882v1 )

ライセンス: Link先を確認
Ethan King, James Kotary, Ferdinando Fioretto, Jan Drgona, (参考訳) 最近の研究は、制約付き最適化問題の解を高速化するために機械学習を使用する様々な方法を示している。 人工知能や最適制御などのアプリケーションにおけるリアルタイム意思決定能力の需要の増加は、異なる戦略に基づく様々なアプローチにつながっている。 本研究は, 近似演算子分割アルゴリズムの基底となる距離空間を, 収束率を最大化するために学習する, 学習最適化の新しい手法を提案する。 最適化理論の以前の研究は、限られた問題のクラスに対して最適なメトリクスを導出してきたが、結果は一般的な二次計画法(英語版)(QP)を含む多くの実践的な問題形式にまで拡張されない。 本稿では,QP問題に対する近似アルゴリズムの収束度を,既知の理論に基づいてさらに高めることができることを示す。 さらに、学習した近位数と最適点におけるアクティブな制約との間の強い関係が示され、近位数に関する学習をアクティブな集合学習の一形態と見なすことができる解釈が導かれる。

Recent work has shown a variety of ways in which machine learning can be used to accelerate the solution of constrained optimization problems. Increasing demand for real-time decision-making capabilities in applications such as artificial intelligence and optimal control has led to a variety of approaches, based on distinct strategies. This work proposes a novel approach to learning optimization, in which the underlying metric space of a proximal operator splitting algorithm is learned so as to maximize its convergence rate. While prior works in optimization theory have derived optimal metrics for limited classes of problems, the results do not extend to many practical problem forms including general Quadratic Programming (QP). This paper shows how differentiable optimization can enable the end-to-end learning of proximal metrics, enhancing the convergence of proximal algorithms for QP problems beyond what is possible based on known theory. Additionally, the results illustrate a strong connection between the learned proximal metrics and active constraints at the optima, leading to an interpretation in which the learning of proximal metrics can be viewed as a form of active set learning.
翻訳日:2024-04-03 23:36:00 公開日:2024-04-01
# Anchor Graph Tensor Factorizationに基づく解釈可能なマルチビュークラスタリング

Interpretable Multi-View Clustering Based on Anchor Graph Tensor Factorization ( http://arxiv.org/abs/2404.00883v1 )

ライセンス: Link先を確認
Jing Li, Quanxue Gao, Cheng Deng, Qianqian Wang, Ming Yang, (参考訳) アンカーグラフに基づくクラスタリング手法は、異常なクラスタリング性能と大規模データ処理能力により注目されている。 一般的なアプローチの1つは、K接続されたコンポーネントで二部グラフを学習することであり、後処理の必要性を避けるのに役立つ。 しかし、この手法には厳密なパラメータ要求があり、必ずしもK連結成分を得るとは限らない。 この問題に対処するために、アンカーグラフ上で非負行列分解(NMF)を行うことでクラスタラベル行列を直接取得する方法がある。 それでも、アンカーグラフの分解に基づく既存のマルチビュークラスタリング手法は、分解された行列に対する適切なクラスタ解釈可能性に欠けており、しばしばビュー間の情報を見落としている。 複数のビューからアンカーグラフを合成するアンカーグラフテンソルを分解するために、非負のテンソル因子分解を用いることにより、この制限に対処する。 このアプローチは、ビュー間の情報を包括的に検討することを可能にする。 分解テンソル、すなわちサンプルインジケータテンソルとアンカーインジケータテンソルは、因子化の解釈可能性を高める。 大規模な実験により, 本手法の有効性が検証された。

The clustering method based on the anchor graph has gained significant attention due to its exceptional clustering performance and ability to process large-scale data. One common approach is to learn bipartite graphs with K-connected components, helping avoid the need for post-processing. However, this method has strict parameter requirements and may not always get K-connected components. To address this issue, an alternative approach is to directly obtain the cluster label matrix by performing non-negative matrix factorization (NMF) on the anchor graph. Nevertheless, existing multi-view clustering methods based on anchor graph factorization lack adequate cluster interpretability for the decomposed matrix and often overlook the inter-view information. We address this limitation by using non-negative tensor factorization to decompose an anchor graph tensor that combines anchor graphs from multiple views. This approach allows us to consider inter-view information comprehensively. The decomposed tensors, namely the sample indicator tensor and the anchor indicator tensor, enhance the interpretability of the factorization. Extensive experiments validate the effectiveness of this method.
翻訳日:2024-04-03 23:36:00 公開日:2024-04-01
# 自己記述: 大規模言語モデルにおける実証外一般化の回避

Self-Demos: Eliciting Out-of-Demonstration Generalizability in Large Language Models ( http://arxiv.org/abs/2404.00884v1 )

ライセンス: Link先を確認
Wei He, Shichun Liu, Jun Zhao, Yiwen Ding, Yi Lu, Zhiheng Xi, Tao Gui, Qi Zhang, Xuanjing Huang, (参考訳) 大規模言語モデル (LLM) は、インコンテキスト学習(ICL)の有望な能力を示し、数発のデモで新しいタスクに迅速に適応している。 しかし、現在の数ショットメソッドは、しばしば欠落している高品質のクエリ固有のデモに大きく依存している。 デモ外(OOD)クエリに直面すると、手作りのデモや外部レトリバーに依存するメソッドが失敗する可能性がある。 限定的なデモとOODクエリのギャップを埋めるため,クエリ対応のデモ生成によってLLMに固有の一般化性をもたらす新しいプロンプト手法であるSelf-Demosを提案する。 生成されたデモは、既存のデモと所定のクエリを戦略的に補間し、クエリをOODからIDに変換する。 提案手法の有効性を評価するため,300以上の実世界のAPIと1000以上のインスタンスを持つツールシナリオのデータセットであるOOD-Toolsetを手作業で構築した。 我々のデータセットと2つの公開数学ベンチマークの詳細な実験により、OOD設定における最先端のベースラインよりも優れた結果が得られた。 さらに,Self-Demosの一般化を検証し,さらなる洞察を提供するために,さまざまな分析を行う。

Large language models (LLMs) have shown promising abilities of in-context learning (ICL), adapting swiftly to new tasks with only few-shot demonstrations. However, current few-shot methods heavily depend on high-quality, query-specific demos, which are often lacking. When faced with out-of-demonstration (OOD) queries, methods that rely on hand-crafted demos or external retrievers might fail. To bridge the gap between limited demos and OOD queries, we propose Self-Demos, a novel prompting method that elicits the inherent generalizability in LLMs by query-aware demo generation. The generated demos strategically interpolate between existing demos and the given query, transforming the query from OOD to ID. To evaluate the effectiveness of our approach, we manually constructed OOD-Toolset, a dataset in the tool-using scenario with over 300 real-world APIs and 1000 instances, each consisting of three tool-use cases as demos and an OOD query. Thorough experiments on our dataset and two public math benchmarks have shown that our method can outperform state-of-the-art baselines in the OOD setting. Moreover, we conduct a range of analyses to validate Self-Demos's generalization and provide more insights.
翻訳日:2024-04-03 23:36:00 公開日:2024-04-01
# フィードバック機構を持つマルチタスク学習における出力レベルタスク関連性のモデル化

Modeling Output-Level Task Relatedness in Multi-Task Learning with Feedback Mechanism ( http://arxiv.org/abs/2404.00885v1 )

ライセンス: Link先を確認
Xiangming Xi, Feng Gao, Jun Xu, Fangtai Guo, Tianlei Jin, (参考訳) マルチタスク学習(MTL)は、異なるレベルで情報を共有し、個々のタスクのパフォーマンスを向上させることで、複数のタスクを同時に学習するパラダイムである。 従来の研究では,特徴レベルのタスク関連性やパラメータレベルのタスク関連性に着目し,学習性能を向上させるための様々なモデルアーキテクチャと学習アルゴリズムを提案してきたが,本研究は出力レベルのタスク関連性を探究することを目的としている。 このアプローチは、異なるタスクが相互の影響で相関した出力を生成する可能性があることを考慮し、後続情報をモデルに導入する。 フィードバック機構をMPLモデルに組み込むことで、あるタスクの出力が他のタスクの隠れ機能として機能し、静的MLLモデルを動的モデルに変換する。 トレーニングプロセスの収束を保証するため,各イテレーション中のタスクのアウトプットの傾向を計測する収束損失を導入する。 さらに,フィードバック信号の最適投影を決定するためのガムベルゲーティング機構を提案する。 提案手法の有効性を検証し,複数のベースラインモデルを用いた音声言語理解実験により評価する。

Multi-task learning (MTL) is a paradigm that simultaneously learns multiple tasks by sharing information at different levels, enhancing the performance of each individual task. While previous research has primarily focused on feature-level or parameter-level task relatedness, and proposed various model architectures and learning algorithms to improve learning performance, we aim to explore output-level task relatedness. This approach introduces a posteriori information into the model, considering that different tasks may produce correlated outputs with mutual influences. We achieve this by incorporating a feedback mechanism into MTL models, where the output of one task serves as a hidden feature for another task, thereby transforming a static MTL model into a dynamic one. To ensure the training process converges, we introduce a convergence loss that measures the trend of a task's outputs during each iteration. Additionally, we propose a Gumbel gating mechanism to determine the optimal projection of feedback signals. We validate the effectiveness of our method and evaluate its performance through experiments conducted on several baseline models in spoken language understanding.
翻訳日:2024-04-03 23:36:00 公開日:2024-04-01
# MTLight:交通信号制御のための効率的なマルチタスク強化学習

MTLight: Efficient Multi-Task Reinforcement Learning for Traffic Signal Control ( http://arxiv.org/abs/2404.00886v1 )

ライセンス: Link先を確認
Liwen Zhu, Peixi Peng, Zongqing Lu, Yonghong Tian, (参考訳) 交通信号の制御は、近代都市における交通渋滞の緩和に大きな影響を及ぼす。 近年、深部強化学習(RL)がこの課題に広く使われており、有望な性能を示す一方で、限られた性能やサンプル非効率といった多くの課題に直面している。 これらの課題に対処するため、MTLightは、多数の交通指標から学習した潜伏状態によるエージェント観測を強化するために提案されている。 一方、潜在状態を学習するために複数の補助的・監督的タスクを構築し、タスク固有特徴とタスク共有特徴の2種類の埋め込み潜時特徴を用いて潜時状態をより豊かにする。 CityFlowで実施された大規模な実験は、MTLightが収束速度と漸近性能を導くことを示した。 さらに,制御の困難さを増し,すべてのシナリオにおいてピーク時のパターンをシミュレートし,MTLightの適応性が高いことを示す。

Traffic signal control has a great impact on alleviating traffic congestion in modern cities. Deep reinforcement learning (RL) has been widely used for this task in recent years, demonstrating promising performance but also facing many challenges such as limited performances and sample inefficiency. To handle these challenges, MTLight is proposed to enhance the agent observation with a latent state, which is learned from numerous traffic indicators. Meanwhile, multiple auxiliary and supervisory tasks are constructed to learn the latent state, and two types of embedding latent features, the task-specific feature and task-shared feature, are used to make the latent state more abundant. Extensive experiments conducted on CityFlow demonstrate that MTLight has leading convergence speed and asymptotic performance. We further simulate under peak-hour pattern in all scenarios with increasing control difficulty and the results indicate that MTLight is highly adaptable.
翻訳日:2024-04-03 23:36:00 公開日:2024-04-01
# 一段階ポーズ推定のための特徴マッチングによるNeRFの結婚

Marrying NeRF with Feature Matching for One-step Pose Estimation ( http://arxiv.org/abs/2404.00891v1 )

ライセンス: Link先を確認
Ronghan Chen, Yang Cong, Yu Ren, (参考訳) オブジェクトのイメージコレクションを考えると,CADモデルやオブジェクト固有の訓練時間を必要としないリアルタイム画像ベースのポーズ推定手法を構築することを目指している。 最近のNeRFベースの手法は、レンダリング画像とターゲット画像の間の画素損失からのポーズを直接最適化することで、有望なソリューションを提供する。 しかし、推論中は長い収束時間を必要とし、局所的なミニマに悩まされるため、リアルタイムロボットの応用には実用的ではない。 我々は、NeRFと画像マッチングを組み合わせることで、この問題を解決することを目指している。 NeRFによる2Dマッチングと深度により、ターゲットと初期ビューの間に2D-3D対応性を構築することで、一段階のポーズを直接解決し、リアルタイムな予測を可能にする。 さらに,2次元3次元対応の精度を向上させるために,NeRFにより再構成された不誠実な点を効果的に破棄する3次元一貫した点マイニング戦略を提案する。 さらに、現在のNeRFベースの手法は、隠蔽画像の画素損失を動的に最適化する。 そこで本研究では,2次元マッチングに基づくサンプリング手法を提案する。 その結果,提案手法は最先端の手法より優れ,推論効率は90倍向上し,リアルタイム予測を6FPSで達成した。

Given the image collection of an object, we aim at building a real-time image-based pose estimation method, which requires neither its CAD model nor hours of object-specific training. Recent NeRF-based methods provide a promising solution by directly optimizing the pose from pixel loss between rendered and target images. However, during inference, they require long converging time, and suffer from local minima, making them impractical for real-time robot applications. We aim at solving this problem by marrying image matching with NeRF. With 2D matches and depth rendered by NeRF, we directly solve the pose in one step by building 2D-3D correspondences between target and initial view, thus allowing for real-time prediction. Moreover, to improve the accuracy of 2D-3D correspondences, we propose a 3D consistent point mining strategy, which effectively discards unfaithful points reconstruted by NeRF. Moreover, current NeRF-based methods naively optimizing pixel loss fail at occluded images. Thus, we further propose a 2D matches based sampling strategy to preclude the occluded area. Experimental results on representative datasets prove that our method outperforms state-of-the-art methods, and improves inference efficiency by 90x, achieving real-time prediction at 6 FPS.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# 機械学習のロバスト性:プライマー

Machine Learning Robustness: A Primer ( http://arxiv.org/abs/2404.00897v1 )

ライセンス: Link先を確認
Houssem Ben Braiek, Foutse Khomh, (参考訳) この章では、機械学習(ML)における堅牢性の基礎概念と、人工知能(AI)システムにおける信頼性を確立する上で重要な役割について論じる。 この議論はロバストネスの詳細な定義から始まり、MLモデルが様々な環境条件と予期せぬ環境条件で安定した性能を維持する能力であることを示している。 MLの堅牢性は、一般化可能性との相補性、信頼に値するAIの要件としてのの地位、敵対的対非敵対的側面、定量的メトリクス、再現性や説明可能性などの指標など、いくつかのレンズを通して分離されている。 この章では、データバイアスやモデル複雑性、未特定のMLパイプラインの落とし穴など、堅牢性を阻害する要因について詳しく説明している。 デジタルと物理の両方の領域を包含する敵攻撃を含む、幅広い視点からロバストネス評価のための重要な技術を調査している。 非敵のデータシフトと、ディープラーニング(DL)ソフトウェアテスト方法論のニュアンスをカバーしている。 議論は、デバイアスや拡張といったデータ中心のアプローチから始まる、堅牢性を促進するための改善戦略を探求する。 さらに、トランスファーラーニング、逆行訓練、ランダム化平滑化など、モデル中心の様々な手法が検討されている。 最後に、アンサンブル技術、プルーニング、モデル修復など、予測不可能なモデルに対してより弾力性を持たせるためのコスト効率の良い戦略として、ポストトレーニング手法について議論する。 この章は、既存のアプローチによるMLの堅牢性を推定し、達成する上で、進行中の課題と制限を強調します。 それは、信頼できるAIシステムのための前提条件として、この決定的な概念に関する将来の研究のための洞察と指針を提供する。

This chapter explores the foundational concept of robustness in Machine Learning (ML) and its integral role in establishing trustworthiness in Artificial Intelligence (AI) systems. The discussion begins with a detailed definition of robustness, portraying it as the ability of ML models to maintain stable performance across varied and unexpected environmental conditions. ML robustness is dissected through several lenses: its complementarity with generalizability; its status as a requirement for trustworthy AI; its adversarial vs non-adversarial aspects; its quantitative metrics; and its indicators such as reproducibility and explainability. The chapter delves into the factors that impede robustness, such as data bias, model complexity, and the pitfalls of underspecified ML pipelines. It surveys key techniques for robustness assessment from a broad perspective, including adversarial attacks, encompassing both digital and physical realms. It covers non-adversarial data shifts and nuances of Deep Learning (DL) software testing methodologies. The discussion progresses to explore amelioration strategies for bolstering robustness, starting with data-centric approaches like debiasing and augmentation. Further examination includes a variety of model-centric methods such as transfer learning, adversarial training, and randomized smoothing. Lastly, post-training methods are discussed, including ensemble techniques, pruning, and model repairs, emerging as cost-effective strategies to make models more resilient against the unpredictable. This chapter underscores the ongoing challenges and limitations in estimating and achieving ML robustness by existing approaches. It offers insights and directions for future research on this crucial concept, as a prerequisite for trustworthy AI systems.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# CAAP: 時系列の適応ポリシーに基づくクラス依存型自動データ拡張

CAAP: Class-Dependent Automatic Data Augmentation Based On Adaptive Policies For Time Series ( http://arxiv.org/abs/2404.00898v1 )

ライセンス: Link先を確認
Tien-Yu Chang, Hao Dai, Vincent S. Tseng, (参考訳) データ拡張(Data Augmentation)は、トレーニングデータセットを拡張してディープラーニングモデルのパフォーマンスを向上させるための一般的なテクニックである。 さまざまなデータセットのポリシを生成する能力のため、ADA(Automatic Data Augmentation)メソッドが人気を集めている。 しかし、既存のADAメソッドは主にパフォーマンス改善に重点を置いており、特定のクラスのパフォーマンス低下につながるクラス依存バイアスの問題を無視している。 このバイアスは、現実世界のアプリケーションにモデルをデプロイする際の大きな課題となる。 さらに、時系列のADAは未探索の領域であり、この分野の進歩の必要性を強調している。 特に、心電図(ECG)のような重要な信号にADA技術を適用することは、心臓疾患の診断などの医学領域における可能性から、魅力的な例である。 本稿では,クラス依存型自動適応ポリシー(CAAP)フレームワークを新たに提案し,時系列データ拡張の全体的な改善を維持しつつ,クラス依存型バイアス問題を克服する。 具体的には、ポリシーネットワークを利用して、クラスと特徴情報抽出によるバランスのとれたバランスのとれた効果的なサンプルワイズポリシーを生成する。 第2に,クラス依存バイアスを最小限に抑えるため,拡張確率規制法を設計する。 第3に、情報領域の概念をADAフレームワークに導入し、サンプル中の本質的な領域を保存する。 実世界のECGデータセットに関する一連の実験を通して、CAAPはより低いクラス依存バイアスを達成するために代表的手法よりも優れ、全体的な性能が優れていることを実証した。 これらの結果は、実世界のアプリケーションのニーズに適合する時系列モデリングのためのADAメソッドとしてCAAPの信頼性を強調している。

Data Augmentation is a common technique used to enhance the performance of deep learning models by expanding the training dataset. Automatic Data Augmentation (ADA) methods are getting popular because of their capacity to generate policies for various datasets. However, existing ADA methods primarily focused on overall performance improvement, neglecting the problem of class-dependent bias that leads to performance reduction in specific classes. This bias poses significant challenges when deploying models in real-world applications. Furthermore, ADA for time series remains an underexplored domain, highlighting the need for advancements in this field. In particular, applying ADA techniques to vital signals like an electrocardiogram (ECG) is a compelling example due to its potential in medical domains such as heart disease diagnostics. We propose a novel deep learning-based approach called Class-dependent Automatic Adaptive Policies (CAAP) framework to overcome the notable class-dependent bias problem while maintaining the overall improvement in time-series data augmentation. Specifically, we utilize the policy network to generate effective sample-wise policies with balanced difficulty through class and feature information extraction. Second, we design the augmentation probability regulation method to minimize class-dependent bias. Third, we introduce the information region concepts into the ADA framework to preserve essential regions in the sample. Through a series of experiments on real-world ECG datasets, we demonstrate that CAAP outperforms representative methods in achieving lower class-dependent bias combined with superior overall performance. These results highlight the reliability of CAAP as a promising ADA method for time series modeling that fits for the demands of real-world applications.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# TM-TREK at SemEval-2024 Task 8:To to the LLM-based Automatic boundary Detection for Human-Machine Mixed Text (特集:情報ネットワーク)

TM-TREK at SemEval-2024 Task 8: Towards LLM-Based Automatic Boundary Detection for Human-Machine Mixed Text ( http://arxiv.org/abs/2404.00899v1 )

ライセンス: Link先を確認
Xiaoyan Qu, Xiangfeng Meng, (参考訳) 大規模言語モデル(LLM)が生成するテキストの普及に伴い,誤解を招く情報の普及や学術的不正など,LLMの誤用を防止するため,LLM生成テキストと人文テキストを区別することへの懸念が高まっている。 これまでの研究は、テキストを完全に人間書きかLLM生成かの分類に重点を置いており、両方のタイプのコンテンツを含む混合テキストの検出を無視してきた。 本稿では,人間によるテキストと機械による混合テキストの境界を識別するLLMの能力について検討する。 トークン分類問題に変換することで,この課題にアプローチし,ラベルのターンポイントをバウンダリとみなす。 特に,我々のLDMのアンサンブルモデルは,SemEval'24コンペティションタスク8のサブタスク「Human-Machine Mixed Text Detection」において,第1位を獲得した。 さらに, LLM上の余分な層の導入, セグメンテーション損失の組合せ, プレトレーニングの影響など, 混合テキスト内の境界検出におけるLLMの能力に影響を与える要因についても検討した。 本研究は今後の研究に有用な知見を提供することを目的としている。

With the increasing prevalence of text generated by large language models (LLMs), there is a growing concern about distinguishing between LLM-generated and human-written texts in order to prevent the misuse of LLMs, such as the dissemination of misleading information and academic dishonesty. Previous research has primarily focused on classifying text as either entirely human-written or LLM-generated, neglecting the detection of mixed texts that contain both types of content. This paper explores LLMs' ability to identify boundaries in human-written and machine-generated mixed texts. We approach this task by transforming it into a token classification problem and regard the label turning point as the boundary. Notably, our ensemble model of LLMs achieved first place in the 'Human-Machine Mixed Text Detection' sub-task of the SemEval'24 Competition Task 8. Additionally, we investigate factors that influence the capability of LLMs in detecting boundaries within mixed texts, including the incorporation of extra layers on top of LLMs, combination of segmentation loss, and the impact of pretraining. Our findings aim to provide valuable insights for future research in this area.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# ビデオ授業増分学習のための旧クラスを思い出すための新しいクラスをすっきりとシフトさせる

Slightly Shift New Classes to Remember Old Classes for Video Class-Incremental Learning ( http://arxiv.org/abs/2404.00901v1 )

ライセンス: Link先を確認
Jian Jiao, Yu Dai, Hefei Mei, Heqian Qiu, Chuanyang Gong, Shiyuan Tang, Xinpeng Hao, Hongliang Li, (参考訳) 最近のビデオクラス増分学習は、通常、新しく見られるクラスの精度を過度に追求し、古いクラスの破滅的な忘れを和らげるためにメモリセットに依存している。 しかし、限られたストレージでは、いくつかの代表的ビデオしか保存できない。 そこで我々はSNROを提案する。SNROは古いクラスを思い出すために新しいクラスの機能をわずかにシフトさせる。 具体的には、SNRO は Examples Sparse(ES) と Early Break(EB) を含む。 ESは、より低いサンプルレートでメモリセットを構築し、補間を使用して、これらのスパースフレームを将来的に整列させる。 これにより、SNROは、同じメモリ消費下でより多くのサンプルを格納し、モデルを忘れがちな低セマンティックな機能に集中させます。 EBは小さなエポックでトレーニングを終了し、モデルが現在のタスクの高意味空間にオーバーストレッチすることを防ぐ。 UCF101、HMDB51、UESTC-MMEA-CLデータセットに対する実験は、SNROが同じメモリ消費を消費しながら他のアプローチよりも優れていることを示している。

Recent video class-incremental learning usually excessively pursues the accuracy of the newly seen classes and relies on memory sets to mitigate catastrophic forgetting of the old classes. However, limited storage only allows storing a few representative videos. So we propose SNRO, which slightly shifts the features of new classes to remember old classes. Specifically, SNRO contains Examples Sparse(ES) and Early Break(EB). ES decimates at a lower sample rate to build memory sets and uses interpolation to align those sparse frames in the future. By this, SNRO stores more examples under the same memory consumption and forces the model to focus on low-semantic features which are harder to be forgotten. EB terminates the training at a small epoch, preventing the model from overstretching into the high-semantic space of the current task. Experiments on UCF101, HMDB51, and UESTC-MMEA-CL datasets show that SNRO performs better than other approaches while consuming the same memory consumption.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# LLMOpsによるパーソナライズドレコメンデーションシステムによるユーザエクスペリエンスの最大化

Maximizing User Experience with LLMOps-Driven Personalized Recommendation Systems ( http://arxiv.org/abs/2404.00903v1 )

ライセンス: Link先を確認
Chenxi Shi, Penghao Liang, Yichao Wu, Tong Zhan, Zhengyu Jin, (参考訳) LLMOpsをパーソナライズされたレコメンデーションシステムに統合することは、LLM駆動アプリケーションの管理において大きな進歩を見せている。 このイノベーションは、企業の機会と課題の両方を示し、専門チームがデータセキュリティとモデル解釈可能性の優先順位を付けながら、エンジニアリング技術の複雑さをナビゲートする必要がある。 LLMOpsを利用することで、企業は大規模な機械学習モデルの効率性と信頼性を高め、ユーザの好みに合わせてパーソナライズされたレコメンデーションを推進できる。 倫理的な考慮にもかかわらず、LLMOpsは広く採用され、ユーザエクスペリエンスを高め、パーソナライズされたレコメンデーションシステムの未来を形成する、より効率的でセキュアな機械学習サービスを約束している。

The integration of LLMOps into personalized recommendation systems marks a significant advancement in managing LLM-driven applications. This innovation presents both opportunities and challenges for enterprises, requiring specialized teams to navigate the complexity of engineering technology while prioritizing data security and model interpretability. By leveraging LLMOps, enterprises can enhance the efficiency and reliability of large-scale machine learning models, driving personalized recommendations aligned with user preferences. Despite ethical considerations, LLMOps is poised for widespread adoption, promising more efficient and secure machine learning services that elevate user experience and shape the future of personalized recommendation systems.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# ピクセルからグラフへ:視覚言語モデルを用いたオープン語彙シーングラフ生成

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models ( http://arxiv.org/abs/2404.00906v1 )

ライセンス: Link先を確認
Rongjie Li, Songyang Zhang, Dahua Lin, Kai Chen, Xuming He, (参考訳) シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。 近年の進歩にもかかわらず、既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。 この課題に対処するために、シークエンス生成に基づく新しいオープン語彙SGGフレームワークを導入する。 我々のフレームワークは、画像からグラフへの生成パラダイムを取り入れた視覚言語事前学習モデル(VLM)を活用している。 具体的には,VLMを用いた画像からテキストへの生成によってシーングラフのシーケンスを生成し,これらのシーケンスからシーングラフを構築する。 これにより、オープン語彙SGGにおけるVLMの強みを活用し、VLタスクを強化するための明示的リレーショナルモデリングをシームレスに統合する。 実験結果から,我々の設計はオープンな語彙で優れた性能を達成できるだけでなく,明示的な関係モデリング知識を通じて,下流の視覚言語タスク性能を向上させることが示唆された。

Scene graph generation (SGG) aims to parse a visual scene into an intermediate graph representation for downstream reasoning tasks. Despite recent advancements, existing methods struggle to generate scene graphs with novel visual relation concepts. To address this challenge, we introduce a new open-vocabulary SGG framework based on sequence generation. Our framework leverages vision-language pre-trained models (VLM) by incorporating an image-to-graph generation paradigm. Specifically, we generate scene graph sequences via image-to-text generation with VLM and then construct scene graphs from these sequences. By doing so, we harness the strong capabilities of VLM for open-vocabulary SGG and seamlessly integrate explicit relational modeling for enhancing the VL tasks. Experimental results demonstrate that our design not only achieves superior performance with an open vocabulary but also enhances downstream vision-language task performance through explicit relation modeling knowledge.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# 補正による学習:ゼロショット生成ビジョンランゲージ推論のための効率的なチューニングタスク

Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning ( http://arxiv.org/abs/2404.00909v1 )

ライセンス: Link先を確認
Rongjie Li, Yu Wu, Xuming He, (参考訳) 生成視覚言語モデル(VLM)は、画像キャプションや視覚質問応答といったゼロショット視覚言語タスクにおいて、印象的なパフォーマンスを示している。 しかし、ゼロショット推論を改善するには典型的には、人間のラベル付きまたは大きな言語モデル生成アノテーションに大きく依存する第2段階の命令チューニングが必要であり、高いラベル付けコストが発生する。 この課題に対処するために,VLMのゼロショット性能を向上させるために,ラベル付きタスク認識データを必要としない,新しい事前学習タスクである Image-Conditioned Caption Correction (ICCC) を導入する。 ICCCタスクはVLMを補完し、視覚的概念と言語概念のミスマッチを正す。 言語構造と軽量な依存パーサを活用し,低ラベリングと計算コストで画像テキストデータセットからICCCタスクのデータサンプルを構築する。 BLIP-2 と InstructBLIP の実験結果は、ICCC 命令チューニングによるゼロショット画像テキスト生成に基づく VL タスクの大幅な改善を示している。

Generative vision-language models (VLMs) have shown impressive performance in zero-shot vision-language tasks like image captioning and visual question answering. However, improving their zero-shot reasoning typically requires second-stage instruction tuning, which relies heavily on human-labeled or large language model-generated annotation, incurring high labeling costs. To tackle this challenge, we introduce Image-Conditioned Caption Correction (ICCC), a novel pre-training task designed to enhance VLMs' zero-shot performance without the need for labeled task-aware data. The ICCC task compels VLMs to rectify mismatches between visual and language concepts, thereby enhancing instruction following and text generation conditioned on visual inputs. Leveraging language structure and a lightweight dependency parser, we construct data samples of ICCC task from image-text datasets with low labeling and computation costs. Experimental results on BLIP-2 and InstructBLIP demonstrate significant improvements in zero-shot image-text generation-based VL tasks through ICCC instruction tuning.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# 擬似形式の正規性によるランダム化最小方形とPCAの推論

Inference in Randomized Least Squares and PCA via Normality of Quadratic Forms ( http://arxiv.org/abs/2404.00912v1 )

ライセンス: Link先を確認
Leda Wang, Zhixiang Zhang, Edgar Dobriban, (参考訳) ランダム化アルゴリズムは、大規模なデータセットの分析を高速化するために使用することができる。 本稿では,多変量統計解析における最も基本的な2つの問題である最小二乗およびPCAにおいて,ランダムなスケッチや投影による統計的推測のための統一手法を開発する。 この手法は固定データセット(すなわちデータ条件)に適用され、ランダム性だけがランダム化アルゴリズムによるものである。 サブサンプリングランダム化アダマール変換(SRHT)、スパースサイン埋め込み(SSE)、カウントスケッチ(CountSketch)など、幅広いスケッチ分布に対する統計的推論手法を提案し、行列をi.d.エントリでスケッチし、一様サブサンプリングする。 我々の知る限り、SSEやPCAのSRHTに匹敵する手法は存在しない。 我々の新しい理論的アプローチは、ある二次形式の漸近正規性を示すことにかかっている。 より広範な関心の寄与として、アダマール変換の帰納的構造を利用するダイアド展開による新しい証明を頼りに、SRHTの二次形式に対する中心極限定理を示す。 合成データセットと経験的データセットの両方を用いた数値実験は,本手法の有効性を裏付けるものであり,特にスケッチ法は,最近提案された最適サブサンプリング法よりも優れた計算-推定トレードオフを有することを示唆している。

Randomized algorithms can be used to speed up the analysis of large datasets. In this paper, we develop a unified methodology for statistical inference via randomized sketching or projections in two of the most fundamental problems in multivariate statistical analysis: least squares and PCA. The methodology applies to fixed datasets -- i.e., is data-conditional -- and the only randomness is due to the randomized algorithm. We propose statistical inference methods for a broad range of sketching distributions, such as the subsampled randomized Hadamard transform (SRHT), Sparse Sign Embeddings (SSE) and CountSketch, sketching matrices with i.i.d. entries, and uniform subsampling. To our knowledge, no comparable methods are available for SSE and for SRHT in PCA. Our novel theoretical approach rests on showing the asymptotic normality of certain quadratic forms. As a contribution of broader interest, we show central limit theorems for quadratic forms of the SRHT, relying on a novel proof via a dyadic expansion that leverages the recursive structure of the Hadamard transform. Numerical experiments using both synthetic and empirical datasets support the efficacy of our methods, and in particular suggest that sketching methods can have better computation-estimation tradeoffs than recently proposed optimal subsampling methods.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# LLaMA-Excitor:間接的特徴相互作用による一般的な指導チューニング

LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction ( http://arxiv.org/abs/2404.00913v1 )

ライセンス: Link先を確認
Bo Zou, Chao Yang, Yu Qiao, Chengbin Quan, Youjian Zhao, (参考訳) Adapter、Prefix-tuning、LoRAのように、新しいスキルや知識を注入するために追加のモジュールや追加の入力シーケンスを導入する既存のLLMの微調整方法は、LLMの生来の能力を損なう可能性がある。 本稿では,LLaMA-Excitorを提案する。LLaMA-Excitorは軽量な手法で,LLMがより有意義な情報に徐々に注意を払って指示に従うことができる。 具体的には、LLaMA-Excitorは変圧器構造の自己アテンション計算において、中間隠れ状態を直接変更しない。 我々は,LLMの自己アテンションにおける類似度スコア計算のためのバイパスモジュールとしてExcitorブロックを設計し,キーを再構築し,学習可能なプロンプトによって値の重要性を変化させた。 LLaMA-Excitorは、入力命令に付加的な注意を自己適応的に割り当てることを保証する。 さらに、複雑なマルチモーダルアライメントを必要とせず、LLaMA-Excitorを強力な視覚指示追従者に拡張し、マルチモーダルチューニングと言語のみのチューニングのモデリングを統一する。 提案手法は言語のみおよびマルチモーダル・チューニング実験シナリオで評価される。 特に、LLaMA-ExcitorはMMLUベンチマークで大幅な改善(+6%)を達成しつつ、基本的な機能を維持する唯一の方法である。 MSCOCOにおける157.5 CIDErの最新の画像キャプション性能とScienceQAにおける88.39%の性能を、より多くのパラメータと広範囲な視覚言語を含む最先端モデルに対して実現した。

Existing methods to fine-tune LLMs, like Adapter, Prefix-tuning, and LoRA, which introduce extra modules or additional input sequences to inject new skills or knowledge, may compromise the innate abilities of LLMs. In this paper, we propose LLaMA-Excitor, a lightweight method that stimulates the LLMs' potential to better follow instructions by gradually paying more attention to worthwhile information. Specifically, the LLaMA-Excitor does not directly change the intermediate hidden state during the self-attention calculation of the transformer structure. We designed the Excitor block as a bypass module for the similarity score computation in LLMs' self-attention to reconstruct keys and change the importance of values by learnable prompts. LLaMA-Excitor ensures a self-adaptive allocation of additional attention to input instructions, thus effectively preserving LLMs' pre-trained knowledge when fine-tuning LLMs on low-quality instruction-following datasets. Furthermore, we unify the modeling of multi-modal tuning and language-only tuning, extending LLaMA-Excitor to a powerful visual instruction follower without the need for complex multi-modal alignment. Our proposed approach is evaluated in language-only and multi-modal tuning experimental scenarios. Notably, LLaMA-Excitor is the only method that maintains basic capabilities while achieving a significant improvement (+6%) on the MMLU benchmark. In the visual instruction tuning, we achieve a new state-of-the-art image captioning performance of 157.5 CIDEr on MSCOCO, and a comparable performance (88.39%) on ScienceQA to cutting-edge models with more parameters and extensive vision-language pertaining.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# 大規模言語モデルにおけるToken-Efficient Leverage Learning

Token-Efficient Leverage Learning in Large Language Models ( http://arxiv.org/abs/2404.00914v1 )

ライセンス: Link先を確認
Yuanhao Zeng, Min Wang, Yihang Wang, Yingxia Shao, (参考訳) LLM(Large Language Models)は様々なタスクで優れていますが、低リソースのシナリオではより優れたパフォーマンスを実現しています。 データ不足と特定のタスクにLLMを適用することの難しさは、この課題を複雑にしている。 双対のハードルに対処するために、 \textbf{Leverage Learning}を紹介する。 本稿では,Token-Efficient Leverage Learning (TELL)と呼ばれる方法論の合理化実装を提案する。 TELLはLevanage Learningの可能性を示し、さまざまなLLMと低リソースタスクにまたがって、10^4$から10^6$トークンの有効性を実証している。 従来のSupervised Fine-Tuning (SFT)と比較して、競争力のあるパフォーマンスを提供しながら、タスクデータ要求を最大で1桁削減する。 同じタスクデータで、TELLはSFTと比較してタスクパフォーマンスを向上させる。 本稿では,レバレッジ学習のメカニズムについて論じるとともに,量子化仮説と整合し,実証実験を通じて有望なポテンシャルを探求することを提案する。

Large Language Models (LLMs) have excelled in various tasks but perform better in high-resource scenarios, which presents challenges in low-resource scenarios. Data scarcity and the inherent difficulty of adapting LLMs to specific tasks compound the challenge. To address the twin hurdles, we introduce \textbf{Leverage Learning}. We present a streamlined implement of this methodology called Token-Efficient Leverage Learning (TELL). TELL showcases the potential of Leverage Learning, demonstrating effectiveness across various LLMs and low-resource tasks, ranging from $10^4$ to $10^6$ tokens. It reduces task data requirements by up to nearly an order of magnitude compared to conventional Supervised Fine-Tuning (SFT) while delivering competitive performance. With the same amount of task data, TELL leads in improving task performance compared to SFT. We discuss the mechanism of Leverage Learning, suggesting it aligns with quantization hypothesis and explore its promising potential through empirical testing.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# トリエントワイド絶対残差によるスケーラブルな3次元レジストレーション

Scalable 3D Registration via Truncated Entry-wise Absolute Residuals ( http://arxiv.org/abs/2404.00915v1 )

ライセンス: Link先を確認
Tianyu Huang, Liangzu Peng, René Vidal, Yun-Hui Liu, (参考訳) 3Dポイントペアの入力セットが与えられた場合、アウトリー・ロバストな3D登録の目的は、できるだけ多くのポイントペアを整列させる回転と変換を計算することである。 これはコンピュータビジョンにおいて重要な問題であり、最近多くの高精度なアプローチが提案されている。 優れたパフォーマンスにもかかわらず、これらのアプローチはスケーラビリティに欠けており、通常ノートパソコンの16ドルGBのメモリをオーバーフローして、およそ3万ドルのポイントペアを処理している。 本稿では,1000万(10^7$)以上の点対を99\%以上のランダムなアウトレイラで処理できる3D登録手法を提案する。 さらに,本手法は効率が高く,メモリコストも低く,高い精度を同時に維持できる。 我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。 この損失を最小限に抑えるために、元の6ドル次元問題を、それぞれ3ドルと2ドルという2つのサブプロブレムに分解し、カスタマイズされたブランチ・アンド・バウンド法により、大域的最適性に従って解いた。 分岐とバウンドはしばしば遅く、スケールできないが、我々はタイトで計算効率のよい新しい有界関数を提案するので、TEARには当てはまらない。 本手法のスケーラビリティと効率性を検証するため,各種データセットの実験を行った。

Given an input set of $3$D point pairs, the goal of outlier-robust $3$D registration is to compute some rotation and translation that align as many point pairs as possible. This is an important problem in computer vision, for which many highly accurate approaches have been recently proposed. Despite their impressive performance, these approaches lack scalability, often overflowing the $16$GB of memory of a standard laptop to handle roughly $30,000$ point pairs. In this paper, we propose a $3$D registration approach that can process more than ten million ($10^7$) point pairs with over $99\%$ random outliers. Moreover, our method is efficient, entails low memory costs, and maintains high accuracy at the same time. We call our method TEAR, as it involves minimizing an outlier-robust loss that computes Truncated Entry-wise Absolute Residuals. To minimize this loss, we decompose the original $6$-dimensional problem into two subproblems of dimensions $3$ and $2$, respectively, solved in succession to global optimality via a customized branch-and-bound method. While branch-and-bound is often slow and unscalable, this does not apply to TEAR as we propose novel bounding functions that are tight and computationally efficient. Experiments on various datasets are conducted to validate the scalability and efficiency of our method.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# ジャイロによるニューラルシングルイメージの劣化

Gyro-based Neural Single Image Deblurring ( http://arxiv.org/abs/2404.00916v1 )

ライセンス: Link先を確認
Heemin Yang, Jaesung Rim, Seung-Hwan Baek, Sunghyun Cho, (参考訳) 本稿では,ジャイロセンサを用いて画像の劣化を効果的に解消する,新しい単一画像分解手法であるGyroDeblurNetを提案する。 ジャイロセンサーは、露光時のカメラの動きに関する貴重な情報を提供する。 しかし,センサノイズ,カメラモジュールとジャイロセンサの位置のずれ,翻訳動作情報の欠如,ジャイロセンサで動きを捉えられない移動物体など,様々な情報源からの重大な誤りにより,現実のジャイロデータを効果的に活用することは困難である。 ジャイロエラーを処理するため、GyroDeblurNetはジャイロ精製ブロックとジャイロ除去ブロックという2つの新しいニューラルネットワークブロックを備えている。 ジャイロ精錬ブロックは、入力画像からのぼやけた情報を用いて、誤差のあるジャイロデータを精錬する。 一方、ジャイロ除去ブロックは、精製されたジャイロデータを用いて入力画像からぼかしを除去し、入力画像からのぼかし情報を利用してジャイロ誤差を補正する。 誤ったジャイロデータを用いてニューラルネットワークをトレーニングするために,カリキュラム学習に基づくトレーニング戦略を提案する。 また、現実世界の複雑なカメラの揺れを表す新しいジャイロデータ埋め込み方式を導入する。 最後に,ジャイロ画像の学習と評価のための合成データセットと実際のデータセットを提案する。 提案手法は, 誤ジャイロデータを有効利用することにより, 最先端の劣化品質を実現することを実証した。

In this paper, we present GyroDeblurNet, a novel single image deblurring method that utilizes a gyro sensor to effectively resolve the ill-posedness of image deblurring. The gyro sensor provides valuable information about camera motion during exposure time that can significantly improve deblurring quality. However, effectively exploiting real-world gyro data is challenging due to significant errors from various sources including sensor noise, the disparity between the positions of a camera module and a gyro sensor, the absence of translational motion information, and moving objects whose motions cannot be captured by a gyro sensor. To handle gyro error, GyroDeblurNet is equipped with two novel neural network blocks: a gyro refinement block and a gyro deblurring block. The gyro refinement block refines the error-ridden gyro data using the blur information from the input image. On the other hand, the gyro deblurring block removes blur from the input image using the refined gyro data and further compensates for gyro error by leveraging the blur information from the input image. For training a neural network with erroneous gyro data, we propose a training strategy based on the curriculum learning. We also introduce a novel gyro data embedding scheme to represent real-world intricate camera shakes. Finally, we present a synthetic dataset and a real dataset for the training and evaluation of gyro-based single image deblurring. Our experiments demonstrate that our approach achieves state-of-the-art deblurring quality by effectively utilizing erroneous gyro data.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# 神の存在の証拠としての西森の自学

Nishimori's self-tuning as evidence for the existence of God ( http://arxiv.org/abs/2404.00919v1 )

ライセンス: Link先を確認
John McGreevy, Tarun Grover, (参考訳) 自然性の明瞭な違反は、我々(および他のすべて)に対して定期的にフォン・ノイマン測度を実行する不完全だが興味をそそられ、おそらくは失敗する観察者の存在を仮定することによって説明できる。 スケーラブルな量子コンピュータを構築することの意味について、簡潔にコメントする。

Apparent violations of Naturalness may be explained by positing the existence of an omniscient but disinterested and possibly fallible Observer who regularly performs von Neumann measurements on us (and everything else). We comment briefly on the implications for the construction of scalable quantum computers.
翻訳日:2024-04-03 23:26:11 公開日:2024-04-01
# ラベル効率のよいヒューマン・マッティングに向けて:弱々しい半教師付きトライアングル・フリー・ヒューマン・マッティングのためのシンプルなベースライン

Towards Label-Efficient Human Matting: A Simple Baseline for Weakly Semi-Supervised Trimap-Free Human Matting ( http://arxiv.org/abs/2404.00921v1 )

ライセンス: Link先を確認
Beomyoung Kim, Myeong Yeon Yi, Joonsang Yu, Young Joon Yoo, Sung Ju Hwang, (参考訳) 本稿では, 微妙な画素レベルのヒト領域識別と, 極めて退屈なアノテーションを必要とする, 人間の交配のための新しい実践的訓練手法を提案する。 アノテーションのコストを削減するため、既存のマッチングアプローチの多くは、データセットを拡張するために画像合成に頼っていることが多い。 しかし、合成訓練画像の不自然さは、自然画像に新たな領域一般化の挑戦をもたらす。 この課題に対処するために、我々は、少量の高価なマットラベルと大量の予算に優しいセグメンテーションラベルを活用して、アノテーションコストを節約し、ドメインの一般化問題を解決する、弱い半教師付きヒューマン・マッティング(WSSHM)という新しい学習パラダイムを導入する。 WSSHMの目的を達成するために、我々は、セグメンテーションとマットデータの有益な知識のみをマットモデルに選択的に導く、シンプルで効果的なトレーニング手法であるMatte Label Blending (MLB)を提案する。 本手法は,数個のマットデータと多数のセグメンテーションデータを用いて,マットモデルのロバスト性を大幅に向上させることができることを示す。 また,我々のトレーニング手法はリアルタイムモデルにも容易に適用でき,NVIDIA V100 GPU上でのブレークネック推論速度(328 FPS)による競合精度を実現している。 実装コードは \url{https://github.com/clovaai/WSSHM} で公開されている。

This paper presents a new practical training method for human matting, which demands delicate pixel-level human region identification and significantly laborious annotations. To reduce the annotation cost, most existing matting approaches often rely on image synthesis to augment the dataset. However, the unnaturalness of synthesized training images brings in a new domain generalization challenge for natural images. To address this challenge, we introduce a new learning paradigm, weakly semi-supervised human matting (WSSHM), which leverages a small amount of expensive matte labels and a large amount of budget-friendly segmentation labels, to save the annotation cost and resolve the domain generalization problem. To achieve the goal of WSSHM, we propose a simple and effective training method, named Matte Label Blending (MLB), that selectively guides only the beneficial knowledge of the segmentation and matte data to the matting model. Extensive experiments with our detailed analysis demonstrate our method can substantially improve the robustness of the matting model using a few matte data and numerous segmentation data. Our training method is also easily applicable to real-time models, achieving competitive accuracy with breakneck inference speed (328 FPS on NVIDIA V100 GPU). The implementation code is available at \url{https://github.com/clovaai/WSSHM}.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# 記憶自由拡散モデルに向けて

Towards Memorization-Free Diffusion Models ( http://arxiv.org/abs/2404.00922v1 )

ライセンス: Link先を確認
Chen Chen, Daochang Liu, Chang Xu, (参考訳) 事前制限された拡散モデルとその出力は、高品質な画像の合成能力とオープンソースの性質のために、広くアクセス可能である。 しかし、モデルが推論中にトレーニングデータを記憶し、取り消しする傾向があるため、ユーザーは訴訟のリスクに直面する可能性がある。 これを解決するために,画像とキャプションの重複,ユーザプロンプトの高度化という3つの主要な原因を目標としたガイダンス戦略を用いた新しいフレームワークであるAMG(Anti-Memorization Guidance)を紹介した。 その結果、AMGは画像品質とテキストアライメントを維持しつつ、メモリフリーな出力を保証し、ガイダンス手法の相乗効果を活用する。 AMGはまた、推論プロセスの各ステップにおける潜在的な記憶のための革新的な自動検出システムを備え、ガイダンス戦略の選択的適用を可能にし、出力ユーティリティを維持するために元のサンプリングプロセスに最小限干渉する。 AMG を各種生成タスクに応用し, DPM (Denoising Diffusion Probabilistic Models) と DDPM (Stable Diffusion) に応用した。 FIDとCLIPのスコアが示すように、AMGは画像品質とテキストアライメントに何の影響も及ばず、暗記のすべての事例の根絶に成功した最初のアプローチである。

Pretrained diffusion models and their outputs are widely accessible due to their exceptional capacity for synthesizing high-quality images and their open-source nature. The users, however, may face litigation risks owing to the models' tendency to memorize and regurgitate training data during inference. To address this, we introduce Anti-Memorization Guidance (AMG), a novel framework employing three targeted guidance strategies for the main causes of memorization: image and caption duplication, and highly specific user prompts. Consequently, AMG ensures memorization-free outputs while maintaining high image quality and text alignment, leveraging the synergy of its guidance methods, each indispensable in its own right. AMG also features an innovative automatic detection system for potential memorization during each step of inference process, allows selective application of guidance strategies, minimally interfering with the original sampling process to preserve output utility. We applied AMG to pretrained Denoising Diffusion Probabilistic Models (DDPM) and Stable Diffusion across various generation tasks. The results demonstrate that AMG is the first approach to successfully eradicates all instances of memorization with no or marginal impacts on image quality and text-alignment, as evidenced by FID and CLIP scores.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# MM3DGS SLAM:視覚・深度・慣性計測を用いた多モード3Dガウス型SLAM

MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements ( http://arxiv.org/abs/2404.00923v1 )

ライセンス: Link先を確認
Lisong C. Sun, Neel P. Bhatt, Jonathan C. Liu, Zhiwen Fan, Zhangyang Wang, Todd E. Humphreys, Ufuk Topcu, (参考訳) 位置追跡とシーン理解には,同時位置決めとマッピングが不可欠である。 3Dガウスの地図表現は、複数のポーズカメラを用いたシーンの写実的再構成とリアルタイムレンダリングを可能にする。 カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。 我々の手法であるMM3DGSは、より高速なレンダリング、スケールの認識、軌道追跡の改善を可能にすることで、従来の神経放射場に基づく表現の限界に対処する。 本フレームワークは,予め統合された慣性測定,深度推定,光度レンダリング品質の測定から,相対的なポーズ変換を組み込んだ損失関数を利用したキーフレームマッピングと追跡を可能にする。 また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。 MM3DGSは3倍のトラッキング向上と5%のレンダリング品質向上を実現し,高解像度の高密度3Dマップのリアルタイムレンダリングを可能にした。 Project Webpage: https://vita-group.github.io/MM3DGS-SLAM

Simultaneous localization and mapping is essential for position tracking and scene understanding. 3D Gaussian-based map representations enable photorealistic reconstruction and real-time rendering of scenes using multiple posed cameras. We show for the first time that using 3D Gaussians for map representation with unposed camera images and inertial measurements can enable accurate SLAM. Our method, MM3DGS, addresses the limitations of prior neural radiance field-based representations by enabling faster rendering, scale awareness, and improved trajectory tracking. Our framework enables keyframe-based mapping and tracking utilizing loss functions that incorporate relative pose transformations from pre-integrated inertial measurements, depth estimates, and measures of photometric rendering quality. We also release a multi-modal dataset, UT-MM, collected from a mobile robot equipped with a camera and an inertial measurement unit. Experimental evaluation on several scenes from the dataset shows that MM3DGS achieves 3x improvement in tracking and 5% improvement in photometric rendering quality compared to the current 3DGS SLAM state-of-the-art, while allowing real-time rendering of a high-resolution dense 3D map. Project Webpage: https://vita-group.github.io/MM3DGS-SLAM
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# Bad Part: ピクセルワイド回帰タスクに対する一貫したブラックボックス対応パッチ攻撃

BadPart: Unified Black-box Adversarial Patch Attacks against Pixel-wise Regression Tasks ( http://arxiv.org/abs/2404.00924v1 )

ライセンス: Link先を確認
Zhiyuan Cheng, Zhaoyi Liu, Tengda Guo, Shiwei Feng, Dongfang Liu, Mingjie Tang, Xiangyu Zhang, (参考訳) 自動走行、拡張現実、ビデオ合成などの応用において、画素単位の回帰タスク(例えば、単眼深度推定(MDE)と光フロー推定(OFE))は我々の日常生活に広く関わっている。 特定の応用は、セキュリティに批判的か社会的重要性を持つが、特にブラックボックスのシナリオにおいて、そのようなモデルの敵対的堅牢性は十分に研究されていない。 本研究では,クエリベースのブラックボックスアタックにおいて,これらのモデルの脆弱性を特定することを目的とした,画素単位の回帰タスクに対する最初の統合ブラックボックス対逆パッチアタックフレームワークを提案する。 そこで我々は,従来のブラックボックスパッチ攻撃のスケーラビリティ問題を克服し,確率的正方形サンプリングとスコアベース勾配推定手法を用いて,このパッチを効果的かつ効率的に生成する新しい正方形逆パッチ最適化フレームワークを提案する。 攻撃プロトタイプであるBadPartは,MDEタスクとOFEタスクの両方で,合計7つのモデルを用いて評価される。 BadPartは攻撃性能と効率の両面で3つのベースラインメソッドを上回っている。 また、GoogleのオンラインサービスBadPartをポートレート深度推定に応用し、50Kクエリに対して43.5%の相対誤差を発生させた。 最先端のSOTA(State-of-the-art)対策は、我々の攻撃を効果的に防御することはできない。

Pixel-wise regression tasks (e.g., monocular depth estimation (MDE) and optical flow estimation (OFE)) have been widely involved in our daily life in applications like autonomous driving, augmented reality and video composition. Although certain applications are security-critical or bear societal significance, the adversarial robustness of such models are not sufficiently studied, especially in the black-box scenario. In this work, we introduce the first unified black-box adversarial patch attack framework against pixel-wise regression tasks, aiming to identify the vulnerabilities of these models under query-based black-box attacks. We propose a novel square-based adversarial patch optimization framework and employ probabilistic square sampling and score-based gradient estimation techniques to generate the patch effectively and efficiently, overcoming the scalability problem of previous black-box patch attacks. Our attack prototype, named BadPart, is evaluated on both MDE and OFE tasks, utilizing a total of 7 models. BadPart surpasses 3 baseline methods in terms of both attack performance and efficiency. We also apply BadPart on the Google online service for portrait depth estimation, causing 43.5% relative distance error with 50K queries. State-of-the-art (SOTA) countermeasures cannot defend our attack effectively.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# LLMは良い手話翻訳ツールである

LLMs are Good Sign Language Translators ( http://arxiv.org/abs/2404.00925v1 )

ライセンス: Link先を確認
Jia Gong, Lin Geng Foo, Yixuan He, Hossein Rahmani, Jun Liu, (参考訳) 手話翻訳(SLT)は,手話動画を音声言語に翻訳することを目的とした課題である。 広範囲な多言語テキストコーパスをトレーニングした大規模言語モデル(LLM)の強力な翻訳能力に着想を得て,既製のLLMを用いてSLTを扱うことを目指す。 本稿では,手話の言語的特徴を具現化するために手話ビデオの正規化を行い,手話ビデオの可読性を向上させるために,手話動画を言語的表現に変換する新しい手話フレームワークであるSignLLMを提案する。 The Vector-Quantized Visual Sign module converts sign video into a sequence of individual character-level sign tokens, and the Codebook Reconstruction and Alignment module converts these character-level tokens into word-level sign representations using an optimal transport formulation。 サイン-テキストアライメントの損失により、サインとテキストトークンのギャップはさらに埋められ、セマンティックな互換性が向上する。 広範に使用されている2つのSLTベンチマークにおいて、最先端のグロスフリーな結果が得られる。

Sign Language Translation (SLT) is a challenging task that aims to translate sign videos into spoken language. Inspired by the strong translation capabilities of large language models (LLMs) that are trained on extensive multilingual text corpora, we aim to harness off-the-shelf LLMs to handle SLT. In this paper, we regularize the sign videos to embody linguistic characteristics of spoken language, and propose a novel SignLLM framework to transform sign videos into a language-like representation for improved readability by off-the-shelf LLMs. SignLLM comprises two key modules: (1) The Vector-Quantized Visual Sign module converts sign videos into a sequence of discrete character-level sign tokens, and (2) the Codebook Reconstruction and Alignment module converts these character-level tokens into word-level sign representations using an optimal transport formulation. A sign-text alignment loss further bridges the gap between sign and text tokens, enhancing semantic compatibility. We achieve state-of-the-art gloss-free results on two widely-used SLT benchmarks.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# MIPにおける2つの証明者完全ゼロ知識*

Two prover perfect zero knowledge for MIP* ( http://arxiv.org/abs/2404.00926v1 )

ライセンス: Link先を確認
Kieran Mastel, William Slofstra, (参考訳) Ji, Natarajan, Vidick, Wright, and Yuen の最近の MIP*=RE 定理は、絡み合った証明系における複雑性クラス MIP* がすべての帰納的可算言語を含んでいることを示している。 Grilo, Slofstra, Yuen [FOCS '19] の以前の研究は、MIP* のすべての言語が完全なゼロ知識 (PZK) MIP* プロトコルを持っていることを(シミュラタブルコードと呼ばれる技術を介して)示していた。 MIP*=RE定理は、2プロの1ラウンドの証明系を使い、したがって、そのような系は MIP* に対して完備である。 しかし、Grilo, Slofstra, and Yuen における構成は6つのプローバーを用いており、シミュラブル符号を通じて2つのプローバーで完全なゼロ知識を得る明確な方法はない。 2つのプロプライエタリなPZK-MIP*プロトコルは、すべてのMIP*に対して存在するか? 本稿では,MIP*のすべての言語が2ラウンドのPZK-MIP*プロトコルを持ち,肯定的な疑問に答えることを示す。 この証明には、MIP*=RE定理の鍵となる結果に基づく新しい手法を用いる。すなわち、全てのMIP*プロトコルをブール制約系(BCS)非局所ゲーム群に変換することができる。 これにより、MIP*プロトコルをブール制約システムとして扱うことができ、特にDwork, Feige, Kilian, Naor, Safra [Crypto '92] による構成の変種を使用できます。 この古典的な構成の量子音響性を示すために、BCSゲーム間の縮小の量子音響性を分析するツールキットを開発した。 このツールキットは演算子戦略にも適用され、演算子BCSプロトコルを持つ全ての言語が2つの証明子PZK演算子プロトコルを持つことを示す。

The recent MIP*=RE theorem of Ji, Natarajan, Vidick, Wright, and Yuen shows that the complexity class MIP* of multiprover proof systems with entangled provers contains all recursively enumerable languages. Prior work of Grilo, Slofstra, and Yuen [FOCS '19] further shows (via a technique called simulatable codes) that every language in MIP* has a perfect zero knowledge (PZK) MIP* protocol. The MIP*=RE theorem uses two-prover one-round proof systems, and hence such systems are complete for MIP*. However, the construction in Grilo, Slofstra, and Yuen uses six provers, and there is no obvious way to get perfect zero knowledge with two provers via simulatable codes. This leads to a natural question: are there two-prover PZK-MIP* protocols for all of MIP*? In this paper, we show that every language in MIP* has a two-prover one-round PZK-MIP* protocol, answering the question in the affirmative. For the proof, we use a new method based on a key consequence of the MIP*=RE theorem, which is that every MIP* protocol can be turned into a family of boolean constraint system (BCS) nonlocal games. This makes it possible to work with MIP* protocols as boolean constraint systems, and in particular allows us to use a variant of a construction due to Dwork, Feige, Kilian, Naor, and Safra [Crypto '92] which gives a classical MIP protocol for 3SAT with perfect zero knowledge. To show quantum soundness of this classical construction, we develop a toolkit for analyzing quantum soundness of reductions between BCS games, which we expect to be useful more broadly. This toolkit also applies to commuting operator strategies, and our argument shows that every language with a commuting operator BCS protocol has a two prover PZK commuting operator protocol.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# 視覚変換器のインスタンス対応グループ量子化

Instance-Aware Group Quantization for Vision Transformers ( http://arxiv.org/abs/2404.00928v1 )

ライセンス: Link先を確認
Jaehyeon Moon, Dohyung Kim, Junyong Cheon, Bumsub Ham, (参考訳) ポストトレーニング量子化(PTQ)は、未ラベル標本の小さな校正セットのみを用いて事前訓練された完全精度モデルを量子化する効率的なモデル圧縮手法である。 畳み込みニューラルネットワーク(CNN)のPTQ手法は、完全精度のニューラルネットワークに匹敵する量子化結果を提供する。 しかし、視覚変換器(ViT)に直接適用すると、主にCNNとViTのアーキテクチャの違いにより、性能が著しく低下する。 特に、チャネルごとのアクティベーションの分布は入力インスタンスによって大きく異なり、CNNのPTQメソッドはViTに不適切である。 これを解決するために、VIT(IGQ-ViT)のインスタンス対応グループ量子化を導入する。 そこで本研究では,各入力インスタンスに対して,アクティベーションマップのチャネルを動的に複数のグループに分割し,グループ内のアクティベーションが同様の統計特性を共有することを提案する。 また、トークン間でソフトマックスの注意を定量化するためのスキームも拡張します。 さらに、ビット演算(BOP)制約の下で、各層に対するグループ数を調整することにより、量子化モデルと完全精度モデルとの差を最小限に抑える。 画像分類,オブジェクト検出,インスタンスセグメンテーションについて,様々なトランスフォーマーアーキテクチャを用いて実験を行い,本手法の有効性を実証した。

Post-training quantization (PTQ) is an efficient model compression technique that quantizes a pretrained full-precision model using only a small calibration set of unlabeled samples without retraining. PTQ methods for convolutional neural networks (CNNs) provide quantization results comparable to full-precision counterparts. Directly applying them to vision transformers (ViTs), however, incurs severe performance degradation, mainly due to the differences in architectures between CNNs and ViTs. In particular, the distribution of activations for each channel vary drastically according to input instances, making PTQ methods for CNNs inappropriate for ViTs. To address this, we introduce instance-aware group quantization for ViTs (IGQ-ViT). To this end, we propose to split the channels of activation maps into multiple groups dynamically for each input instance, such that activations within each group share similar statistical properties. We also extend our scheme to quantize softmax attentions across tokens. In addition, the number of groups for each layer is adjusted to minimize the discrepancies between predictions from quantized and full-precision models, under a bit-operation (BOP) constraint. We show extensive experimental results on image classification, object detection, and instance segmentation, with various transformer architectures, demonstrating the effectiveness of our approach.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# 多言語大言語モデルに関する調査:コーパス,アライメント,バイアス

A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias ( http://arxiv.org/abs/2404.00929v1 )

ライセンス: Link先を確認
Yuemei Xu, Ling Hu, Jiayi Zhao, Zihan Qiu, Yuqi Ye, Hanwen Gu, (参考訳) LLM(Large Language Models)の基盤に基づいて、多言語自然言語処理タスクの課題に対処するために、多言語大言語モデル(MLLM)が開発された。 しかし、言語不均衡、多言語アライメント、固有のバイアスなど、大きな制限と課題がまだ残っている。 本稿では,これらの重要な問題をめぐる議論を深く掘り下げ,MLLMを包括的に分析することを目的とする。 まず、MLLMの概要を示し、その進化、鍵となる技術、多言語能力について述べる。 第2に,MLLM の訓練に広く利用されている多言語コーパスと,MLLM の言語横断能力向上に不可欠な下流タスクを指向した多言語データセットについて検討する。 第3に、多言語表現に関する既存の研究を調査し、現在のMLLMが普遍言語表現を学べるかどうかを検討する。 第4に,そのカテゴリと評価指標を含むMLLMのバイアスについて論じ,既存のデバイアス手法を要約する。 最後に,既存の課題について議論し,有望な研究方向性を指摘する。 本稿では,これらの側面を実証することにより,MLLMとその諸分野における可能性の理解を深めることを目的とする。

Based on the foundation of Large Language Models (LLMs), Multilingual Large Language Models (MLLMs) have been developed to address the challenges of multilingual natural language processing tasks, hoping to achieve knowledge transfer from high-resource to low-resource languages. However, significant limitations and challenges still exist, such as language imbalance, multilingual alignment, and inherent bias. In this paper, we aim to provide a comprehensive analysis of MLLMs, delving deeply into discussions surrounding these critical issues. First of all, we start by presenting an overview of MLLMs, covering their evolution, key techniques, and multilingual capacities. Secondly, we explore widely utilized multilingual corpora for MLLMs' training and multilingual datasets oriented for downstream tasks that are crucial for enhancing the cross-lingual capability of MLLMs. Thirdly, we survey the existing studies on multilingual representations and investigate whether the current MLLMs can learn a universal language representation. Fourthly, we discuss bias on MLLMs including its category and evaluation metrics, and summarize the existing debiasing techniques. Finally, we discuss existing challenges and point out promising research directions. By demonstrating these aspects, this paper aims to facilitate a deeper understanding of MLLMs and their potentiality in various domains.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# PSYDIAL:大規模言語モデルを用いたパーソナリティに基づく対話生成

PSYDIAL: Personality-based Synthetic Dialogue Generation using Large Language Models ( http://arxiv.org/abs/2404.00930v1 )

ライセンス: Link先を確認
Ji-Eun Han, Jun-Seok Koh, Hyeon-Tae Seo, Du-Seong Chang, Kyung-Ah Sohn, (参考訳) 本稿では,大規模言語モデルからの応答をプロンプトによって引き出すための,エンドツーエンドのパーソナリティに基づく合成対話データ生成パイプラインを提案する。 チャットボットを利用する場合、現実のシナリオを考慮し、より人間的な対話を生成するためのプロンプトを設計する。 提案したパイプラインを用いて,パーソナリティに基づく対話に焦点を当てた韓国初の対話データセットPSYDIALを紹介した。 特に,本研究では,ビッグファイブ・パーソナリティ・モデルにおける外転次元に着目した。 実験結果から, 事前学習モデルと, チャイトチャットデータセットを用いた微調整モデルでは, 人格を反映する応答を生成するのに苦労する一方で, PSYDIALでトレーニングしたモデルでは, 大幅な改善が見られた。 パイプラインの汎用性は、対話タスクを超えて、他の非対話関連アプリケーションの可能性を提供します。 この研究は、韓国や他の言語で、よりニュアンスで個性中心の会話型AIの扉を開く。 私たちのコードはhttps://github.com/jiSilverH/psydial.comで公開されています。

We present a novel end-to-end personality-based synthetic dialogue data generation pipeline, specifically designed to elicit responses from large language models via prompting. We design the prompts to generate more human-like dialogues considering real-world scenarios when users engage with chatbots. We introduce PSYDIAL, the first Korean dialogue dataset focused on personality-based dialogues, curated using our proposed pipeline. Notably, we focus on the Extraversion dimension of the Big Five personality model in our research. Experimental results indicate that while pre-trained models and those fine-tuned with a chit-chat dataset struggle to generate responses reflecting personality, models trained with PSYDIAL show significant improvements. The versatility of our pipeline extends beyond dialogue tasks, offering potential for other non-dialogue related applications. This research opens doors for more nuanced, personality-driven conversational AI in Korean and potentially other languages. Our code is publicly available at https://github.com/jiSilverH/psydial.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# GOV-NeSF: 一般化可能なオープン語彙ニューラルセマンティックフィールド

GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields ( http://arxiv.org/abs/2404.00931v1 )

ライセンス: Link先を確認
Yunsong Wang, Hanlin Chen, Gim Hee Lee, (参考訳) 視覚言語基礎モデルの最近の進歩は、オープン語彙の3Dシーン理解を大幅に強化した。 しかし,既存の手法の一般化性は,フレームワークの設計と3Dデータへの依存により制約されている。 オープン語彙意味論を用いた3次元シーンの一般化可能な暗黙的表現を提供する新しいアプローチであるGOV-NeSF(Generalizable Open-Vocabulary Neural Semantic Fields)を導入することで、この制限に対処する。 コストボリュームを用いて幾何学的特徴を集約し,多視点統合モジュールを提案する。多視点統合モジュールは,色と開語彙の両方の特徴に対して,ビュー固有のブレンディング重みを効果的に予測するクロスビューアテンション機構により,多視点特徴を集約する。 注目すべきことに、GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセマンティックセマンティクスにおいて最先端のパフォーマンスを示し、基底真理セマンティクスラベルや深度事前の必要性を排除し、微調整なしでシーンやデータセットを効果的に一般化する。

Recent advancements in vision-language foundation models have significantly enhanced open-vocabulary 3D scene understanding. However, the generalizability of existing methods is constrained due to their framework designs and their reliance on 3D data. We address this limitation by introducing Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF), a novel approach offering a generalizable implicit representation of 3D scenes with open-vocabulary semantics. We aggregate the geometry-aware features using a cost volume, and propose a Multi-view Joint Fusion module to aggregate multi-view features through a cross-view attention mechanism, which effectively predicts view-specific blending weights for both colors and open-vocabulary features. Remarkably, our GOV-NeSF exhibits state-of-the-art performance in both 2D and 3D open-vocabulary semantic segmentation, eliminating the need for ground truth semantic labels or depth priors, and effectively generalize across scenes and datasets without fine-tuning.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# ChatGLM-RLHF:人間のフィードバックによる大規模言語モデルの調整の実践

ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback ( http://arxiv.org/abs/2404.00934v1 )

ライセンス: Link先を確認
Zhenyu Hou, Yiin Niu, Zhengxiao Du, Xiaohan Zhang, Xiao Liu, Aohan Zeng, Qinkai Zheng, Minlie Huang, Hongning Wang, Jie Tang, Yuxiao Dong, (参考訳) ChatGLMは、大規模な言語モデル(LLM)のChatGLMファミリを利用した、無償のAIサービスである。 本稿では,ChatGLM-RLHFパイプラインについて述べる。 ChatGLM-RLHFは、人間の嗜好データの収集、報酬モデルのトレーニング、ポリシーの最適化の3つの主要なコンポーネントを含んでいる。 ChatGLM-RLHFを製品に統合するプロセスを通じて、私たちはいくつかの前例のない課題に遭遇し、対処しました。 大規模訓練における報酬分散を緩和する戦略を導入し, 連立モデルによるモデル並列化を実現し, LLMにおける破滅的な忘れ込みを避けるための正規化制約を設計する。 実験により、ChatGLM-RLHFは、教師付き微調整(SFT)バージョンのChatGLMと比較して、アライメントタスクに大きな改善をもたらすことが示された。 例えば、中国のアライメントタスクにおいて、ChatGLM-SFTに対する平均15倍の勝利を達成する。 本研究は,LLHF実装における課題とソリューションに関する洞察を提供するとともに,LLMと人間の嗜好の整合性を示す。

ChatGLM is a free-to-use AI service powered by the ChatGLM family of large language models (LLMs). In this paper, we present the ChatGLM-RLHF pipeline -- a reinforcement learning from human feedback (RLHF) system -- designed to enhance ChatGLM's alignment with human preferences. ChatGLM-RLHF encompasses three major components: the collection of human preference data, the training of the reward model, and the optimization of policies. Throughout the process of integrating ChatGLM-RLHF into production, we encountered and addressed several unprecedented challenges. We introduce the strategies to mitigate reward variance for stabilized large-scale training, implement model parallelism with fused gradient-descent, and design regularization constraints to avoid catastrophic forgetting in LLMs. Experiments show that ChatGLM-RLHF brings significant improvements in alignment tasks compared to the supervised fine-tuned (SFT) version of ChatGLM. For instance, it achieves on average 15\% more wins against ChatGLM-SFT in Chinese alignment tasks. The work presents our practices of aligning LLMs with human preferences, offering insights into the challenges and solutions in RLHF implementations.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# ランダム回路サンプリング:フーリエ展開と統計

Random Circuit Sampling: Fourier Expansion and Statistics ( http://arxiv.org/abs/2404.00935v1 )

ライセンス: Link先を確認
Gil Kalai, Yosef Rinott, Tomer Shoham, (参考訳) 実験量子コンピューティングにおける考慮すべき取り組みは、ノイズの多い中間量子コンピュータ(NISQ)に向けられている。 ノイズの効果を理解することは、量子超越性を達成するための顕著な主張や、量子誤り訂正符号の実証の試みを含む、この取り組みの様々な側面において重要である。 本稿では,フーリエ法と統計的解析を組み合わせることで,雑音の影響について検討する。 特にフーリエ解析を用いて線形クロスエントロピーフィデリティ推定器を改良する。 解析手法とシミュレーションの両方を用いて、読み出しとゲートエラーの影響を調査し、分析を用いて、Googleの2019年の量子超越実験のサンプルを調査します。

Considerable effort in experimental quantum computing is devoted to noisy intermediate scale quantum computers (NISQ computers). Understanding the effect of noise is important for various aspects of this endeavor including notable claims for achieving quantum supremacy and attempts to demonstrate quantum error correcting codes. In this paper we use Fourier methods combined with statistical analysis to study the effect of noise. In particular, we use Fourier analysis to refine the linear cross-entropy fidelity estimator. We use both analytical methods and simulations to study the effect of readout and gate errors, and we use our analysis to study the samples of Google's 2019 quantum supremacy experiment.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# 大規模言語モデルはいかにして社会的に補助的な人間とロボットの相互作用を可能にするか:簡単な調査

How Can Large Language Models Enable Better Socially Assistive Human-Robot Interaction: A Brief Survey ( http://arxiv.org/abs/2404.00938v1 )

ライセンス: Link先を確認
Zhonghao Shi, Ellen Landrum, Amy O' Connell, Mina Kian, Leticia Pinto-Alva, Kaleen Shrestha, Xiaoyuan Zhu, Maja J Matarić, (参考訳) 社会支援ロボット(SAR)は、高齢者、自閉症スペクトラム障害(ASD)児、精神健康上の課題を抱える個人など、特別なニーズを持つ利用者に対して、パーソナライズされた認知影響支援を提供することで大きな成功を収めている。 SARに関する大規模な研究は、精神保健専門家が提供したクリニックベースの介入を補完する在宅サポートを提供することの可能性を示し、これらの介入をより効果的かつアクセスしやすいものにする。 しかし、SARを介するインタラクションや介入が人間レベルの社会的知性と有効性に到達するのを妨げる、いくつかの大きな技術的課題がある。 大規模言語モデル(LLM)の最近の進歩により、SARの現在の能力を大幅に拡張できる新しい応用の可能性が高まっている。 しかし、LSMの導入は、まだ遭遇していない新たなリスクと倫理的懸念を導入し、これらのより高度なシステムを安全にデプロイするには慎重に対処する必要がある。 本研究は,SAR技術におけるLLMの利用に関する簡単な調査を行い,SARの次の3つの主要な技術的課題にLLMを適用する可能性とリスクについて考察することを目的とする。 1) 自然言語対話 2) マルチモーダル理解 3)ロボット政策としてのLSM

Socially assistive robots (SARs) have shown great success in providing personalized cognitive-affective support for user populations with special needs such as older adults, children with autism spectrum disorder (ASD), and individuals with mental health challenges. The large body of work on SAR demonstrates its potential to provide at-home support that complements clinic-based interventions delivered by mental health professionals, making these interventions more effective and accessible. However, there are still several major technical challenges that hinder SAR-mediated interactions and interventions from reaching human-level social intelligence and efficacy. With the recent advances in large language models (LLMs), there is an increased potential for novel applications within the field of SAR that can significantly expand the current capabilities of SARs. However, incorporating LLMs introduces new risks and ethical concerns that have not yet been encountered, and must be carefully be addressed to safely deploy these more advanced systems. In this work, we aim to conduct a brief survey on the use of LLMs in SAR technologies, and discuss the potentials and risks of applying LLMs to the following three major technical challenges of SAR: 1) natural language dialog; 2) multimodal understanding; 3) LLMs as robot policies.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# 大規模知識グラフを用いた大規模言語モデルの現実性評価

Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs ( http://arxiv.org/abs/2404.00942v1 )

ライセンス: Link先を確認
Xiaoze Liu, Feijie Wu, Tianyang Xu, Zhuo Chen, Yichi Zhang, Xiaoqian Wang, Jing Gao, (参考訳) 大規模言語モデル(LLM)の出現は、AIのランドスケープを大きく変え、機械学習とAI機能を強化した。 現実的に誤った反応を生じさせる可能性があるため、現実性の問題はLLMにとって重要な問題である。 本稿では,かなり大きなテストデータセットを用いて,LLMの性能を評価するためのGraphEvalを提案する。 具体的には、テストデータセットは、高価な人間の努力なしに1000万件以上の事実を持つ巨大な知識グラフから取得される。 生成された応答に基づいてLCMを評価する従来の方法とは異なり、GraphEvalは、LCMが与える回答の正しさを推定する判断モデルを作成することにより、評価プロセスを合理化している。 本実験により, 判定モデルの事実性評価は, LLMが生成した出力の正確性と密接に一致し, 評価コストを大幅に削減することを示した。 さらに,この結果から,LLM出力の実態の整合性を確保する上での今後の改善の可能性を明らかにするとともに,異なる指標間でのLLM性能に関する貴重な知見が得られた。 コードはhttps://github.com/xz-liu/GraphEval.comで公開されている。

The advent of Large Language Models (LLMs) has significantly transformed the AI landscape, enhancing machine learning and AI capabilities. Factuality issue is a critical concern for LLMs, as they may generate factually incorrect responses. In this paper, we propose GraphEval to evaluate an LLM's performance using a substantially large test dataset. Specifically, the test dataset is retrieved from a large knowledge graph with more than 10 million facts without expensive human efforts. Unlike conventional methods that evaluate LLMs based on generated responses, GraphEval streamlines the evaluation process by creating a judge model to estimate the correctness of the answers given by the LLM. Our experiments demonstrate that the judge model's factuality assessment aligns closely with the correctness of the LLM's generated outputs, while also substantially reducing evaluation costs. Besides, our findings offer valuable insights into LLM performance across different metrics and highlight the potential for future improvements in ensuring the factual integrity of LLM outputs. The code is publicly available at https://github.com/xz-liu/GraphEval.
翻訳日:2024-04-03 23:16:25 公開日:2024-04-01
# Evalverse: 大規模言語モデル評価のための統一かつアクセシブルなライブラリ

Evalverse: Unified and Accessible Library for Large Language Model Evaluation ( http://arxiv.org/abs/2404.00943v1 )

ライセンス: Link先を確認
Jihoo Kim, Wonho Song, Dahyun Kim, Yunsu Kim, Yungi Kim, Chanjun Park, (参考訳) 本稿では,異なる評価ツールを単一のユーザフレンドリーなフレームワークに統合することにより,LLM(Large Language Models)の評価を効率化する新しいライブラリであるEvalverseを紹介する。 Evalverseは、人工知能に関する限られた知識を持つ個人が、LLM評価を簡単に要求し、Slackのようなコミュニケーションプラットフォームとの統合によって促進される詳細なレポートを受け取ることを可能にする。 このように、EvalverseはLLMを総合的に評価するための強力なツールとして機能し、研究者と実践者の両方に、集中的で容易にアクセス可能な評価フレームワークを提供する。 最後に、Evalverseのデモビデオを提供し、その機能と実装を2分間のフォーマットで示す。

This paper introduces Evalverse, a novel library that streamlines the evaluation of Large Language Models (LLMs) by unifying disparate evaluation tools into a single, user-friendly framework. Evalverse enables individuals with limited knowledge of artificial intelligence to easily request LLM evaluations and receive detailed reports, facilitated by an integration with communication platforms like Slack. Thus, Evalverse serves as a powerful tool for the comprehensive assessment of LLMs, offering both researchers and practitioners a centralized and easily accessible evaluation framework. Finally, we also provide a demo video for Evalverse, showcasing its capabilities and implementation in a two-minute format.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# アルツハイマー病分類のための深層学習モデルにおけるグループNormalizationの有効性の検討

Exploring the Efficacy of Group-Normalization in Deep Learning Models for Alzheimer's Disease Classification ( http://arxiv.org/abs/2404.00946v1 )

ライセンス: Link先を確認
Gousia Habib, Ishfaq Ahmed Malik, Jameel Ahmad, Imtiaz Ahmed, Shaima Qureshi, (参考訳) バッチ正規化は、複数のネットワークを同時にトレーニングできるため、ディープラーニングを進めるための重要なアプローチである。 B.N.の誤差は、バッチ統計が不正確であるため、バッチサイズが小さくなるにつれて著しく増加するので、バッチ次元に沿って正規化する際に問題が発生する。 その結果、メモリ消費に基づいた小さなバッチを必要とする検出、セグメンテーション、ビデオなどのコンピュータビジョンタスクは、より大きなモデルトレーニングと機能転送にバッチ正規化を使用するには適していない。 ここでは,グループ正規化をバッチ正規化に代わる簡単な方法として検討する。グループ正規化とは,各グループを異なるチャネルに分割し,対応する平均と分散を計算するチャネル正規化手法である。 グループ正規化計算は幅広いバッチサイズで正確であり、バッチサイズとは無関係である。 ResNet-50で大規模なImageNetデータベースを使用してトレーニングすると、GNはバッチ正規化と比較して非常に低い10.6%のエラー率を達成する。 小さいバッチサイズが 2 個しか使われていない場合です 通常のバッチサイズでは、G.N.の性能はバッチ正規化に匹敵するが、同時に他の正規化技術よりも優れている。 グループ正規化をB.Nの直接的な代替として実装し、分類精度が同等または改善されたディープラーニングモデルにおいて、バッチ正規化が直面する深刻な課題に対処する。 さらに、群正規化は、事前訓練から微調整フェーズへ自然に移行することができる。 と。

Batch Normalization is an important approach to advancing deep learning since it allows multiple networks to train simultaneously. A problem arises when normalizing along the batch dimension because B.N.'s error increases significantly as batch size shrinks because batch statistics estimates are inaccurate. As a result, computer vision tasks like detection, segmentation, and video, which require tiny batches based on memory consumption, aren't suitable for using Batch Normalization for larger model training and feature transfer. Here, we explore Group Normalization as an easy alternative to using Batch Normalization A Group Normalization is a channel normalization method in which each group is divided into different channels, and the corresponding mean and variance are calculated for each group. Group Normalization computations are accurate across a wide range of batch sizes and are independent of batch size. When trained using a large ImageNet database on ResNet-50, GN achieves a very low error rate of 10.6% compared to Batch Normalization. when a smaller batch size of only 2 is used. For usual batch sizes, the performance of G.N. is comparable to that of Batch Normalization, but at the same time, it outperforms other normalization techniques. Implementing Group Normalization as a direct alternative to B.N to combat the serious challenges faced by the Batch Normalization in deep learning models with comparable or improved classification accuracy. Additionally, Group Normalization can be naturally transferred from the pre-training to the fine-tuning phase. .
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# パッチを用いたバイオメディカル画像分類における注意力の調和

Harnessing The Power of Attention For Patch-Based Biomedical Image Classification ( http://arxiv.org/abs/2404.00949v1 )

ライセンス: Link先を確認
Gousia Habib, Shaima Qureshi, Malik ishfaq, (参考訳) バイオメディカル画像解析は、自己認識機構に根ざした革新的なアーキテクチャによって促進される。 固定サイズのウィンドウを特徴とする従来の畳み込みニューラルネットワーク(CNN)は、複雑な空間的および時間的関係をピクセルレベルで捉えるのに役立つ必要がある。 CNNフィルタの重み付け後の不変性は入力変動をさらに制限する。 これらの制約を認識し、コンボリューションの代わりに注目モデルの新しいパラダイムを提案する。 従来のCNNに代わるものとして、これらのモデルは堅牢なモデリング機能と、包括的な長距離コンテキスト情報を効率的に把握する能力を示している。 帰納的バイアス、重み付け、受容的フィールド制限、高解像度のデータ処理など、注意に基づく視覚モデルが直面する重要な課題に対する解決策を提供するため、我々の研究は、非重複(バニラパッチ)と新しい重なり合うシフトドパッチ技術(S.P.T.s)を組み合わせて、モデルの一般化を促進するローカルコンテキストを誘導する。 さらに,可変画像サイズを高分解能に適応させる新しいLancoz5補間手法について検討した。 実験的なエビデンスにより,既存手法と比較し,モデルの一般化の有効性が検証された。 注意に基づく手法は、特に高度なデータ拡張手法を統合してその堅牢性を強化する場合、十分なデータに対して特に有効である。

Biomedical image analysis can be facilitated by an innovative architecture rooted in self-attention mechanisms. The traditional convolutional neural network (CNN), characterized by fixed-sized windows, needs help capturing intricate spatial and temporal relations at the pixel level. The immutability of CNN filter weights post-training further restricts input fluctuations. Recognizing these limitations, we propose a new paradigm of attention-based models instead of convolutions. As an alternative to traditional CNNs, these models demonstrate robust modelling capabilities and the ability to grasp comprehensive long-range contextual information efficiently. Providing a solution to critical challenges faced by attention-based vision models such as inductive bias, weight sharing, receptive field limitations, and data handling in high resolution, our work combines non-overlapping (vanilla patching) with novel overlapped Shifted Patching Techniques (S.P.T.s) to induce local context that enhances model generalization. Moreover, we examine the novel Lancoz5 interpolation technique, which adapts variable image sizes to higher resolutions. Experimental evidence validates our model's generalization effectiveness, comparing favourably with existing approaches. Attention-based methods are particularly effective with ample data, especially when advanced data augmentation methodologies are integrated to strengthen their robustness.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# SemEval-2024 Task 8 における AISPACE:マルチジェネレータ生成テキスト検出のためのクラスバランスソフト投票システム

AISPACE at SemEval-2024 task 8: A Class-balanced Soft-voting System for Detecting Multi-generator Machine-generated Text ( http://arxiv.org/abs/2404.00950v1 )

ライセンス: Link先を確認
Renhua Gu, Xiangfeng Meng, (参考訳) SemEval-2024 Task 8は、人書きテキストと機械生成テキストを検出するための課題を提供する。 異なる検出シナリオには3つのサブタスクがある。 本稿では,主にSubtask Bを扱うシステムを提案する。本システムは,与えられた全文が人間によって書かれたか,あるいは,実際にマルチクラステキスト分類タスクである特定のLarge Language Model(LLM)によって生成されたかを検出することを目的としている。 当社の AISPACE チームは,エンコーダオンリー,デコーダオンリー,エンコーダ-デコーダモデルを含む,微調整トランスフォーマベースモデルの体系的研究を行った。 このタスクでそれらの性能を比較して,エンコーダのみのモデルが極めて良好に動作していることを確認した。 また、重み付きクロスエントロピー損失関数を適用し、異なるクラスサンプルのデータ不均衡の問題に対処した。 さらに,予測の信頼性を高めるため,マルチモデルアンサンブル上でのソフトボッティング戦略を採用した。 我々のシステムはSubtask Bの上位1位にランクインした。

SemEval-2024 Task 8 provides a challenge to detect human-written and machine-generated text. There are 3 subtasks for different detection scenarios. This paper proposes a system that mainly deals with Subtask B. It aims to detect if given full text is written by human or is generated by a specific Large Language Model (LLM), which is actually a multi-class text classification task. Our team AISPACE conducted a systematic study of fine-tuning transformer-based models, including encoderonly, decoder-only and encoder-decoder models. We compared their performance on this task and identified that encoder-only models performed exceptionally well. We also applied a weighted Cross Entropy loss function to address the issue of data imbalance of different class samples. Additionally, we employed softvoting strategy over multi-models ensemble to enhance the reliability of our predictions. Our system ranked top 1 in Subtask B, which sets a state-of-the-art benchmark for this new challenge.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# 非教師なし点雲形状対応のための等変局所参照フレーム

Equivariant Local Reference Frames for Unsupervised Non-rigid Point Cloud Shape Correspondence ( http://arxiv.org/abs/2404.00959v1 )

ライセンス: Link先を確認
Ling Wang, Runfa Chen, Yikai Wang, Fuchun Sun, Xinzhou Wang, Sun Kai, Guangyuan Fu, Jianwei Zhang, Wenbing Huang, (参考訳) 教師なしの非剛点雲の形状対応は、多くの3次元視覚タスクを支えるが、それ自身は、点間自由度から生じる指数的複雑性、すなわち、ポーズ変換から生じる指数的複雑性を考えると、自明ではない。 局所剛性の仮定に基づいて、複雑さを減らす一つの解決策は、SE(3)変換に不変な局所参照フレーム(LRF)を用いて、全体形状を独立した局所領域に分解することである。 しかし、局所構造のみに焦点が当てられることは、グローバルな幾何学的文脈を無視するものであり、結果として、効果的なマッチングに必要な重要な意味情報が欠如している、独特なLRFは無視される。 さらに、そのような複雑さは推論中の分布外幾何学的文脈を導入し、一般化を複雑にする。 この目的のために紹介する。 1EquiShapeは、空間的・意味的整合性のためのグローバルな構造的手がかりを持つペアワイズLRFの学習に適した新しい構造である。 2) LRF-Refineは一般化問題に対処することを目的とした最適化手法である。 具体的には、EquiShapeでは、異なる同変グラフニューラルネットワーク(Cross-GVP)内でクロストークを用いて、局所構造モデリングにおける意味情報の欠如を補うために長距離依存を構築し、各点に対してペア独立なSE(3)-等変LRFベクトルを導出する。 LRF-Refineの場合、最適化は特定の文脈や知識内でのLRFを調整し、点特徴の幾何学的および意味的一般化性を向上する。 われわれのフレームワークは3つのベンチマークで最先端の手法をはるかに上回っている。 コードとモデルは公開されます。

Unsupervised non-rigid point cloud shape correspondence underpins a multitude of 3D vision tasks, yet itself is non-trivial given the exponential complexity stemming from inter-point degree-of-freedom, i.e., pose transformations. Based on the assumption of local rigidity, one solution for reducing complexity is to decompose the overall shape into independent local regions using Local Reference Frames (LRFs) that are invariant to SE(3) transformations. However, the focus solely on local structure neglects global geometric contexts, resulting in less distinctive LRFs that lack crucial semantic information necessary for effective matching. Furthermore, such complexity introduces out-of-distribution geometric contexts during inference, thus complicating generalization. To this end, we introduce 1) EquiShape, a novel structure tailored to learn pair-wise LRFs with global structural cues for both spatial and semantic consistency, and 2) LRF-Refine, an optimization strategy generally applicable to LRF-based methods, aimed at addressing the generalization challenges. Specifically, for EquiShape, we employ cross-talk within separate equivariant graph neural networks (Cross-GVP) to build long-range dependencies to compensate for the lack of semantic information in local structure modeling, deducing pair-wise independent SE(3)-equivariant LRF vectors for each point. For LRF-Refine, the optimization adjusts LRFs within specific contexts and knowledge, enhancing the geometric and semantic generalizability of point features. Our overall framework surpasses the state-of-the-art methods by a large margin on three benchmarks. Code and models will be publicly available.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# 拡散駆動型3次元分子生成領域適応

Diffusion-Driven Domain Adaptation for Generating 3D Molecules ( http://arxiv.org/abs/2404.00962v1 )

ライセンス: Link先を確認
Haokai Hong, Wanyu Lin, Kay Chen Tan, (参考訳) 新たなドメインから3D分子を生成できる分子生成装置をトレーニングして、データ収集の必要を回避できるだろうか? この問題は、ドメイン適応分子生成の問題として考えられる。 この研究は、GADMと呼ばれる新規で原則化された拡散に基づくアプローチを示し、単一の分子を収集しなくても、生成モデルを新しい領域に移行することができる。 ドメインシフトは通常、分子の構造変化(例えば、足場の変化)によって引き起こされるため、指定された同変マスキングオートエンコーダ(MAE)と様々なマスキング戦略を利用して、ドメイン内の多様体の構造的粒度の表現を捉える。 特に、非対称エンコーダデコーダモジュールを使用すると、MAEはターゲットドメインから見つからない構造変化を一般化することができる。 これらの構造変化は、等変エンコーダでエンコードされ、ドメインスーパーバイザとして扱われる。 これらの符号化されたドメインスーパーバイザにより、GADMは所望の新しいドメイン内で有効な分子を生成できることが示される。 ベンチマークデータセット上で、様々な領域適応タスクに対して広範な実験を行う。 本手法は, 分子的妥当性, 特異性, 新規性に基づく成功率において, オルタナティブベースラインと比較して最大65.6%向上できることを示す。

Can we train a molecule generator that can generate 3D molecules from a new domain, circumventing the need to collect data? This problem can be cast as the problem of domain adaptive molecule generation. This work presents a novel and principled diffusion-based approach, called GADM, that allows shifting a generative model to desired new domains without the need to collect even a single molecule. As the domain shift is typically caused by the structure variations of molecules, e.g., scaffold variations, we leverage a designated equivariant masked autoencoder (MAE) along with various masking strategies to capture the structural-grained representations of the in-domain varieties. In particular, with an asymmetric encoder-decoder module, the MAE can generalize to unseen structure variations from the target domains. These structure variations are encoded with an equivariant encoder and treated as domain supervisors to control denoising. We show that, with these encoded structural-grained domain supervisors, GADM can generate effective molecules within the desired new domains. We conduct extensive experiments across various domain adaptation tasks over benchmarking datasets. We show that our approach can improve up to 65.6% in terms of success rate defined based on molecular validity, uniqueness, and novelty compared to alternative baselines.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# S2RC-GCN:ハイパースペクトル画像を用いた複雑な土地被覆分類のための空間スペクトル信頼性コントラストグラフ畳み込みネットワーク

S2RC-GCN: A Spatial-Spectral Reliable Contrastive Graph Convolutional Network for Complex Land Cover Classification Using Hyperspectral Images ( http://arxiv.org/abs/2404.00964v1 )

ライセンス: Link先を確認
Renxiang Guan, Zihao Li, Chujia Song, Guo Yu, Xianju Li, Ruyi Feng, (参考訳) 異なる地盤物体間の空間的相関は、鉱床被覆研究の重要な特徴である。 グラフ畳み込みネットワーク(GCN)はそのような空間的特徴表現を効果的に捉えることができ、複雑な土地のハイパースペクトル画像(HSI)分類タスクの実行において有望な結果を示した。 しかし、既存のGCNベースのHSI分類法は、複雑な特徴を抽出する際に冗長な情報から干渉しがちである。 複雑なシーンをより効果的に分類するために,S2RC-GCNという新しい空間スペクトル信頼性コントラストグラフ畳み込み分類フレームワークを提案する。 具体的には、1Dエンコーダと2Dエンコーダによって抽出されたスペクトルと空間の特徴を融合させ、2Dエンコーダは重要な情報を自動抽出するアテンションモデルを含む。 次に、融合した高次特徴を活用してグラフを構築し、結果のグラフをGCNに供給し、より効率的なグラフ表現を決定する。 さらに、信頼性のあるコントラストグラフ畳み込みを提案し、信頼性のあるコントラスト学習を行い、ロバストな特徴を学習し、融合させた。 最後に、複雑な対象分類におけるモデルの性能をテストするために、江西地区のGaofen-5で撮影された画像を用いて、複雑な土地被覆データセットを構築した。 実験の結果, 他のモデルと比較すると, モデルが最良の結果を得ることができ, 複雑なリモートセンシング画像の分類性能を効果的に向上することがわかった。

Spatial correlations between different ground objects are an important feature of mining land cover research. Graph Convolutional Networks (GCNs) can effectively capture such spatial feature representations and have demonstrated promising results in performing hyperspectral imagery (HSI) classification tasks of complex land. However, the existing GCN-based HSI classification methods are prone to interference from redundant information when extracting complex features. To classify complex scenes more effectively, this study proposes a novel spatial-spectral reliable contrastive graph convolutional classification framework named S2RC-GCN. Specifically, we fused the spectral and spatial features extracted by the 1D- and 2D-encoder, and the 2D-encoder includes an attention model to automatically extract important information. We then leveraged the fused high-level features to construct graphs and fed the resulting graphs into the GCNs to determine more effective graph representations. Furthermore, a novel reliable contrastive graph convolution was proposed for reliable contrastive learning to learn and fuse robust features. Finally, to test the performance of the model on complex object classification, we used imagery taken by Gaofen-5 in the Jiang Xia area to construct complex land cover datasets. The test results show that compared with other models, our model achieved the best results and effectively improved the classification performance of complex remote sensing imagery.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# 量子井戸励起子偏光子のボース・アインシュタイン凝縮に及ぼす磁場の影響

Effect of magnetic field on the Bose-Einstein condensation of quantum well exciton-polaritons ( http://arxiv.org/abs/2404.00970v1 )

ライセンス: Link先を確認
Le Tri Dat, Vinh N. T. Pham, Tran Duong Anh-Tai, Vo Quoc Phong, Nguyen Duy Vy, (参考訳) GaAs量子井戸のボース・アインシュタイン凝縮に対する励起子偏光子の緩和過程における磁場の影響を理論的に検討する。 励起子の有効質量、ラビ分裂、分散の修正の結果、凝縮に対する偏光子の緩和速度は著しく変化した。 連続ポンピングを用いて, 全および縮合した偏光子と磁場のダイナミクスを解明した。 その結果, 低エネルギーポンピングでは, 高エネルギーでの分散の急激さが減少すると, エネルギー準位間の散乱速度が低下することが示唆された。 磁場とともにポンプエネルギーが増加すると、より効果的に緩和され、さらに多くの凝縮ポラリトンが得られる。

We theoretically examine the effect of the magnetic field on the relaxation process of the exciton-polariton toward the Bose-Einstein condensation in GaAs quantum wells. As a result of the modification of the exciton's effective mass, Rabi splitting, and dispersion, the relaxation rate of polaritons toward condensation has been significantly modified. Using a continuous pumping, the dynamics of total and condensated polariton versus magnetic field has been clarified. It has been shown that for low-energy pumping, the condensation is significantly reduced with a magnetic field, and this arises from the reduction of the scattering rate between energy levels when the steepness of the dispersion at higher energy is reduced. Increasing of pump energy together with the magnetic field could lead to a more effective relaxation and a much higher number of condensated polariton is obtained.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# LLMを用いたコード生成における幻覚の探索と評価

Exploring and Evaluating Hallucinations in LLM-Powered Code Generation ( http://arxiv.org/abs/2404.00971v1 )

ライセンス: Link先を確認
Fang Liu, Yang Liu, Lin Shi, Houkun Huang, Ruifeng Wang, Zhen Yang, Li Zhang, (参考訳) 大規模言語モデル(LLM)の台頭は、特にコード生成において、ソフトウェア工学のタスクにおける多くのアプリケーションを大幅に進歩させてきた。 有望な性能にもかかわらず、LLMは幻覚を発生させる傾向があり、つまり、LCMはユーザーの意図から逸脱した出力を生成したり、内部の矛盾を示したり、事実の知識と不一致を示したりし、LSMの展開を広範囲のアプリケーションで危険に晒す可能性がある。 既存の研究は、主に自然言語生成(NLG)分野における幻覚の投資に重点を置いており、コード生成の文脈における幻覚のタイプと範囲を理解することのギャップを残している。 このギャップを埋めるために,LLM生成コードのテーマ解析を行い,その中に存在する幻覚を要約し分類した。 本研究は,LLM生成コードにおける幻覚の包括的分類を確立した。 さらに,幻覚の分布を系統的に解析し,異なるLLM間の変動とコード正しさとの相関について検討した。 この結果をもとに,幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案した。 HalluCodeとHumanEvalによる幻覚認識と緩和実験は、既存のLLMが幻覚を認識する上で大きな課題に直面していることを示している。 我々の発見は、幻覚の評価、検出、緩和に関する将来の研究に光を当て、最終的には、より効果的で信頼性の高いLCMを構築するための道を開くだろうと信じています。

The rise of Large Language Models (LLMs) has significantly advanced many applications on software engineering tasks, particularly in code generation. Despite the promising performance, LLMs are prone to generate hallucinations, which means LLMs might produce outputs that deviate from users' intent, exhibit internal inconsistencies, or misalign with the factual knowledge, making the deployment of LLMs potentially risky in a wide range of applications. Existing work mainly focuses on investing the hallucination in the domain of natural language generation (NLG), leaving a gap in understanding the types and extent of hallucinations in the context of code generation. To bridge the gap, we conducted a thematic analysis of the LLM-generated code to summarize and categorize the hallucinations present in it. Our study established a comprehensive taxonomy of hallucinations in LLM-generated code, encompassing 5 primary categories of hallucinations depending on the conflicting objectives and varying degrees of deviation observed in code generation. Furthermore, we systematically analyzed the distribution of hallucinations, exploring variations among different LLMs and their correlation with code correctness. Based on the results, we proposed HalluCode, a benchmark for evaluating the performance of code LLMs in recognizing hallucinations. Hallucination recognition and mitigation experiments with HalluCode and HumanEval show existing LLMs face great challenges in recognizing hallucinations, particularly in identifying their types, and are hardly able to mitigate hallucinations. We believe our findings will shed light on future research about hallucination evaluation, detection, and mitigation, ultimately paving the way for building more effective and reliable code LLMs in the future.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# VideoDistill:ビデオ質問応答のための言語対応視覚蒸留

VideoDistill: Language-aware Vision Distillation for Video Question Answering ( http://arxiv.org/abs/2404.00973v1 )

ライセンス: Link先を確認
Bo Zou, Chao Yang, Yu Qiao, Chengbin Quan, Youjian Zhao, (参考訳) ビデオ質問応答(VideoQA)の大幅な進歩は、大規模な画像言語事前学習フレームワークの強化によるものである。 これらの画像言語モデルは、ビデオと言語の両方を効率的に表現できるが、通常、ゴールフリーの視覚知覚プロセスを使用し、回答生成時に言語と視覚をうまく相互作用しないため、重要な視覚的手がかりを省略する。 本稿では、人間の認識と学習パターンに着想を得て、視覚知覚と回答生成プロセスの両方において、言語認識(すなわちゴール駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。 VideoDistillは、質問に関連する視覚的埋め込みからのみ回答を生成し、人間の行動によく似た思考を観察するアプローチに従って、以前の研究と区別する。 具体的には,言語が視覚表現に直接融合することを避けるため,言語認識型ゲーティング機構を開発した。 このメカニズムをフレームワーク全体の2つの重要なコンポーネントに組み込む。 第1のコンポーネントは差別化可能なスパースサンプリングモジュールで、質問に関連する必要なダイナミックスとセマンティクスを含むフレームを選択する。 第2のコンポーネントは、既存の空間的注意層をマージして、質問に関連する多義的な視覚的セマンティクスの抽出を保証するビジョンリファインメントモジュールである。 我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VoiceDistillは,一般的なビデオQAデータセットと長文ビデオQAデータセットの両方で最先端のパフォーマンスを達成する。 In addition, we confirmed that VideoDistill could help the use of language shortcut solution in the EgoTaskQA dataset。

Significant advancements in video question answering (VideoQA) have been made thanks to thriving large image-language pretraining frameworks. Although these image-language models can efficiently represent both video and language branches, they typically employ a goal-free vision perception process and do not interact vision with language well during the answer generation, thus omitting crucial visual cues. In this paper, we are inspired by the human recognition and learning pattern and propose VideoDistill, a framework with language-aware (i.e., goal-driven) behavior in both vision perception and answer generation process. VideoDistill generates answers only from question-related visual embeddings and follows a thinking-observing-answering approach that closely resembles human behavior, distinguishing it from previous research. Specifically, we develop a language-aware gating mechanism to replace the standard cross-attention, avoiding language's direct fusion into visual representations. We incorporate this mechanism into two key components of the entire framework. The first component is a differentiable sparse sampling module, which selects frames containing the necessary dynamics and semantics relevant to the questions. The second component is a vision refinement module that merges existing spatial-temporal attention layers to ensure the extraction of multi-grained visual semantics associated with the questions. We conduct experimental evaluations on various challenging video question-answering benchmarks, and VideoDistill achieves state-of-the-art performance in both general and long-form VideoQA datasets. In Addition, we verify that VideoDistill can effectively alleviate the utilization of language shortcut solutions in the EgoTaskQA dataset.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# 双曲型視覚階層マッピングによる視覚認識の改善

Improving Visual Recognition with Hyperbolical Visual Hierarchy Mapping ( http://arxiv.org/abs/2404.00974v1 )

ライセンス: Link先を確認
Hyeongjun Kwon, Jinhyun Jang, Jin Kim, Kwonyoung Kim, Kwanghoon Sohn, (参考訳) 視覚シーンは階層構造で自然に整理され、粗いセマンティックはいくつかの細部から再帰的に構成される。 このような視覚的階層の探索は、視覚的要素の複雑な関係を認識するために不可欠である。 本稿では,事前学習したディープニューラルネットワーク(DNN)の構造的理解を高めるための新しい手法として,ビジュアル階層マップ(Hi-Mapper)を提案する。 Hi-Mapperは視覚シーンの階層構造を調査する 1) 確率密度のカプセル化による階層木の事前定義,及び 2) 双曲空間における階層的関係を新しい階層的コントラスト的損失で学習する。 予め定義された階層木は、階層分解と符号化手順を通じて、事前訓練されたDNNの視覚的特徴と再帰的に相互作用し、視覚的階層を効果的に識別し、シーン全体の認識を高める。 大規模な実験により、Hi-MapperはDNNの表現能力を著しく向上し、画像分類や高密度予測タスクを含む様々なタスクのパフォーマンスが向上することが示された。

Visual scenes are naturally organized in a hierarchy, where a coarse semantic is recursively comprised of several fine details. Exploring such a visual hierarchy is crucial to recognize the complex relations of visual elements, leading to a comprehensive scene understanding. In this paper, we propose a Visual Hierarchy Mapper (Hi-Mapper), a novel approach for enhancing the structured understanding of the pre-trained Deep Neural Networks (DNNs). Hi-Mapper investigates the hierarchical organization of the visual scene by 1) pre-defining a hierarchy tree through the encapsulation of probability densities; and 2) learning the hierarchical relations in hyperbolic space with a novel hierarchical contrastive loss. The pre-defined hierarchy tree recursively interacts with the visual features of the pre-trained DNNs through hierarchy decomposition and encoding procedures, thereby effectively identifying the visual hierarchy and enhancing the recognition of an entire scene. Extensive experiments demonstrate that Hi-Mapper significantly enhances the representation capability of DNNs, leading to an improved performance on various tasks, including image classification and dense prediction tasks.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# 都市計画と市民参加のための非線形インパルスパターン定式化動的社会的・政治的予測アルゴリズム

Nonlinear Impulse Pattern Formulation dynamical social and political prediction algorithm for city planning and public participation ( http://arxiv.org/abs/2404.00977v1 )

ライセンス: Link先を確認
Rolf Bader, Simon Linke, Stefanie Gernert, (参考訳) 都市計画のための非線形力学アルゴリズムは、健康、芸術的自由、あるいは様々な社会的、政治的利害関係者の経済的発展などの関連するパラメータを予測するためのインパルスパターン定式化(IPF)として提案される。 IPFはすでに、楽器シミュレーション、脳力学、人間と人間の相互作用において、低い計算コストで高い予測精度を示している。 社会的・政治的IPFは、システム状態発達の基本的な3つの方程式、利害関係者の自己適応、2つの適応的相互作用、およびそれぞれの計画状況に適した外部影響条件からなる。 ステークホルダーのインタラクションと開発の典型的なシナリオは、一連のシステムパラメータを調整することによってモデル化されます。 これには、外部からの入力に対する利害関係者の反応、自己適応によるシステムの安定性の向上、仲介的相互作用による利害関係者の収束、直接利害関係者の影響の観点からの複雑なダイナミクスが含まれる。 実際の都市計画シナリオでアルゴリズムを実装するためのワークフローを概説する。 このワークフローには、計画プロセスとその出力の望ましい開発を目指すためのベストプラクティスプランニングを提案する、適切なパラメータセットの機械学習が含まれている。

A nonlinear-dynamical algorithm for city planning is proposed as an Impulse Pattern Formulation (IPF) for predicting relevant parameters like health, artistic freedom, or financial developments of different social or political stakeholders over the cause of a planning process. The IPF has already shown high predictive precision at low computational cost in musical instrument simulations, brain dynamics, and human-human interactions. The social and political IPF consists of three basic equations of system state developments, self-adaptation of stakeholders, two adaptive interactions, and external impact terms suitable for respective planning situations. Typical scenarios of stakeholder interactions and developments are modeled by adjusting a set of system parameters. These include stakeholder reaction to external input, enhanced system stability through self-adaptation, stakeholder convergence due to mediative interaction adaptation, as well as complex dynamics in terms of direct stakeholder impacts. A workflow for implementing the algorithm in real city planning scenarios is outlined. This workflow includes machine learning of a suitable set of parameters suggesting best-practice planning to aim at the desired development of the planning process and its output.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# 事前制約に基づく大規模言語モデル調整のための逆モデル学習

Prior Constraints-based Reward Model Training for Aligning Large Language Models ( http://arxiv.org/abs/2404.00978v1 )

ライセンス: Link先を確認
Hang Zhou, Chenglong Wang, Yimin Hu, Tong Xiao, Chunliang Zhang, Jingbo Zhu, (参考訳) 大規模言語モデル(LLM)の整合性を考慮した強化学習は、典型的にはランキング損失と比較ペアを併用した報酬モデルを訓練するが、この訓練手順には、報酬モデルの訓練中に制約の欠如による強化学習中の報酬スコアの非制御スケーリングという固有の問題がある。 PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。 我々は、PCRMのランクと人間の嗜好との相関と、RLによるLLMの整合性を評価することで、PCRMを総合的に評価する。 実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。 別のボーナスとして、我々の手法は直接選好最適化などの任意のランクベースのアライメント手法に容易に統合でき、一貫した改善をもたらすことができる。

Reinforcement learning with human feedback for aligning large language models (LLMs) trains a reward model typically using ranking loss with comparison pairs.However, the training procedure suffers from an inherent problem: the uncontrolled scaling of reward scores during reinforcement learning due to the lack of constraints while training the reward model.This paper proposes a Prior Constraints-based Reward Model (namely PCRM) training method to mitigate this problem. PCRM incorporates prior constraints, specifically, length ratio and cosine similarity between outputs of each comparison pair, during reward model training to regulate optimization magnitude and control score margins. We comprehensively evaluate PCRM by examining its rank correlation with human preferences and its effectiveness in aligning LLMs via RL. Experimental results demonstrate that PCRM significantly improves alignment performance by effectively constraining reward score scaling. As another bonus, our method is easily integrated into arbitrary rank-based alignment methods, such as direct preference optimization, and can yield consistent improvement.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# PDF: オープンワールド3Dポイントクラウドセマンティックセマンティックセグメンテーションのための確率駆動フレームワーク

PDF: A Probability-Driven Framework for Open World 3D Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2404.00979v1 )

ライセンス: Link先を確認
Jinfeng Xu, Siyuan Yang, Xianzhi Li, Yuan Tang, Yixue Hao, Long Hu, Min Chen, (参考訳) 既存のポイントクラウドセマンティックセグメンテーションネットワークは、未知のクラスを特定して知識を更新できない。 この問題に対処するため,オープンワールドセマンティックセグメンテーションのための確率駆動フレームワーク(PDF)を提案する。 (i)不確実性を推定して未知のクラスを特定する軽量なUデコーダブランチ。 二 擬似ラベルを生成することにより、未知クラスの確率分布特性とともに幾何学的特徴を供給する柔軟な擬似ラベル方式 三 新たな授業を既存の知識基盤に徐々に組み込むための漸進的な知識蒸留戦略。 私たちのフレームワークは、未知の物体を認識して、対応する知識で段階的に学習することのできる、人間のように振る舞うことができる。 S3DISとScanNetv2データセットの実験結果は、提案されたPDFが、オープンワールドセマンティックセマンティックセグメンテーションの両重要なタスクにおいて、他の手法よりも優れていることを示している。

Existing point cloud semantic segmentation networks cannot identify unknown classes and update their knowledge, due to a closed-set and static perspective of the real world, which would induce the intelligent agent to make bad decisions. To address this problem, we propose a Probability-Driven Framework (PDF) for open world semantic segmentation that includes (i) a lightweight U-decoder branch to identify unknown classes by estimating the uncertainties, (ii) a flexible pseudo-labeling scheme to supply geometry features along with probability distribution features of unknown classes by generating pseudo labels, and (iii) an incremental knowledge distillation strategy to incorporate novel classes into the existing knowledge base gradually. Our framework enables the model to behave like human beings, which could recognize unknown objects and incrementally learn them with the corresponding knowledge. Experimental results on the S3DIS and ScanNetv2 datasets demonstrate that the proposed PDF outperforms other methods by a large margin in both important tasks of open world semantic segmentation.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# CAMO: 改良強化学習による相関性を考慮したマスク最適化

CAMO: Correlation-Aware Mask Optimization with Modulated Reinforcement Learning ( http://arxiv.org/abs/2404.00980v1 )

ライセンス: Link先を確認
Xiaoxiao Liang, Haoyu Yang, Kang Liu, Bei Yu, Yuzhe Ma, (参考訳) 光近接補正(OPC)は、現代のVLSI製造において印刷性を確保するための重要なステップである。 機械学習に基づく様々なOPCアプローチが、パフォーマンスと効率を追求するために提案されている。 本稿では,OPC問題の重要な原則を具体的に統合した強化学習型OPCシステムであるCAMOを提案する。 CAMOは、隣接するセグメントの動き間の空間的相関と、OPCにインスパイアされた運動行動選択の変調を明示的に含んでいる。 層パターンと金属層パターンの両方を用いて実験を行う。 その結果,CAMOは学術・産業ともに最先端のOPCエンジンより優れていた。

Optical proximity correction (OPC) is a vital step to ensure printability in modern VLSI manufacturing. Various OPC approaches based on machine learning have been proposed to pursue performance and efficiency, which are typically data-driven and hardly involve any particular considerations of the OPC problem, leading to potential performance or efficiency bottlenecks. In this paper, we propose CAMO, a reinforcement learning-based OPC system that specifically integrates important principles of the OPC problem. CAMO explicitly involves the spatial correlation among the movements of neighboring segments and an OPC-inspired modulation for movement action selection. Experiments are conducted on both via layer patterns and metal layer patterns. The results demonstrate that CAMO outperforms state-of-the-art OPC engines from both academia and industry.
翻訳日:2024-04-03 23:06:39 公開日:2024-04-01
# スマートシティのための継続的学習: 調査

Continual Learning for Smart City: A Survey ( http://arxiv.org/abs/2404.00983v1 )

ライセンス: Link先を確認
Li Yang, Zhipeng Luo, Shiming Zhang, Fei Teng, Tianrui Li, (参考訳) 現代の都市のデジタル化により、巨大なデータボリュームと強力な計算資源が、スマートシティに展開されるインテリジェントモデルの迅速な更新を促進する。 継続学習(CL)は、学習タスク、データ、分散が時間とともに変化する環境に適応するためにモデルを常に更新する、新しい機械学習パラダイムである。 本調査は,スマートシティ開発に広く用いられている継続的学習手法の総合的なレビューを提供する。 内容は3つの部分から構成される。 1)方法論について。 我々は,グラフ学習,時空間学習,マルチモーダル学習,フェデレート学習など,多くの基本的なCL手法と高度なCLフレームワークを,他の学習パラダイムと組み合わせて分類する。 2)アプリケーションワイド。 我々は、交通、環境、公衆衛生、安全、ネットワーク、および都市コンピューティングに関連するデータセットをカバーする多くのCLアプリケーションを提示する。 3)挑戦。 我々は現在の問題と課題について議論し、いくつかの有望な研究方向を想定する。 この調査は、スマートシティ開発で使われている継続的な学習研究の現状を、研究者が迅速に理解し、将来の研究動向に導くのに役立つと信じている。

With the digitization of modern cities, large data volumes and powerful computational resources facilitate the rapid update of intelligent models deployed in smart cities. Continual learning (CL) is a novel machine learning paradigm that constantly updates models to adapt to changing environments, where the learning tasks, data, and distributions can vary over time. Our survey provides a comprehensive review of continual learning methods that are widely used in smart city development. The content consists of three parts: 1) Methodology-wise. We categorize a large number of basic CL methods and advanced CL frameworks in combination with other learning paradigms including graph learning, spatial-temporal learning, multi-modal learning, and federated learning. 2) Application-wise. We present numerous CL applications covering transportation, environment, public health, safety, networks, and associated datasets related to urban computing. 3) Challenges. We discuss current problems and challenges and envision several promising research directions. We believe this survey can help relevant researchers quickly familiarize themselves with the current state of continual learning research used in smart city development and direct them to future research trends.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# C-Flatによる継続的学習の強化

Make Continual Learning Stronger via C-Flat ( http://arxiv.org/abs/2404.00986v1 )

ライセンス: Link先を確認
Ang Bian, Wei Li, Hangjie Yuan, Chengrong Yu, Zixiang Zhao, Mang Wang, Aojun Lu, Tao Feng, (参考訳) 逐次到着タスクから動的に更新された知識を段階的に獲得するモデル一般化能力は、連続学習(CL)における感度安定ジレンマに取り組む上で重要である。 SGDのような損失最小化に基づく最適化に比べて、均一な低損失やスムーズな勾配を有する地区における平坦な最小化を求める重量損失ランドスケープのシャープネスの最小化は、モデル一般化を改善する強力な訓練方法であることが証明された。 しかし、CLのこのトレーニング体制について議論する研究はごくわずかであり、専用設計のゼロ階シャープネスオプティマイザがCL性能を向上させることを証明している。 本研究では,CLに適した平らなロスランドスケープを備えた連続平坦度(C-Flat)法を提案する。 C-Flatは1行のコードだけで簡単に呼び出すことができ、任意のCLメソッドにプラグ&プレイできる。 本稿では,すべてのCLカテゴリに適用されたC-Flatの一般的なフレームワークと,損失最小化器とフラット最小化方式のCLアプローチとの徹底的な比較を行い,ほぼすべてのケースでCL性能を向上できることを示す。 コードは公開時に公開される。

Model generalization ability upon incrementally acquiring dynamically updating knowledge from sequentially arriving tasks is crucial to tackle the sensitivity-stability dilemma in Continual Learning (CL). Weight loss landscape sharpness minimization seeking for flat minima lying in neighborhoods with uniform low loss or smooth gradient is proven to be a strong training regime improving model generalization compared with loss minimization based optimizer like SGD. Yet only a few works have discussed this training regime for CL, proving that dedicated designed zeroth-order sharpness optimizer can improve CL performance. In this work, we propose a Continual Flatness (C-Flat) method featuring a flatter loss landscape tailored for CL. C-Flat could be easily called with only one line of code and is plug-and-play to any CL methods. A general framework of C-Flat applied to all CL categories and a thorough comparison with loss minima optimizer and flat minima based CL approaches is presented in this paper, showing that our method can boost CL performance in almost all cases. Code will be publicly available upon publication.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# FlexiDreamer: FlexiCubesによる単一画像から3D生成

FlexiDreamer: Single Image-to-3D Generation with FlexiCubes ( http://arxiv.org/abs/2404.00987v1 )

ライセンス: Link先を確認
Ruowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu, (参考訳) テキストプロンプトや単一画像からの3Dコンテンツ生成は、最近、品質とスピードが著しく進歩した。 その支配的なパラダイムの1つは、一貫した多視点画像の生成と、スパースビュー再構成である。 しかし、メッシュ表現を直接変形して対象のトポロジに近づくという課題のため、ほとんどの方法論はスパースビュー再構築中に暗黙の表現(NeRFなど)を学び、後処理抽出によってターゲットメッシュを取得する。 暗黙の表現は、リッチな3D情報を効果的にモデル化することができるが、その訓練は通常、長い収束時間を必要とする。 さらに、暗黙のフィールドからの抽出後の操作は、望ましくない視覚的アーティファクトにつながる。 本稿では,対象メッシュをエンドツーエンドに再構成する新しい画像から3d生成フレームワークであるFlexiDreamerを提案する。 フレキシキューブと呼ばれるフレキシブルな勾配に基づく抽出手法を利用することで, 後処理による欠陥を回避し, ターゲットメッシュの直接取得を容易にする。 さらに,FlexiCubesの暗黙のフィールドに段階的に符号化レベルを活性化するマルチレゾリューションハッシュグリッド符号化方式を導入し,ステップごとの最適化を行う。 特に、FlexiDreamerは、単一のNVIDIA A100 GPU上で1分ほどで、単一のビューイメージから高密度な3D構造を復元する。

3D content generation from text prompts or single images has made remarkable progress in quality and speed recently. One of its dominant paradigms involves generating consistent multi-view images followed by a sparse-view reconstruction. However, due to the challenge of directly deforming the mesh representation to approach the target topology, most methodologies learn an implicit representation (such as NeRF) during the sparse-view reconstruction and acquire the target mesh by a post-processing extraction. Although the implicit representation can effectively model rich 3D information, its training typically entails a long convergence time. In addition, the post-extraction operation from the implicit field also leads to undesirable visual artifacts. In this paper, we propose FlexiDreamer, a novel single image-to-3d generation framework that reconstructs the target mesh in an end-to-end manner. By leveraging a flexible gradient-based extraction known as FlexiCubes, our method circumvents the defects brought by the post-processing and facilitates a direct acquisition of the target mesh. Furthermore, we incorporate a multi-resolution hash grid encoding scheme that progressively activates the encoding levels into the implicit field in FlexiCubes to help capture geometric details for per-step optimization. Notably, FlexiDreamer recovers a dense 3D structure from a single-view image in approximately 1 minute on a single NVIDIA A100 GPU, outperforming previous methodologies by a large margin.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# 360+x:Panoptic Multi-modal Scene Understanding Dataset

360+x: A Panoptic Multi-modal Scene Understanding Dataset ( http://arxiv.org/abs/2404.00989v1 )

ライセンス: Link先を確認
Hao Chen, Yuqi Hou, Chenyuan Qu, Irene Testini, Xiaohan Hong, Jianbo Jiao, (参考訳) 世界の人間の知覚は、様々な視点とモダリティによって形作られています。 既存のデータセットの多くは、ある視点からのシーン理解(例えば、自我中心または第三者の視点)に焦点を当てていますが、私たちのデータセットは、パノスコープ(つまり、複数のデータモダリティを持つ複数の視点)を提供しています。 具体的には,映像,多チャンネル音声,指向性バイノーラル遅延,位置データ,テキストシーン記述などの多彩なモダリティを備えた立体パノラマ・フロントビュー,およびエゴセントリックな単眼/双眼ビューをカプセル化し,世界全体を包括的に観察する。 図1は、私たちの360+xデータセットの28のシーンカテゴリを垣間見せています。 私たちの知る限りでは、このデータベースは、複数の視点を複数のデータモダリティでカバーし、日々の情報が現実世界でどのようにアクセスされているかを模倣する最初のデータベースです。 ベンチマーク分析を通じて,提案した360+xデータセットに5つの異なるシーン理解タスクを提示し,各データモダリティと視点の影響と有用性を評価する。 このユニークなデータセットが、総合的なシーン理解の範囲を広げ、より多様な視点からこれらの問題にアプローチするようコミュニティに促すことを願っています。

Human perception of the world is shaped by a multitude of viewpoints and modalities. While many existing datasets focus on scene understanding from a certain perspective (e.g. egocentric or third-person views), our dataset offers a panoptic perspective (i.e. multiple viewpoints with multiple data modalities). Specifically, we encapsulate third-person panoramic and front views, as well as egocentric monocular/binocular views with rich modalities including video, multi-channel audio, directional binaural delay, location data and textual scene descriptions within each scene captured, presenting comprehensive observation of the world. Figure 1 offers a glimpse of all 28 scene categories of our 360+x dataset. To the best of our knowledge, this is the first database that covers multiple viewpoints with multiple data modalities to mimic how daily information is accessed in the real world. Through our benchmark analysis, we presented 5 different scene understanding tasks on the proposed 360+x dataset to evaluate the impact and benefit of each data modality and perspective in panoptic scene understanding. We hope this unique dataset could broaden the scope of comprehensive scene understanding and encourage the community to approach these problems from more diverse perspectives.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# 大規模言語モデルと法体系のNexusを探る: 簡単な調査

Exploring the Nexus of Large Language Models and Legal Systems: A Short Survey ( http://arxiv.org/abs/2404.00990v1 )

ライセンス: Link先を確認
Weicong Qin, Zhongxiang Sun, (参考訳) 人工知能(AI)とLarge Language Models(LLM)の進歩により、法域内の自然言語処理タスクの領域において、大きな変革が起きている。 LLMの能力は、法分野におけるユニークな役割をますます示しており、独特な利点と様々な課題をもたらす。 この調査は、法的テキスト理解、事例検索、分析などのタスクにおけるLLMと法体系の相乗効果について考察する。 さらに、この調査では、バイアス、解釈可能性、倫理的考察など、法的領域においてLLMが直面している重要な課題と、研究者がこれらの問題にどのように対処しているかを強調している。 この調査では、さまざまな法律システム用に調整された微調整された法的なLLMの最新の進歩と、さまざまな言語で微調整されたLLMのための法的なデータセットが紹介されている。 また、今後の研究開発の方向性も提案している。

With the advancement of Artificial Intelligence (AI) and Large Language Models (LLMs), there is a profound transformation occurring in the realm of natural language processing tasks within the legal domain. The capabilities of LLMs are increasingly demonstrating unique roles in the legal sector, bringing both distinctive benefits and various challenges. This survey delves into the synergy between LLMs and the legal system, such as their applications in tasks like legal text comprehension, case retrieval, and analysis. Furthermore, this survey highlights key challenges faced by LLMs in the legal domain, including bias, interpretability, and ethical considerations, as well as how researchers are addressing these issues. The survey showcases the latest advancements in fine-tuned legal LLMs tailored for various legal systems, along with legal datasets available for fine-tuning LLMs in various languages. Additionally, it proposes directions for future research and development.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# SGCNeRF:Sparse Geometric Consistency GuidanceによるFew-Shot Neural Rendering

SGCNeRF: Few-Shot Neural Rendering via Sparse Geometric Consistency Guidance ( http://arxiv.org/abs/2404.00992v1 )

ライセンス: Link先を確認
Yuru Xiao, Xianming Liu, Deming Zhai, Kui Jiang, Junjun Jiang, Xiangyang Ji, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)技術は、新しい視点の創出に大きく貢献している。 しかし、その効果は、わずかに利用可能なビューを扱うときに妨げられ、しばしばオーバーフィッティングによるパフォーマンス低下につながる。 FreeNeRFは、幾何学とテクスチャの両方を漸進的に改善する暗黙の幾何正規化を統合することで、この制限を克服しようとする。 それでも、初期低位置符号化帯域は高周波素子を除外する。 過度な適合と高周波の詳細の保存を兼ね備えた包括的アプローチの探求は現在も続いている。 本研究では,特徴マッチングに基づくスパース幾何正規化モジュールを提案する。 このモジュールは、高周波キーポイントをピンポイントすることで、詳細の完全性を保護する。 我々は、NeRF反復による幾何やテクスチャの漸進的な改善を通じて、新規なビュー合成を向上するために、SGCNeRFと命名された効果的な数ショットのニューラルレンダリングアーキテクチャを公表する。 LLFFデータセットとDTUデータセットのPSNRの0.7dBと0.6dBの改善により、SGCNeRFは優れた幾何一貫性を持つ結果を得るだけでなく、FreeNeRFを上回る結果が得られることを示した。

Neural Radiance Field (NeRF) technology has made significant strides in creating novel viewpoints. However, its effectiveness is hampered when working with sparsely available views, often leading to performance dips due to overfitting. FreeNeRF attempts to overcome this limitation by integrating implicit geometry regularization, which incrementally improves both geometry and textures. Nonetheless, an initial low positional encoding bandwidth results in the exclusion of high-frequency elements. The quest for a holistic approach that simultaneously addresses overfitting and the preservation of high-frequency details remains ongoing. This study introduces a novel feature matching based sparse geometry regularization module. This module excels in pinpointing high-frequency keypoints, thereby safeguarding the integrity of fine details. Through progressive refinement of geometry and textures across NeRF iterations, we unveil an effective few-shot neural rendering architecture, designated as SGCNeRF, for enhanced novel view synthesis. Our experiments demonstrate that SGCNeRF not only achieves superior geometry-consistent outcomes but also surpasses FreeNeRF, with improvements of 0.7 dB and 0.6 dB in PSNR on the LLFF and DTU datasets, respectively.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# AMOR:曖昧な著者命令

AMOR: Ambiguous Authorship Order ( http://arxiv.org/abs/2404.00994v1 )

ライセンス: Link先を確認
Maximilian Weiherer, Andreea Dogaru, Shreya Kapoor, Hannah Schieber, Bernhard Egger, (参考訳) 誰もが知っているように、私たちの愛する同僚と一緒に科学論文を書くことは、真に驚くべき経験だ(一部は)。 なんて素晴らしい乗り物なのだろう。 なんて美しい人生なのだろう。 でも、ある小さな問題が平和を揺さぶり、有名な科学者さえもが血を流す怪物へと変貌させてしまうのです。 というのも、広範に意見が分かれているのとは対照的に、フォントのサイズは重要ではなく、注文の仕方です。 もちろん、これは地球上の科学者の間ではよく知られた事実であり、地元警察の報告書では、なぜ我々はいつも別の論文を読まなければならないのかを明確に説明している。 本稿では,いわゆるオーサリング・オーダリング・問題(AOP)を解くことで,この問題に対処する上で重要な一歩を踏み出す。 具体的には,著者リストのランダムなシャッフルに基づく単純な確率的アプローチで,共著者や共著者のような愚かな構成を置き換えるシステムAMORを提案する。 また、AOPに加えて、未解明な著者の引用問題(AAOCP)も解決する。 作家の暴力をやめて、人間になる。

As we all know, writing scientific papers together with our beloved colleagues is a truly remarkable experience (partially): endless discussions about the same useless paragraph over and over again, followed by long days and long nights -- both at the same time. What a wonderful ride it is! What a beautiful life we have. But wait, there's one tiny little problem that utterly shatters the peace, turning even renowned scientists into bloodthirsty monsters: author order. The reason is that, contrary to widespread opinion, it's not the font size that matters, but the way things are ordered. Of course, this is a fairly well-known fact among scientists all across the planet (and beyond) and explains clearly why we regularly have to read about yet another escalated paper submission in local police reports. In this paper, we take an important step backwards to tackle this issue by solving the so-called author ordering problem (AOP) once and for all. Specifically, we propose AMOR, a system that replaces silly constructs like co-first or co-middle authorship with a simple yet easy probabilistic approach based on random shuffling of the author list at viewing time. In addition to AOP, we also solve the ambiguous author ordering citation problem} (AAOCP) on the fly. Stop author violence, be human.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# LLM-RadJudge: X線レポート生成のための放射線学レベル評価の達成

LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation ( http://arxiv.org/abs/2404.00998v1 )

ライセンス: Link先を確認
Zilong Wang, Xufang Luo, Xinyang Jiang, Dongsheng Li, Lili Qiu, (参考訳) 生成された放射線学レポートを評価することは、放射線学AIの開発に不可欠であるが、既存のメトリクスはタスクの臨床的要件を反映していない。 本研究では,大規模言語モデル (LLM) を用いた新しい評価手法を提案する。 各種LCMの性能の比較を行い, GPT-4を用いた場合, 提案手法は放射線技師と同等の精度で評価できることを示した。 さらに, コスト削減とアクセシビリティ向上のために, LLM評価結果を用いてデータセットを構築し, 知識蒸留を行い, より小さなモデルを訓練する。 蒸留されたモデルは、GPT-4に匹敵する評価能力を達成する。 筆者らのフレームワークと蒸留モデルは,放射線学報告生成のためのアクセス可能かつ効率的な評価方法を提供し,より臨床的に関係のあるモデルの開発を容易にする。 このモデルは、さらにオープンソース化され、アクセスできるようになる。

Evaluating generated radiology reports is crucial for the development of radiology AI, but existing metrics fail to reflect the task's clinical requirements. This study proposes a novel evaluation framework using large language models (LLMs) to compare radiology reports for assessment. We compare the performance of various LLMs and demonstrate that, when using GPT-4, our proposed metric achieves evaluation consistency close to that of radiologists. Furthermore, to reduce costs and improve accessibility, making this method practical, we construct a dataset using LLM evaluation results and perform knowledge distillation to train a smaller model. The distilled model achieves evaluation capabilities comparable to GPT-4. Our framework and distilled model offer an accessible and efficient evaluation method for radiology report generation, facilitating the development of more clinically relevant models. The model will be further open-sourced and accessible.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# 言論関係認識の障害の原因は何か?

What Causes the Failure of Explicit to Implicit Discourse Relation Recognition? ( http://arxiv.org/abs/2404.00999v1 )

ライセンス: Link先を確認
Wei Liu, Stephen Wan, Michael Strube, (参考訳) なぜ関係分類器は(接続性を取り除いた)明示的な例で訓練され、実際の暗黙のシナリオでは不十分な結果をもたらすのか? 以前の研究では、これは明示的な例と暗黙的な例の間に言語的な相違があると主張したが、実証的な証拠は提供されなかった。 本研究では,このような障害の原因の一つが,結合体を除去した後のラベルシフトであることを示す。 特に、いくつかの明示的なインスタンスで表される談話関係は、接続が消えると変化する。 いくつかの例を手作業で分析する以前の研究とは異なり、このようなシフトの存在を証明するために、コーパスレベルで実証的な証拠を提示する。 そこで, 結合が果たす統語的役割, 結合のあいまいさなどの要因を考慮し, ラベルシフトが発生する理由を解析した。 最後に,ラベルシフトを軽減するための2つの戦略について検討する。 PDTB 2.0、PDTB 3.0、GUMデータセットの実験では、我々の戦略で訓練された分類器が強いベースラインを上回ります。

We consider an unanswered question in the discourse processing community: why do relation classifiers trained on explicit examples (with connectives removed) perform poorly in real implicit scenarios? Prior work claimed this is due to linguistic dissimilarity between explicit and implicit examples but provided no empirical evidence. In this study, we show that one cause for such failure is a label shift after connectives are eliminated. Specifically, we find that the discourse relations expressed by some explicit instances will change when connectives disappear. Unlike previous work manually analyzing a few examples, we present empirical evidence at the corpus level to prove the existence of such shift. Then, we analyze why label shift occurs by considering factors such as the syntactic role played by connectives, ambiguity of connectives, and more. Finally, we investigate two strategies to mitigate the label shift: filtering out noisy data and joint learning with connectives. Experiments on PDTB 2.0, PDTB 3.0, and the GUM dataset demonstrate that classifiers trained with our strategies outperform strong baselines.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# 損失ガウスボソニックサンプリング器の古典的モデリング

Classical modelling of a lossy Gaussian bosonic sampler ( http://arxiv.org/abs/2404.01004v1 )

ライセンス: Link先を確認
M. V. Umanskii, A. N. Rubtsov, (参考訳) ガウスボソンサンプリング(GBS)は量子優位性を示すための候補問題と考えられている。 損失GBSインスタンスの近似古典シミュレーションのためのアルゴリズムを提案する。 このアルゴリズムはテイラー級数展開に依存し、計算に使用される展開の項数を増やすことで精度が向上する。 アルゴリズムの複雑さは、項数が固定されたときのモード数の多項式である。 入力状態スクイーズパラメータと損失レベルの条件を記述し、このアルゴリズムに最適な効率性を与える(効率性によってテイラー級数は急速に収束する)。 量子的優位性を証明したと主張する最近の実験では、これらの条件は満たされており、このアルゴリズムは古典的にこれらの実験をシミュレートすることができる。

Gaussian boson sampling (GBS) is considered a candidate problem for demonstrating quantum advantage. We propose an algorithm for approximate classical simulation of a lossy GBS instance. The algorithm relies on the Taylor series expansion, and increasing the number of terms of the expansion that are used in the calculation yields greater accuracy. The complexity of the algorithm is polynomial in the number of modes given the number of terms is fixed. We describe conditions for the input state squeezing parameter and loss level that provide the best efficiency for this algorithm (by efficient we mean that the Taylor series converges quickly). In recent experiments that claim to have demonstrated quantum advantage, these conditions are satisfied; thus, this algorithm can be used to classically simulate these experiments.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# インドネシアの地方言語のための低リソース・低表現並列データセットの構築と拡張

Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages ( http://arxiv.org/abs/2404.01009v1 )

ライセンス: Link先を確認
Joanito Agili Lopo, Radius Tanone, (参考訳) インドネシアでは、地元の言語が文化において重要な役割を担っている。 しかし、利用可能なインドネシアの言語資源は、NLP(Natural Language Processing)分野の限られたデータカテゴリに分類される。 これらの言語のためのNLPモデルを構築する際に問題となる。 このギャップを解決するために,インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介した。 我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。 私たちはデータセットの収集プロセスと関連する課題について詳しく説明しました。 さらに,データ制約のため,IBM Model 1を用いた翻訳タスクの実験を行った。 その結果, 各言語の性能は, 更なる発展の兆しをすでに示していることがわかった。 語彙変動,滑らか化効果,言語間変動などの課題について論じる。 我々は、低リソース言語のための高度なNLP技術を用いてコーパスを評価することを目的としており、多言語翻訳モデルへの道を開く。

In Indonesia, local languages play an integral role in the culture. However, the available Indonesian language resources still fall into the category of limited data in the Natural Language Processing (NLP) field. This is become problematic when build NLP model for these languages. To address this gap, we introduce Bhinneka Korpus, a multilingual parallel corpus featuring five Indonesian local languages. Our goal is to enhance access and utilization of these resources, extending their reach within the country. We explained in a detail the dataset collection process and associated challenges. Additionally, we experimented with translation task using the IBM Model 1 due to data constraints. The result showed that the performance of each language already shows good indications for further development. Challenges such as lexical variation, smoothing effects, and cross-linguistic variability are discussed. We intend to evaluate the corpus using advanced NLP techniques for low-resource languages, paving the way for multilingual translation models.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# 大規模言語モデルによる関連判断を用いたクエリ性能予測

Query Performance Prediction using Relevance Judgments Generated by Large Language Models ( http://arxiv.org/abs/2404.01012v1 )

ライセンス: Link先を確認
Chuan Meng, Negar Arabzadeh, Arian Askari, Mohammad Aliannejadi, Maarten de Rijke, (参考訳) クエリ性能予測(QPP)は,クエリの検索システムの検索品質を人間関係判定なしで推定することを目的としている。 従来のQPPメソッドは通常、単一のスカラー値を返すが、特定の情報検索(IR)評価尺度を近似するために予測値を必要としない。 一 一つのスカラーで異なるIR評価尺度を正確に表すには不十分で、特にメトリクスが高度に相関しない場合 (II) 単一スカラーは、単にスカラーを用いることだけでQPP結果を説明することができないため、QPP法の解釈可能性を制限する。 これらの問題に対処するために,QPPを個別のサブタスクに分解し,ランクリスト内の各項目の関連を所定のクエリに分解するQPPフレームワークを提案する。 これにより、生成した関連判断を擬似ラベルとして利用してIR評価尺度を予測することができ、また、予測されたIR評価尺度を解釈し、生成した関連判断におけるエラーを特定し、追跡し、修正し、QPP品質を向上させることができる。 我々は,LLaMA (LLM) というオープンソースの大規模言語モデルを利用して,科学的再現性を確保することにより,その妥当性を判断する。 そうすることで、私たちは2つの大きな課題に取り組みます。 一 コールベースの計量を予測するための全コーパスを判定する過度な計算コスト (II)LLaMAをゼロ/フェーショットで誘導する性能が劣る。 我々は、リコール指向のIR尺度を予測する近似戦略を考案し、人間ラベルの関連性判定を用いた微調整LLaMAを提案する。 TREC 2019-2022のディープラーニングトラックの実験によると、QPP-GenREは、精度とリコール指向のメトリクスの両方において、語彙とニューラルランサーの両方に対して最先端のQPP精度を達成する。

Query performance prediction (QPP) aims to estimate the retrieval quality of a search system for a query without human relevance judgments. Previous QPP methods typically return a single scalar value and do not require the predicted values to approximate a specific information retrieval (IR) evaluation measure, leading to certain drawbacks: (i) a single scalar is insufficient to accurately represent different IR evaluation measures, especially when metrics do not highly correlate, and (ii) a single scalar limits the interpretability of QPP methods because solely using a scalar is insufficient to explain QPP results. To address these issues, we propose a QPP framework using automatically generated relevance judgments (QPP-GenRE), which decomposes QPP into independent subtasks of judging the relevance of each item in a ranked list to a given query. This allows us to predict any IR evaluation measure using the generated relevance judgments as pseudo-labels; Also, this allows us to interpret predicted IR evaluation measures, and identify, track and rectify errors in generated relevance judgments to improve QPP quality. We judge relevance by leveraging a leading open-source large language model (LLM), LLaMA, to ensure scientific reproducibility. In doing so, we address two main challenges: (i) excessive computational costs of judging the entire corpus for predicting a recall-based metric, and (ii) poor performance in prompting LLaMA in a zero-/few-shot manner. We devise an approximation strategy to predict a recall-oriented IR measure and propose to fine-tune LLaMA using human-labeled relevance judgments. Experiments on the TREC 2019-2022 deep learning tracks show that QPP-GenRE achieves state-of-the-art QPP accuracy for both lexical and neural rankers in both precision- and recall-oriented metrics.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# 歯-SEG : 人為的先行知識に基づく歯科矯正治療のための効率的な症例分割フレームワーク

Teeth-SEG: An Efficient Instance Segmentation Framework for Orthodontic Treatment based on Anthropic Prior Knowledge ( http://arxiv.org/abs/2404.01013v1 )

ライセンス: Link先を確認
Bo Zou, Shaofeng Wang, Hao Liu, Gaoyue Sun, Yajie Wang, FeiFei Zuo, Chengbin Quan, Youjian Zhao, (参考訳) 2次元画像における歯の局在化、セグメンテーション、ラベル付けは、歯科診断、治療計画、口腔健康に関する人口ベース研究を強化するために、現代の歯科医療において大きな可能性を秘めている。 しかし、一般的なインスタンスセグメンテーションフレームワークは、非能率である。 1)歯の形状の微妙な違い(例えば、上顎第一前臼歯と第二前臼歯) 2) 被検者における歯の位置と形状の変化 3) 歯列の異常の有無(eg, caries, edentulism) これらの問題に対処するために,階層化マルチスケールアグリゲーション(MSA)ブロックと人為的優先知識(APK)レイヤからなる,TeethSEGというViTベースのフレームワークを提案する。 具体的には2つのモジュールを構成するために 1) 明確なセグメンテーション境界を確立しつつ高い効率を確保するための一意な置換に基づくアップスケーラ 2) トークンの埋め込みのばらつきを保ちながら,特定の意味を強調するマルチヘッド・セルフ/クロスゲート層。 また、収集も行う。 3) 口腔内画像データセットIO150Kは,150万枚以上の口腔内写真からなり,すべての写真はヒトと機械のハイブリッドアルゴリズムを用いて矯正医によって注釈付けされている。 IO150Kを用いた実験により, 歯質SEGは, 歯科画像のセグメンテーションにおける最先端のセグメンテーションモデルよりも優れていることが示された。

Teeth localization, segmentation, and labeling in 2D images have great potential in modern dentistry to enhance dental diagnostics, treatment planning, and population-based studies on oral health. However, general instance segmentation frameworks are incompetent due to 1) the subtle differences between some teeth' shapes (e.g., maxillary first premolar and second premolar), 2) the teeth's position and shape variation across subjects, and 3) the presence of abnormalities in the dentition (e.g., caries and edentulism). To address these problems, we propose a ViT-based framework named TeethSEG, which consists of stacked Multi-Scale Aggregation (MSA) blocks and an Anthropic Prior Knowledge (APK) layer. Specifically, to compose the two modules, we design 1) a unique permutation-based upscaler to ensure high efficiency while establishing clear segmentation boundaries with 2) multi-head self/cross-gating layers to emphasize particular semantics meanwhile maintaining the divergence between token embeddings. Besides, we collect 3) the first open-sourced intraoral image dataset IO150K, which comprises over 150k intraoral photos, and all photos are annotated by orthodontists using a human-machine hybrid algorithm. Experiments on IO150K demonstrate that our TeethSEG outperforms the state-of-the-art segmentation models on dental image segmentation.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# 訓練不要なビデオ異常検出のための大規模言語モデルのハーネス化

Harnessing Large Language Models for Training-free Video Anomaly Detection ( http://arxiv.org/abs/2404.01014v1 )

ライセンス: Link先を確認
Luca Zanella, Willi Menapace, Massimiliano Mancini, Yiming Wang, Elisa Ricci, (参考訳) ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。 既存の作品は、ビデオレベルの監督、一級監督、または教師なしの環境での正規性の分布を学ぶために、主に深層モデルの訓練に頼っている。 トレーニングベースのメソッドはドメイン固有のものになりがちなので、ドメインの変更によってデータ収集やモデルトレーニングが伴うため、実践的なデプロイメントにはコストがかかる。 本稿では,従来の取り組みから脱却し,LAVAD(Language-based VAD)を提案する。LAVADは,事前学習された大規模言語モデル(LLM)と既存の視覚言語モデル(VLM)の能力を生かした,新しい学習自由パラダイムでVADに対処する手法である。 我々は、VLMベースのキャプションモデルを利用して、テストビデオの各フレームのテキスト記述を生成する。 テキストシーン記述により、時間的アグリゲーションと異常スコア推定の観点からLLMの能力を解き放つためのプロンプト機構を考案し、LLMを効果的なビデオ異常検出器に変える。 我々はさらにモダリティに整合したVLMを活用し、ノイズキャプションのクリーニングとLLMに基づく異常スコアの精査のために、モーダル間の類似性に基づく効果的な手法を提案する。 実世界の監視シナリオ(UCF-CrimeとXD-Violence)を特徴とする2つの大規模データセット上でのAVADを評価し,トレーニングやデータ収集を必要とせず,教師なし手法と一級手法の両方に優れることを示した。

Video anomaly detection (VAD) aims to temporally locate abnormal events in a video. Existing works mostly rely on training deep models to learn the distribution of normality with either video-level supervision, one-class supervision, or in an unsupervised setting. Training-based methods are prone to be domain-specific, thus being costly for practical deployment as any domain change will involve data collection and model training. In this paper, we radically depart from previous efforts and propose LAnguage-based VAD (LAVAD), a method tackling VAD in a novel, training-free paradigm, exploiting the capabilities of pre-trained large language models (LLMs) and existing vision-language models (VLMs). We leverage VLM-based captioning models to generate textual descriptions for each frame of any test video. With the textual scene description, we then devise a prompting mechanism to unlock the capability of LLMs in terms of temporal aggregation and anomaly score estimation, turning LLMs into an effective video anomaly detector. We further leverage modality-aligned VLMs and propose effective techniques based on cross-modal similarity for cleaning noisy captions and refining the LLM-based anomaly scores. We evaluate LAVAD on two large datasets featuring real-world surveillance scenarios (UCF-Crime and XD-Violence), showing that it outperforms both unsupervised and one-class methods without requiring any training or data collection.
翻訳日:2024-04-03 22:56:51 公開日:2024-04-01
# PairEval: ペアワイズ比較によるオープンドメイン対話の評価

PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison ( http://arxiv.org/abs/2404.01015v1 )

ライセンス: Link先を確認
ChaeHun Park, Minseok Choi, Dohyun Lee, Jaegul Choo, (参考訳) オープンドメイン対話システムには,信頼性と自動評価基準の構築が不可欠だが難しい課題である。 近年の研究では、過去の対話履歴との関連性を考慮して、生成した応答を評価する評価指標が提案されている。 有効ではあるが、これらの指標は他の反応と比較して相対的な品質を考慮せず、個々の反応を直接評価する。 そこで本研究では,異なる会話における応答に対する応答の質を比較することで,応答を評価する新しい対話評価指標であるPairEvalを提案する。 PairEvalは、オープンソースの言語モデルと中規模言語モデルに基づいて構築されており、対話応答のペアワイズ比較に特化させる。 複数のベンチマークでの大規模な実験により、我々の測定値が基準値よりも人間の判断と高い相関を示すことが示された。 また、提案手法は、繰り返しや話者の不感度を含むオープンドメイン対話システムからの共通障害の検出において、より堅牢であることがわかった。

Building a reliable and automated evaluation metric is a necessary but challenging problem for open-domain dialogue systems. Recent studies proposed evaluation metrics that assess generated responses by considering their relevance to previous dialogue histories. Although effective, these metrics evaluate individual responses directly rather than considering their relative quality compared to other responses. To handle this, we propose PairEval, a novel dialogue evaluation metric for assessing responses by comparing their quality against responses in different conversations. PairEval is built on top of open-sourced and moderate-size language models, and we make them specialized in pairwise comparison between dialogue responses. Extensive experiments on multiple benchmarks demonstrate that our metric exhibits a higher correlation with human judgments than baseline metrics. We also find that the proposed comparative metric is more robust in detecting common failures from open-domain dialogue systems, including repetition and speaker insensitivity.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# 言語モデルにおける知識帰属を可能にするソース・アウェア・トレーニング

Source-Aware Training Enables Knowledge Attribution in Language Models ( http://arxiv.org/abs/2404.01019v1 )

ライセンス: Link先を確認
Muhammad Khalifa, David Wadden, Emma Strubell, Honglak Lee, Lu Wang, Iz Beltagy, Hao Peng, (参考訳) 大規模言語モデル(LLM)は、事前訓練中に膨大な量の知識を学習するが、そのような知識の源泉にはあまり依存しないことが多い。 そこで本研究では,LLMが生成した応答をサポートする事前学習ソースを引用するために必要となる,本質的なソース引用の問題について検討する。 固有のソースの引用は、LLM透過性、解釈可能性、検証可能性を高めることができる。 LLMにそのような能力を与えるために、ソース認識トレーニング(source-aware training)を探求する。 一 独特な原文書識別子と各文書の知識を関連付けるようLLMを訓練し、次に掲げるもの (ii) LLM に刺激を受けると、支援事前訓練ソースを引用するように教える命令チューニング。 ソースアウェアトレーニングは、棚外の事前訓練されたLLMに容易に適用でき、既存の事前訓練/微調整フレームワークから最小限に分離できる。 念入りにキュレートされたデータの実験を通して、トレーニングのレシピは、トレーニング前のデータに対する忠実な属性を、標準のトレーニングよりもモデルの品質に大きく影響しないで実現できることを示した。 また,属性達成におけるデータ拡張の重要性も強調した。

Large language models (LLMs) learn a vast amount of knowledge during pretraining, but they are often oblivious to the source(s) of such knowledge. We investigate the problem of intrinsic source citation, where LLMs are required to cite the pretraining source supporting a generated response. Intrinsic source citation can enhance LLM transparency, interpretability, and verifiability. To give LLMs such ability, we explore source-aware training -- a post pretraining recipe that involves (i) training the LLM to associate unique source document identifiers with the knowledge in each document, followed by (ii) an instruction-tuning to teach the LLM to cite a supporting pretraining source when prompted. Source-aware training can easily be applied to pretrained LLMs off the shelf, and diverges minimally from existing pretraining/fine-tuning frameworks. Through experiments on carefully curated data, we demonstrate that our training recipe can enable faithful attribution to the pretraining data without a substantial impact on the model's quality compared to standard pretraining. Our results also highlight the importance of data augmentation in achieving attribution.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# マルチAIエージェントを用いた大規模言語モデル評価:予備的結果

Large Language Model Evaluation Via Multi AI Agents: Preliminary results ( http://arxiv.org/abs/2404.01023v1 )

ライセンス: Link先を確認
Zeeshan Rasheed, Muhammad Waseem, Kari Systä, Pekka Abrahamsson, (参考訳) 大規模言語モデル(LLM)は,研究と日々の業務の両方に不可欠なものになっているため,厳密な評価が不可欠である。 この評価は、個々のタスクだけでなく、社会的影響や潜在的なリスクを理解する上でも重要である。 様々な観点からLLMを検証しようとする努力にもかかわらず、異なるLLMのパフォーマンスを評価するために特別に設計されたマルチエージェントAIモデルには顕著な欠如がある。 このギャップに対処するために、様々なLLMの性能を評価し比較することを目的とした、新しいマルチエージェントAIモデルを導入する。 我々のモデルは8つのAIエージェントから構成されており、それぞれが、GPT-3.5、GPT-3.5 Turbo、GPT-4、GPT-4 Turbo、Google Bard、LAMA、Hugging Faceなど、さまざまな先進言語モデルから共通の記述に基づいてコードを取得する責任がある。 開発したモデルは,言語モデルのAPIを利用して,与えられたハイレベルな記述のためのコードを取得する。 さらに,コードの評価に重要な役割を担った検証エージェントを開発した。 我々はHumanEvalベンチマークを検証エージェントに統合し、生成されたコードのパフォーマンスを評価し、それぞれの能力と効率について洞察を提供する。 最初の結果から, GPT-3.5ターボモデルの性能は他のモデルよりも比較的良好であることが示唆された。 この予備分析はベンチマークとして機能し、パフォーマンスを並べて比較する。 今後の目標は、MPPP(Massively Multitask Benchmark for Python)ベンチマークを組み込むことで、評価プロセスを強化することです。 さらに、開発したモデルを、さまざまなバックグラウンドを持つ20人の実践者と共有して、モデルをテストするとともに、さらなる改善のためにフィードバックを収集する予定です。

As Large Language Models (LLMs) have become integral to both research and daily operations, rigorous evaluation is crucial. This assessment is important not only for individual tasks but also for understanding their societal impact and potential risks. Despite extensive efforts to examine LLMs from various perspectives, there is a noticeable lack of multi-agent AI models specifically designed to evaluate the performance of different LLMs. To address this gap, we introduce a novel multi-agent AI model that aims to assess and compare the performance of various LLMs. Our model consists of eight distinct AI agents, each responsible for retrieving code based on a common description from different advanced language models, including GPT-3.5, GPT-3.5 Turbo, GPT-4, GPT-4 Turbo, Google Bard, LLAMA, and Hugging Face. Our developed model utilizes the API of each language model to retrieve code for a given high-level description. Additionally, we developed a verification agent, tasked with the critical role of evaluating the code generated by its counterparts. We integrate the HumanEval benchmark into our verification agent to assess the generated code's performance, providing insights into their respective capabilities and efficiencies. Our initial results indicate that the GPT-3.5 Turbo model's performance is comparatively better than the other models. This preliminary analysis serves as a benchmark, comparing their performances side by side. Our future goal is to enhance the evaluation process by incorporating the Massively Multitask Benchmark for Python (MBPP) benchmark, which is expected to further refine our assessment. Additionally, we plan to share our developed model with twenty practitioners from various backgrounds to test our model and collect their feedback for further improvement.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# AIGCOIQA2024:AI生成全方位画像の知覚的品質評価

AIGCOIQA2024: Perceptual Quality Assessment of AI Generated Omnidirectional Images ( http://arxiv.org/abs/2404.01024v1 )

ライセンス: Link先を確認
Liu Yang, Huiyu Duan, Long Teng, Yucheng Zhu, Xiaohong Liu, Menghan Hu, Xiongkuo Min, Guangtao Zhai, Patrick Le Callet, (参考訳) 近年,人工知能生成コンテンツ(AIGC)の急速な進歩が注目されている。 AIGCのうち、AI生成された全方位画像はVR(Virtual Reality)および拡張現実(Augmented Reality)アプリケーションに大きな可能性を秘めているため、全方位AIGC技術も広く研究されている。 AI生成の全方位画像は、自然な全方位画像と比較して独特の歪みを示すが、それを評価するための画像品質評価(IQA)基準は存在しない。 本研究では,AI生成した大規模全方位画像IQAデータベースAIIGCOIQA2024を構築し,総合的なベンチマークを構築することにより,このギャップに対処する。 5つのAIGCモデルに基づいて,まず,25個のテキストプロンプトを用いて300個の全方位画像を生成する。 その後、品質、快適性、対応性という3つの視点から人間の視覚的嗜好を評価するために、主観的IQA実験が実施される。 最後に,我々のデータベース上での最先端IQAモデルの性能を評価するためのベンチマーク実験を行った。 データベースは、将来の研究を促進するためにリリースされます。

In recent years, the rapid advancement of Artificial Intelligence Generated Content (AIGC) has attracted widespread attention. Among the AIGC, AI generated omnidirectional images hold significant potential for Virtual Reality (VR) and Augmented Reality (AR) applications, hence omnidirectional AIGC techniques have also been widely studied. AI-generated omnidirectional images exhibit unique distortions compared to natural omnidirectional images, however, there is no dedicated Image Quality Assessment (IQA) criteria for assessing them. This study addresses this gap by establishing a large-scale AI generated omnidirectional image IQA database named AIGCOIQA2024 and constructing a comprehensive benchmark. We first generate 300 omnidirectional images based on 5 AIGC models utilizing 25 text prompts. A subjective IQA experiment is conducted subsequently to assess human visual preferences from three perspectives including quality, comfortability, and correspondence. Finally, we conduct a benchmark experiment to evaluate the performance of state-of-the-art IQA models on our database. The database will be released to facilitate future research.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# 大規模自動メタファー識別によるメタファーの検証

Verifying Claims About Metaphors with Large-Scale Automatic Metaphor Identification ( http://arxiv.org/abs/2404.01029v1 )

ライセンス: Link先を確認
Kotaro Aono, Ryohei Sasano, Koichi Takeda, (参考訳) 言葉が比喩として使われる傾向が強い状況について、いくつかの言語学的主張がある。 しかし、そのような主張を大きなコーパスで検証しようとする研究はほとんどない。 本研究では,コモンクローリングから抽出した文にメタファー検出を適用し,その結果から得られた統計値を用いて,動詞のメタファーに関する既存の主張を大規模にコーパスベースで分析する。 検証結果は,メタファーとして用いた動詞の直接対象は,具体性,イメージ性,親しみやすさの度合いが低く,メタファーが感情的・主観的文で用いやすいことを示している。

There are several linguistic claims about situations where words are more likely to be used as metaphors. However, few studies have sought to verify such claims with large corpora. This study entails a large-scale, corpus-based analysis of certain existing claims about verb metaphors, by applying metaphor detection to sentences extracted from Common Crawl and using the statistics obtained from the results. The verification results indicate that the direct objects of verbs used as metaphors tend to have lower degrees of concreteness, imageability, and familiarity, and that metaphors are more likely to be used in emotional and subjective sentences.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# 生成型AIツール時代における高等教育評価の実践

Higher education assessment practice in the era of generative AI tools ( http://arxiv.org/abs/2404.01036v1 )

ライセンス: Link先を確認
Bayode Ogunleye, Kudirat Ibilola Zakariyyah, Oluwaseun Ajao, Olakunle Olayinka, Hemlata Sharma, (参考訳) 高等教育(HE)部門はすべての国の経済と社会に大きな利益をもたらす。 しかし、それらの貢献は、生成人工知能(GenAI)ツールのような高度な技術によって挑戦されている。 本稿では,GenAIツールを総合的に評価し,その影響について考察する。 本研究は,データサイエンス,データ分析,建設管理の3つの指標を用いて実験を行った。 まず、GenAIツールが主観的知識、問題解決、分析的思考、批判的思考、プレゼンテーション能力を示し、非倫理的に使用した場合の学習を制限することを明らかにした。 第2に、特定の分野の評価設計により、GenAIツールの限界が明らかになった。 この結果から,AIツールをHEでの教育や学習に活用する方法を推奨した。

The higher education (HE) sector benefits every nation's economy and society at large. However, their contributions are challenged by advanced technologies like generative artificial intelligence (GenAI) tools. In this paper, we provide a comprehensive assessment of GenAI tools towards assessment and pedagogic practice and, subsequently, discuss the potential impacts. This study experimented using three assessment instruments from data science, data analytics, and construction management disciplines. Our findings are two-fold: first, the findings revealed that GenAI tools exhibit subject knowledge, problem-solving, analytical, critical thinking, and presentation skills and thus can limit learning when used unethically. Secondly, the design of the assessment of certain disciplines revealed the limitations of the GenAI tools. Based on our findings, we made recommendations on how AI tools can be utilised for teaching and learning in HE.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# ARAGOG: 高度なRAG出力グレーディング

ARAGOG: Advanced RAG Output Grading ( http://arxiv.org/abs/2404.01037v1 )

ライセンス: Link先を確認
Matouš Eibich, Shivay Nagpal, Alexander Fred-Ojala, (参考訳) Retrieval-Augmented Generation (RAG) は、外部知識をLLM(Large Language Model)出力に統合するために不可欠である。 RAGに関する文献は増えているが、主に、新しい最先端技術(SoTA)技術の体系的レビューと比較に焦点を当てており、大規模な実験比較のギャップがある。 本研究は,様々なRAG手法が検索精度および解答類似性に与える影響を評価することによって,このギャップに対処し始める。 仮説文書埋め込み (HyDE) と LLM の再評価により検索精度が有意に向上した。 しかし,MMR (Maximal Marginal Relevance) とChere Rerank (Cohere Rerank) はベースラインのNaive RAGシステムに対して顕著な優位性を示しなかった。 Sentence Window Retrievalは、解答の類似性に様々な性能があるにもかかわらず、検索精度が最も効果的であった。 本研究は,文書要約指標を有能な検索手法としての可能性を確認した。 この調査に関連するすべてのリソースは、GitHubリポジトリのARAGOG(https://github.com/predlico/ARAGOG)を通じて、公開されています。 我々は、RAGシステムにおけるこの探索的研究をさらに進めるために、コミュニティを歓迎する。

Retrieval-Augmented Generation (RAG) is essential for integrating external knowledge into Large Language Model (LLM) outputs. While the literature on RAG is growing, it primarily focuses on systematic reviews and comparisons of new state-of-the-art (SoTA) techniques against their predecessors, with a gap in extensive experimental comparisons. This study begins to address this gap by assessing various RAG methods' impacts on retrieval precision and answer similarity. We found that Hypothetical Document Embedding (HyDE) and LLM reranking significantly enhance retrieval precision. However, Maximal Marginal Relevance (MMR) and Cohere rerank did not exhibit notable advantages over a baseline Naive RAG system, and Multi-query approaches underperformed. Sentence Window Retrieval emerged as the most effective for retrieval precision, despite its variable performance on answer similarity. The study confirms the potential of the Document Summary Index as a competent retrieval approach. All resources related to this research are publicly accessible for further investigation through our GitHub repository ARAGOG (https://github.com/predlico/ARAGOG). We welcome the community to further this exploratory study in RAG systems.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# ハイパーグラフニューラルネットワークに関するサーベイ:奥行きとステップバイステップガイド

A Survey on Hypergraph Neural Networks: An In-Depth and Step-By-Step Guide ( http://arxiv.org/abs/2404.01039v1 )

ライセンス: Link先を確認
Sunwoo Kim, Soo Yong Lee, Yue Gao, Alessia Antelmi, Mirko Polato, Kijung Shin, (参考訳) 高次相互作用(HOIs)は、現実世界の複雑なシステムやアプリケーションにおいてユビキタスであるため、データマイニングや機械学習のコミュニティにとって、HOIsの深層学習の研究は貴重な議題となっている。 HOIのネットワークはハイパーグラフとして数学的に表現されるため、ハイパーグラフニューラルネットワーク(HNN)はハイパーグラフ上での表現学習の強力なツールとして登場した。 新たなトレンドを踏まえて,HNNを対象とした最初の調査を,詳細なステップバイステップガイドで紹介する。 本稿では、HNNアーキテクチャ、トレーニング戦略、アプリケーションの概要について概説する。 まず、既存のHNNを4つのデザインコンポーネントに分割します。 (i)入力機能、 (ii)入力構造 (三)メッセージ通過方式、及び (4)訓練戦略。 第2に,HNN がそれぞれのコンポーネントで HOI をどのように処理し,学習するかを検討する。 第3に,最近のHNNの推奨,生物・医学,時系列解析,コンピュータビジョンへの応用について概説する。 最後に,限界と今後の方向性について論じる。

Higher-order interactions (HOIs) are ubiquitous in real-world complex systems and applications, and thus investigation of deep learning for HOIs has become a valuable agenda for the data mining and machine learning communities. As networks of HOIs are expressed mathematically as hypergraphs, hypergraph neural networks (HNNs) have emerged as a powerful tool for representation learning on hypergraphs. Given the emerging trend, we present the first survey dedicated to HNNs, with an in-depth and step-by-step guide. Broadly, the present survey overviews HNN architectures, training strategies, and applications. First, we break existing HNNs down into four design components: (i) input features, (ii) input structures, (iii) message-passing schemes, and (iv) training strategies. Second, we examine how HNNs address and learn HOIs with each of their components. Third, we overview the recent applications of HNNs in recommendation, biological and medical science, time series analysis, and computer vision. Lastly, we conclude with a discussion on limitations and future directions.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# 最適化スターギャラクシー分類のための新しいセクタベースアルゴリズム

A Novel Sector-Based Algorithm for an Optimized Star-Galaxy Classification ( http://arxiv.org/abs/2404.01049v1 )

ライセンス: Link先を確認
Anumanchi Agastya Sai Ram Likhit, Divyansh Tripathi, Akshay Agarwal, (参考訳) 本稿では,最新のSloan Digital Sky Surveyデータ(SDSS-DR18)を活用して,新しいセクターベースの星座分類手法を提案する。 SDSS観測パターンに整合したセクターに空を戦略的に分割し、専用の畳み込みニューラルネットワーク(CNN)を用いることで、恒星銀河分類の最先端のパフォーマンスを実現する。 予備的な結果は、特にリアルタイムな観測環境において、効率的かつ正確な天文学的分析のための有望な経路を示すものである。

This paper introduces a novel sector-based methodology for star-galaxy classification, leveraging the latest Sloan Digital Sky Survey data (SDSS-DR18). By strategically segmenting the sky into sectors aligned with SDSS observational patterns and employing a dedicated convolutional neural network (CNN), we achieve state-of-the-art performance for star galaxy classification. Our preliminary results demonstrate a promising pathway for efficient and precise astronomical analysis, especially in real-time observational settings.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# ノイズをドラッグする:拡散セマンティック・プロパゲーションによる対話的ポイントベース編集

Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation ( http://arxiv.org/abs/2404.01050v1 )

ライセンス: Link先を確認
Haofeng Liu, Chenshu Xu, Yifei Yang, Lihua Zeng, Shengfeng He, (参考訳) ポイントベースのインタラクティブ編集は、既存の生成モデルの制御性を補完する重要なツールである。 同時作業であるDragDiffusionは、ユーザ入力に応じて拡散潜時マップを更新し、グローバル潜時マップの変更を引き起こす。 その結果、オリジナルコンテンツの不正確な保存と、勾配の消失による編集が失敗する。 対照的に、我々はDragNoiseを紹介し、潜在マップを遡ることなく、堅牢で高速な編集を提供する。 DragNoiseの中核となる理論的根拠は、各U-Netの予測ノイズ出力をセマンティックエディタとして利用することにある。 第一に、U-Netのボトルネック特徴は本質的にインタラクティブな編集に理想的な意味豊かな特徴を持ち、第二に、認知過程の初期に確立されたハイレベルな意味論は、その後の段階において最小限の変動を示す。 これらの知見を活用して、DragNoiseは拡散セマンティクスを1つの認知ステップで編集し、これらの変化を効率的に伝播させ、拡散編集の安定性と効率を確保する。 比較実験により、DragNoiseはDragDiffusionに比べて50%以上の最適化時間を短縮し、優れた制御とセマンティック保持を実現することが明らかになった。 私たちのコードはhttps://github.com/haofengl/DragNoise.comで公開されています。

Point-based interactive editing serves as an essential tool to complement the controllability of existing generative models. A concurrent work, DragDiffusion, updates the diffusion latent map in response to user inputs, causing global latent map alterations. This results in imprecise preservation of the original content and unsuccessful editing due to gradient vanishing. In contrast, we present DragNoise, offering robust and accelerated editing without retracing the latent map. The core rationale of DragNoise lies in utilizing the predicted noise output of each U-Net as a semantic editor. This approach is grounded in two critical observations: firstly, the bottleneck features of U-Net inherently possess semantically rich features ideal for interactive editing; secondly, high-level semantics, established early in the denoising process, show minimal variation in subsequent stages. Leveraging these insights, DragNoise edits diffusion semantics in a single denoising step and efficiently propagates these changes, ensuring stability and efficiency in diffusion editing. Comparative experiments reveal that DragNoise achieves superior control and semantic retention, reducing the optimization time by over 50% compared to DragDiffusion. Our codes are available at https://github.com/haofengl/DragNoise.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# 画像拡散プロセスによる行動検出

Action Detection via an Image Diffusion Process ( http://arxiv.org/abs/2404.01051v1 )

ライセンス: Link先を確認
Lin Geng Foo, Tianjiao Li, Hossein Rahmani, Jun Liu, (参考訳) Action Detectionは、未トリミングビデオでアクションインスタンスの開始点と終了点をローカライズし、それらのインスタンスのクラスを予測することを目的としている。 本稿では,アクション検出タスクの出力を画像として定式化できることを観察する。 そこで,新しい視点から3画像生成プロセスを用いて行動検出に取り組み,開始点,終了点,行動クラス予測を画像として生成する。 さらに,本画像は自然画像と異なり,特別な特性を示すため,離散的行動検出拡散プロセスとローコロン変換器の設計を更に探求し,その処理をよりよく処理する。 我々のADI-Diffフレームワークは、広く使われている2つのデータセットに対して最先端の結果を得る。

Action detection aims to localize the starting and ending points of action instances in untrimmed videos, and predict the classes of those instances. In this paper, we make the observation that the outputs of the action detection task can be formulated as images. Thus, from a novel perspective, we tackle action detection via a three-image generation process to generate starting point, ending point and action-class predictions as images via our proposed Action Detection Image Diffusion (ADI-Diff) framework. Furthermore, since our images differ from natural images and exhibit special properties, we further explore a Discrete Action-Detection Diffusion Process and a Row-Column Transformer design to better handle their processing. Our ADI-Diff framework achieves state-of-the-art results on two widely-used datasets.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# HAHA:前もってテクスチャメッシュで高音質のガウス人アバター

HAHA: Highly Articulated Gaussian Human Avatars with Textured Mesh Prior ( http://arxiv.org/abs/2404.01053v1 )

ライセンス: Link先を確認
David Svitov, Pietro Morerio, Lourdes Agapito, Alessio Del Bue, (参考訳) 本稿では,モノクラー入力ビデオからヒトアバターをアニマタブルに生成するための新しいアプローチであるHAHAを提案する。 提案手法はガウススプラッティングとテクスチャメッシュとのトレードオフを効率よく高忠実なレンダリングのために学習することに依存する。 SMPL-Xパラメトリックモデルを用いて全身のアバターをアニメーション化しレンダリングする効率を実証する。 我々のモデルは,毛髪や外装など,必要となるSMPL-Xメッシュの領域にのみガウススプラッティングを適用することを学習する。 これにより、完全なアバターを表現するために使用されるガウスの数は最小限となり、レンダリングアーティファクトは減少する。 これにより、伝統的に無視される指のような小さな身体の部分のアニメーションを処理できる。 我々は、SnapshotPeopleとX-Humansの2つのオープンデータセットに対するアプローチの有効性を実証した。 提案手法は,3分の1未満のガウス人を用いて,SnapshotPeopleにおける最先端の復元品質を実証する。 HAHAはX-Humansの以前の最先端小説のポーズを量的にも質的にも上回っている。

We present HAHA - a novel approach for animatable human avatar generation from monocular input videos. The proposed method relies on learning the trade-off between the use of Gaussian splatting and a textured mesh for efficient and high fidelity rendering. We demonstrate its efficiency to animate and render full-body human avatars controlled via the SMPL-X parametric model. Our model learns to apply Gaussian splatting only in areas of the SMPL-X mesh where it is necessary, like hair and out-of-mesh clothing. This results in a minimal number of Gaussians being used to represent the full avatar, and reduced rendering artifacts. This allows us to handle the animation of small body parts such as fingers that are traditionally disregarded. We demonstrate the effectiveness of our approach on two open datasets: SnapshotPeople and X-Humans. Our method demonstrates on par reconstruction quality to the state-of-the-art on SnapshotPeople, while using less than a third of Gaussians. HAHA outperforms previous state-of-the-art on novel poses from X-Humans both quantitatively and qualitatively.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# 言語モデルアライメントのためのリワードハックを緩和する正規化ベストオブNサンプリング

Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment ( http://arxiv.org/abs/2404.01054v1 )

ライセンス: Link先を確認
Yuu Jinnai, Tetsuro Morimura, Kaito Ariu, Kenshi Abe, (参考訳) 報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好に合わせてLLM(Large Language Models)を調整するための効果的な戦略であることが示されている。 BoNサンプリングは、報酬ハッキングとして知られる問題の影響を受けやすい。 報酬モデルは真の目的に対する不完全なプロキシであるため、その価値を過度に最適化することは、真の目的に対するパフォーマンスを損なう可能性がある。 優先学習技術における報酬ハックを防ぐ一般的な解決策は、言語モデルが参照モデルに近く続けることを保証する近接正規化(例えば、KL正規化)を使用して報酬を最適化することである。 本研究では,プライオリティ学習手法と同様に,応答選択に近接項を組み込むことで報奨ハッキングを緩和することを目的とした,BoNの変種であるRegularized Best-of-N(RBoN)を提案する。 本稿では、AlpacaFarmデータセット上でRBoNの2つの変種を評価し、特にプロキシ報酬モデルが真の目的と相関が低い場合、BoNより優れていることを示す。

Best-of-N (BoN) sampling with a reward model has been shown to be an effective strategy for aligning Large Language Models (LLMs) to human preferences at the time of decoding. BoN sampling is susceptible to a problem known as reward hacking. Because the reward model is an imperfect proxy for the true objective, over-optimizing its value can compromise its performance on the true objective. A common solution to prevent reward hacking in preference learning techniques is to optimize a reward using proximity regularization (e.g., KL regularization), which ensures that the language model remains close to the reference model. In this research, we propose Regularized Best-of-N (RBoN), a variant of BoN that aims to mitigate reward hacking by incorporating a proximity term in response selection, similar to preference learning techniques. We evaluate two variants of RBoN on the AlpacaFarm dataset and find that they outperform BoN, especially when the proxy reward model has a low correlation with the true objective.
翻訳日:2024-04-03 22:47:02 公開日:2024-04-01
# QPUs利用最適化のための量子回路スケジューラ

Quantum circuit scheduler for QPUs usage optimization ( http://arxiv.org/abs/2404.01055v1 )

ライセンス: Link先を確認
Javier Romero-Alvarez, Jaime Alvarado-Valiente, Jorge Casco-Seco, Enrique Moguel, Jose Garcia-Alonso, Javier Berrocal, Juan M. Murillo, (参考訳) 量子技術の領域における進歩は、様々な分野にまたがる潜在的な応用の道を開いた。 しかし、利用可能な量子コンピュータの数が減少し、その技術的制限と高い需要が、開発者や研究者にとっていくつかの問題を引き起こしている。 主に、これらのデバイスで量子回路を実行しようとするユーザは通常、タスクキューで長い待ち時間に直面しています。 本研究では,待ち時間を短縮し,異なるユーザからの回路を同時に実行する結合回路にスケジューリングすることで,量子コンピュータの利用を最適化する手法を提案する。 この提案を検証するために、異なる広く知られている量子アルゴリズムが選択され、組み合わせた回路で実行される。 得られた結果は、同じアルゴリズムを独立した方法で実行した結果と比較される。 これにより、スケジューラの使用の影響を測定することができます。 得られた結果のうち,提案したスケジューラによる回路の組み合わせによるノイズが,結果に重大な影響を及ぼさないことが確認できた。

Progress in the realm of quantum technologies is paving the way for a multitude of potential applications across different sectors. However, the reduced number of available quantum computers, their technical limitations and the high demand for their use are posing some problems for developers and researchers. Mainly, users trying to execute quantum circuits on these devices are usually facing long waiting times in the tasks queues. In this context, this work propose a technique to reduce waiting times and optimize quantum computers usage by scheduling circuits from different users into combined circuits that are executed at the same time. To validate this proposal, different widely known quantum algorithms have been selected and executed in combined circuits. The obtained results are then compared with the results of executing the same algorithms in an isolated way. This allowed us to measure the impact of the use of the scheduler. Among the obtained results, it has been possible to verify that the noise suffered by executing a combination of circuits through the proposed scheduler does not critically affect the outcomes.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# MIRにおける音楽ジェネア識別のための新しい音響表現法

A Novel Audio Representation for Music Genre Identification in MIR ( http://arxiv.org/abs/2404.01058v1 )

ライセンス: Link先を確認
Navin Kamuni, Mayank Jindal, Arpita Soni, Sukender Reddy Mallreddy, Sharath Chandra Macha, (参考訳) 音楽情報検索タスクの場合、最も一般的な音声表現はMel Spectrogramsのような時間周波数ベースである。 本研究は、音楽ジャンルを特定するために、最も一般的なMIR下流タスクの1つとして、新しい形態の音声表現の可能性を探る。 そこで, 深部ベクトル量子化を用いて離散的に音楽の符号化を行う手法として, 革新的生成音楽モデルであるJukeboxのための新しい音声表現が開発された。 Jukeboxの音声表現の有効性は、ステート・オブ・ザ・アート(SOTA)とほぼ同等のデータセットとほぼ同じトランスフォーマー設計を用いて、メル分光器と比較される。 この研究の結果は、少なくとも変換器が20kトラックの非常に控えめなデータセットを使って事前訓練されている場合、Jukeboxの音声表現はメル分光器よりは優れていないことを示唆している。 これは、Jukeboxの音声表現が人間の聴覚の特異性を十分に考慮していないという事実によって説明できる。 一方,メルスペクトログラムは人間の聴覚感覚を念頭に特別に作成されている。

For Music Information Retrieval downstream tasks, the most common audio representation is time-frequency-based, such as Mel spectrograms. In order to identify musical genres, this study explores the possibilities of a new form of audio representation one of the most usual MIR downstream tasks. Therefore, to discretely encoding music using deep vector quantization; a novel audio representation was created for the innovative generative music model i.e. Jukebox. The effectiveness of Jukebox's audio representation is compared to Mel spectrograms using a dataset that is almost equivalent to State-of-the-Art (SOTA) and an almost same transformer design. The results of this study imply that, at least when the transformers are pretrained using a very modest dataset of 20k tracks, Jukebox's audio representation is not superior to Mel spectrograms. This could be explained by the fact that Jukebox's audio representation does not sufficiently take into account the peculiarities of human hearing perception. On the other hand, Mel spectrograms are specifically created with the human auditory sense in mind.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# 熱力学インフォームドニューラルネットワークにおける単世代および二重世代形式の比較

A comparison of Single- and Double-generator formalisms for Thermodynamics-Informed Neural Networks ( http://arxiv.org/abs/2404.01060v1 )

ライセンス: Link先を確認
Pau Urdeitx, Icíar Alfaro, David González, Francisco Chinesta, Elías Cueto, (参考訳) 誘導バイアスの発達は、特に物理現象を予測するために使用されるニューラルネットワークの精度と堅牢性を高める非常に効果的な方法であることが示されている。 これらのバイアスは予測の確実性を著しく増加させ、エラーを低減し、より小さなデータセットの使用を可能にする。 文献にはこれらのバイアスを開発するための多くの方法がある。 物理現象を扱う最も効果的な方法の1つは、認識された妥当性の物理原理をネットワークアーキテクチャに導入することである。 この問題は、研究中の現象を統治する物理原理の知識がなければ、より複雑になる。 その際、非常に興味深い可能性は、研究中の現象に求める記述の抽象化のレベルに関係なく、普遍的に有効である熱力学の原理に目を向けることである。 熱力学の原理に従うために、科学の多くの分野において長い伝統を持つ定式化が存在する。 レオロジーの分野では、例えば2つの主要な形式主義がこれらの原則に準拠するために用いられる: 1世代形式主義と2世代形式主義である。 本稿では,既知の解法と合成データを用いた古典的問題を用いて,それぞれの長所と短所について検討する。

The development of inductive biases has been shown to be a very effective way to increase the accuracy and robustness of neural networks, particularly when they are used to predict physical phenomena. These biases significantly increase the certainty of predictions, decrease the error made and allow considerably smaller datasets to be used. There are a multitude of methods in the literature to develop these biases. One of the most effective ways, when dealing with physical phenomena, is to introduce physical principles of recognised validity into the network architecture. The problem becomes more complex without knowledge of the physical principles governing the phenomena under study. A very interesting possibility then is to turn to the principles of thermodynamics, which are universally valid, regardless of the level of abstraction of the description sought for the phenomenon under study. To ensure compliance with the principles of thermodynamics, there are formulations that have a long tradition in many branches of science. In the field of rheology, for example, two main types of formalisms are used to ensure compliance with these principles: one-generator and two-generator formalisms. In this paper we study the advantages and disadvantages of each, using classical problems with known solutions and synthetic data.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# 2次元検出プロンプティングによる路面単分子3次元検出

Roadside Monocular 3D Detection via 2D Detection Prompting ( http://arxiv.org/abs/2404.01064v1 )

ライセンス: Link先を確認
Yechi Ma, Shuoquan Wei, Churun Zhang, Wei Hua, Yanan Li, Shu Kong, (参考訳) 道路側モノクル3D検出の問題は、2D RGBフレーム内の興味あるクラスのオブジェクトを検出し、鳥の目視(BEV)の場所のようなそれらの3D情報を予測することである。 交通制御、車両と車両の通信、車両とインフラの協調的な知覚に広く応用されている。 この問題に対処するために, 2次元検出を用いて3次元検出器を誘導し, 新規かつ簡便な手法を提案する。 提案手法は,3次元検出器と比較して2次元検出器の訓練がはるかに容易であり,2次元画像平面上でのWr.t検出の精度が著しく向上する,という重要な知見に基づいている。 とはいえ、よく訓練された2D検出器の2D検出を3D検出器に誘導し、そのような2D検出を3D検出に向けて膨らませる方法で訓練することができる。 2D検出器を用いてより優れたプロンプトを構築するために、3つの手法を探索する。 (a)2D検出器と3D検出器の両方の特徴を連結すること。 (b)2次元・3次元検出器の特徴を注意深く融合させ、 (c) 予測された2Dボックス x, y, 幅, 高さ, ラベルを3D検出器の特徴と密接に融合させる。 意外なことに、三人目は最高の成績を収めている。 さらに,これらの手法により3次元検出性能が向上し,それらの機能に基づいてクラスをマージするヨウチューニング戦略とクラスグループ化戦略を提案する。 包括的アブレーション研究と広範囲な実験により,本手法は従来の手法よりも優れており,大規模道路側3次元検出ベンチマークの最先端を達成できた。

The problem of roadside monocular 3D detection requires detecting objects of interested classes in a 2D RGB frame and predicting their 3D information such as locations in bird's-eye-view (BEV). It has broad applications in traffic control, vehicle-vehicle communication, and vehicle-infrastructure cooperative perception. To approach this problem, we present a novel and simple method by prompting the 3D detector using 2D detections. Our method builds on a key insight that, compared with 3D detectors, a 2D detector is much easier to train and performs significantly better w.r.t detections on the 2D image plane. That said, one can exploit 2D detections of a well-trained 2D detector as prompts to a 3D detector, being trained in a way of inflating such 2D detections to 3D towards 3D detection. To construct better prompts using the 2D detector, we explore three techniques: (a) concatenating both 2D and 3D detectors' features, (b) attentively fusing 2D and 3D detectors' features, and (c) encoding predicted 2D boxes x, y, width, height, label and attentively fusing such with the 3D detector's features. Surprisingly, the third performs the best. Moreover, we present a yaw tuning tactic and a class-grouping strategy that merges classes based on their functionality; these techniques improve 3D detection performance further. Comprehensive ablation studies and extensive experiments demonstrate that our method resoundingly outperforms prior works, achieving the state-of-the-art on two large-scale roadside 3D detection benchmarks.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# T-Mamba:3D CBCT切片の高周波拡張型ロングラウンジ依存性

T-Mamba: Frequency-Enhanced Gated Long-Range Dependency for Tooth 3D CBCT Segmentation ( http://arxiv.org/abs/2404.01065v1 )

ライセンス: Link先を確認
Jing Hao, Lei He, Kuo Feng Hung, (参考訳) CBCT画像のノイズ, コントラスト, アーティファクトが原因で, 歯科矯正診断に重要な3次元画像の高精細化が困難である。 畳み込みニューラルネットワーク(CNN)とトランスフォーマーの両方が、イメージセグメンテーションの一般的なアーキテクチャとして登場した。 しかしながら、長距離依存の処理におけるそれらの有効性は、固有の局所性や計算の複雑さのために制限される。 そこで我々は,T-Mambaを提案する。このT-Mambaは,空間的位置保存の限界と周波数領域の機能強化に対処するため,共有位置符号化と周波数ベースの特徴を視覚マンバに統合する。 また、空間領域における2つの特徴と周波数領域における1つの特徴を適応的に統合するゲート選択ユニットを設計する。 T-Mambaは、視覚マンバに周波数ベースの機能を導入した最初の作品である。 大規模な実験により、T-Mambaは公衆の歯のCBCTデータセット上で新しいSOTA結果を達成し、従来のSOTAメソッドよりも大きなマージン、すなわちIoU + 3.63%、SO + 2.43%、DSC + 2.30%、HD -4.39mm、ASSD -0.37mmで優れていることが示されている。 コードとモデルはhttps://github.com/isbrycee/T-Mamba.comで公開されている。

Efficient tooth segmentation in three-dimensional (3D) imaging, critical for orthodontic diagnosis, remains challenging due to noise, low contrast, and artifacts in CBCT images. Both convolutional Neural Networks (CNNs) and transformers have emerged as popular architectures for image segmentation. However, their efficacy in handling long-range dependencies is limited due to inherent locality or computational complexity. To address this issue, we propose T-Mamba, integrating shared positional encoding and frequency-based features into vision mamba, to address limitations in spatial position preservation and feature enhancement in frequency domain. Besides, we also design a gate selection unit to integrate two features in spatial domain and one feature in frequency domain adaptively. T-Mamba is the first work to introduce frequency-based features into vision mamba. Extensive experiments demonstrate that T-Mamba achieves new SOTA results on the public Tooth CBCT dataset and outperforms previous SOTA methods by a large margin, i.e., IoU + 3.63%, SO + 2.43%, DSC +2.30%, HD -4.39mm, and ASSD -0.37mm. The code and models are publicly available at https://github.com/isbrycee/T-Mamba.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# 数学的推論のためのインフルエンシャルデータの謎を探る

Exploring the Mystery of Influential Data for Mathematical Reasoning ( http://arxiv.org/abs/2404.01067v1 )

ライセンス: Link先を確認
Xinzhe Ni, Yeyun Gong, Zhibin Gou, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen, (参考訳) 下流タスクの微調整に有効なデータを選択することは、パフォーマンスと計算効率の両方にとって重要な要素である。 近年の研究では、限られたデータのみによるトレーニングは、一般的なタスクにおいて優れたパフォーマンスを示すことが示されている。 しかし、数学的推論タスクの実現性は検証されていない。 さらに、数学的推論には2つのオープンな質問がある: 影響のあるデータをどのように選択するかと、影響のあるデータ構成は何か。 前者に対しては,数学的推論に適応したQaDS(Quality-Aware Diverse Selection)戦略を提案する。 他の選択戦略との比較は、QaDSの優位性を検証する。 後者については、まず設定を拡大し、影響力のあるデータ構成を探索する。 推論データのスケールアップと,QaDSが選択した一般データによるトレーニングが有用である。 そこで,我々は,QaDS が選択したオープンソースデータと有意なデータ混合である OpenMathMix を最適混合として定義する。 OpenMathMixでは、7Bベースモデルを用いたMATHで最先端の48.8%の精度を実現している。 さらに,様々な選択比を持つ効率的な微調整混合物の創出にQaDSを用い,様々なオープンソースデータセットの品質を解析し,今後の数学的推論タスクの参考として機能することを示す。

Selecting influential data for fine-tuning on downstream tasks is a key factor for both performance and computation efficiency. Recent works have shown that training with only limited data can show a superior performance on general tasks. However, the feasibility on mathematical reasoning tasks has not been validated. To go further, there exist two open questions for mathematical reasoning: how to select influential data and what is an influential data composition. For the former one, we propose a Quality-aware Diverse Selection (QaDS) strategy adaptable for mathematical reasoning. A comparison with other selection strategies validates the superiority of QaDS. For the latter one, we first enlarge our setting and explore the influential data composition. We conduct a series of experiments and highlight: scaling up reasoning data, and training with general data selected by QaDS is helpful. Then, we define our optimal mixture as OpenMathMix, an influential data mixture with open-source data selected by QaDS. With OpenMathMix, we achieve a state-of-the-art 48.8% accuracy on MATH with 7B base model. Additionally, we showcase the use of QaDS in creating efficient fine-tuning mixtures with various selection ratios, and analyze the quality of a wide range of open-source datasets, which can perform as a reference for future works on mathematical reasoning tasks.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# Dual-Unitary Classical Shadow Tomography

Dual-Unitary Classical Shadow Tomography ( http://arxiv.org/abs/2404.01068v1 )

ライセンス: Link先を確認
Ahmed A. Akhtar, Namit Anand, Jeffrey Marshall, Yi-Zhuang You, (参考訳) 従来のシャドウトモグラフィーの文脈におけるランダムな二重単位回路における演算子拡散について検討した。 まず,1次元量子ビット系におけるパウリ重みのダイナミクスを,レンガ壁構造に配置されたランダムな2局所二重単位ゲートによって解析し,最終測定層で終了する。 このことは、パウリ重み移動行列の一般制約を導出し、双対ユニタリ性の場合に特化することによって行う。 まず、双対ユニタリはエントロピー生成の最小限の量でなければならないことを示す。 注目すべきことに、これらの回路に広がる作用素は、相対論的量子場理論に類似した豊富な構造を持ち、質量のないカイラル励起は互いに崩壊または融合し、左あるいは右のモーバーと呼ばれる。 固定重み分布から始まるサイト$x$と深さ$t$において非自明な支持を持つ確率を表す$\rho(x,t)$という観点から、パウリ重みの平均場記述を開発する。 我々は$\rho(x,t)$の状態方程式を開発し、モンテカルロシミュレーションを用いて数値シミュレーションを行う。 最後に,二元系回路の高速熱処理特性が,浅いレンガ壁クリフォード回路よりも大きな演算子を予測できることを示す。

We study operator spreading in random dual-unitary circuits within the context of classical shadow tomography. Primarily, we analyze the dynamics of the Pauli weight in one-dimensional qubit systems evolved by random two-local dual-unitary gates arranged in a brick-wall structure, ending with a final measurement layer. We do this by deriving general constraints on the Pauli weight transfer matrix and specializing to the case of dual-unitarity. We first show that dual-unitaries must have a minimal amount of entropy production. Remarkably, we find that operator spreading in these circuits has a rich structure resembling that of relativistic quantum field theories, with massless chiral excitations that can decay or fuse into each other, which we call left- or right-movers. We develop a mean-field description of the Pauli weight in terms of $\rho(x,t)$, which represents the probability of having nontrivial support at site $x$ and depth $t$ starting from a fixed weight distribution. We develop an equation of state for $\rho(x,t)$, and simulate it numerically using Monte Carlo simulations. Lastly, we demonstrate that the fast-thermalizing properties of dual-unitary circuits make them better at predicting large operators than shallow brick-wall Clifford circuits.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# 統合性によるAIの進化 - ニューラルネットワーク翻訳における倫理的課題と解決策

Advancing AI with Integrity: Ethical Challenges and Solutions in Neural Machine Translation ( http://arxiv.org/abs/2404.01070v1 )

ライセンス: Link先を確認
Richard Kimera, Yun-Seon Kim, Heeyoul Choi, (参考訳) 本稿では,ニューラルネットワーク翻訳(NMT)システムにおける人工知能の倫理的課題について論じる。 NMTにおけるAIモデルの倫理的能力について検討し,データ処理,プライバシ,データ所有,同意など,NMT開発の各段階における倫理的考察を検討する。 我々は実証的研究を通じて倫理的問題を特定・解決する。 例えば、ルガンダ・英語の翻訳にTransformerモデルを採用することや、文のミニバッチによる効率の向上などである。 そして、データラベリング技術を洗練させ、ルーガンダとイギリスのソーシャルメディアコンテンツを分析するための細いBERTとLongformerモデルを補完する研究を行った。 2つ目のアプローチは、Google ScholarのようなデータベースとGitHubのようなプラットフォームからの文献レビューです。 さらに,AIシステムと人間間の責任の分散について検討し,NMT倫理基準の維持において,人間の監督が果たす重要な役割を明らかにする。 聖書的視点を取り入れて,NMTの社会的影響と開発者の幅広い倫理的責任を論じ,創造の社会的反感の原因となるスチュワートとして論じる。

This paper addresses the ethical challenges of Artificial Intelligence in Neural Machine Translation (NMT) systems, emphasizing the imperative for developers to ensure fairness and cultural sensitivity. We investigate the ethical competence of AI models in NMT, examining the Ethical considerations at each stage of NMT development, including data handling, privacy, data ownership, and consent. We identify and address ethical issues through empirical studies. These include employing Transformer models for Luganda-English translations and enhancing efficiency with sentence mini-batching. And complementary studies that refine data labeling techniques and fine-tune BERT and Longformer models for analyzing Luganda and English social media content. Our second approach is a literature review from databases such as Google Scholar and platforms like GitHub. Additionally, the paper probes the distribution of responsibility between AI systems and humans, underscoring the essential role of human oversight in upholding NMT ethical standards. Incorporating a biblical perspective, we discuss the societal impact of NMT and the broader ethical responsibilities of developers, positing them as stewards accountable for the societal repercussions of their creations.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# 高分解能SAR画像における指向性送電塔検出のプロンプト学習

Prompt Learning for Oriented Power Transmission Tower Detection in High-Resolution SAR Images ( http://arxiv.org/abs/2404.01074v1 )

ライセンス: Link先を確認
Tianyang Li, Chao Wang, Hong Zhang, (参考訳) 合成開口レーダ(SAR)画像から透過塔を検出することは、比較的小さな大きさと横方向の形状のため困難な課題であり、背景の乱れが塔の識別を妨げている。 多数の干渉信号が塔からの帰還信号を重畳する。 この障害に対処するためには,送電塔の位置の特定・促進が有用であることがわかった。 本発表では,マルチモーダル情報学習のためのオブジェクト指向物体検出器 (P2Det) に即時学習を導入する。 P2Detはマルチモーダルデータ間のスパースプロンプトコーディングとクロスアテンションを含む。 具体的には、スパースプロンプトエンコーダ(SPE)がポイント位置を表すために提案され、プロンプトをスパース埋め込みに変換する。 イメージ埋め込みはTransformer層を通じて生成される。 次に、2つの異なる埋め込みの相互配置を計算するために、双方向融合モジュール(TWFM)を提案する。 画像レベルの特徴とプロンプトレベルの特徴の相互作用を利用して、乱雑な干渉に対処する。 アスペクト比の影響を低減するため,形状適応リファインメントモジュール (SARM) を提案する。 高分解能SAR画像に対する提案手法の有効性を実験により検証した。 P2Detは、競合性能のため、マルチモーダルオブジェクト検出のための新しい洞察を提供する。

Detecting transmission towers from synthetic aperture radar (SAR) images remains a challenging task due to the comparatively small size and side-looking geometry, with background clutter interference frequently hindering tower identification. A large number of interfering signals superimposes the return signal from the tower. We found that localizing or prompting positions of power transmission towers is beneficial to address this obstacle. Based on this revelation, this paper introduces prompt learning into the oriented object detector (P2Det) for multimodal information learning. P2Det contains the sparse prompt coding and cross-attention between the multimodal data. Specifically, the sparse prompt encoder (SPE) is proposed to represent point locations, converting prompts into sparse embeddings. The image embeddings are generated through the Transformer layers. Then a two-way fusion module (TWFM) is proposed to calculate the cross-attention of the two different embeddings. The interaction of image-level and prompt-level features is utilized to address the clutter interference. A shape-adaptive refinement module (SARM) is proposed to reduce the effect of aspect ratio. Extensive experiments demonstrated the effectiveness of the proposed model on high-resolution SAR images. P2Det provides a novel insight for multimodal object detection due to its competitive performance.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# 大規模言語モデルの効率的なプロンプト法:調査

Efficient Prompting Methods for Large Language Models: A Survey ( http://arxiv.org/abs/2404.01077v1 )

ライセンス: Link先を確認
Kaiyan Chang, Songcheng Xu, Chenglong Wang, Yingfeng Luo, Tong Xiao, Jingbo Zhu, (参考訳) プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。 このアプローチは、LLMの文脈内学習への扉を開くが、特にLLMの動作をガイドし制御するために長く複雑なプロンプトを使用する場合、モデル推論と手動設計プロンプトの人間の作業による計算負担が増大する。 その結果、LLMフィールドは効率的なプロンプト法が著しく急増した。 本稿では,これらの手法の概要を概観する。 高いレベルでは、効率的なプロンプト法は、効率的な計算のプロンプトと効率的な設計のプロンプトの2つのアプローチに大別することができる。 前者は様々な方法でプロンプトを圧縮し、後者は自動プロンプト最適化のための技術を採用している。 本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。

Prompting has become a mainstream paradigm for adapting large language models (LLMs) to specific natural language processing tasks. While this approach opens the door to in-context learning of LLMs, it brings the additional computational burden of model inference and human effort of manual-designed prompts, particularly when using lengthy and complex prompts to guide and control the behavior of LLMs. As a result, the LLM field has seen a remarkable surge in efficient prompting methods. In this paper, we present a comprehensive overview of these methods. At a high level, efficient prompting methods can broadly be categorized into two approaches: prompting with efficient computation and prompting with efficient design. The former involves various ways of compressing prompts, and the latter employs techniques for automatic prompt optimization. We present the basic concepts of prompting, review the advances for efficient prompting, and highlight future research directions.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# 解釈可能な深層学習予測モデルのためのエネルギーモデルに基づく高精度シェープ値推定

Energy Model-based Accurate Shapley Value Estimation for Interpretable Deep Learning Predictive Modelling ( http://arxiv.org/abs/2404.01078v1 )

ライセンス: Link先を確認
Cheng Lu, Jiusun Zeng, Yu Xia, Jinhui Cai, Shihua Luo, (参考訳) 説明可能な人工知能(XAI)のツールとして、Shapleyの価値はディープラーニングに基づく予測モデルを解釈するために広く用いられてきた。 しかし,入力特性の増加に伴い計算負荷が指数関数的に増加するため,Shapley値の正確かつ効率的な推定は難しい課題である。 既存のシェープ値推定手法の多くは、効率よく推定精度を損なう必要がある。 本稿では,EmSHAP(Energy model-based Shapley value Estimation)を提案する。 エネルギーモデルにおける提案条件分布を決定するために、入力特徴を隠れ空間にマッピングすることにより、ゲートリカレントユニット(GRU)を導入し、入力特徴順序の影響を排除できる。 さらに,一般化能力を向上させるために,動的マスキング方式を提案する。 Theorems 1, 2 3 において、EmSHAP は KernelSHAP や VAEAC のような最先端の手法よりも厳密な誤差を達成し、高い推定精度をもたらすことが証明されている。 最後に,医学的応用と産業的応用に関するケーススタディにより,提案したShapley値に基づく説明可能なフレームワークは,効率を損なうことなく推定精度を向上することを示した。

As a favorable tool for explainable artificial intelligence (XAI), Shapley value has been widely used to interpret deep learning based predictive models. However, accurate and efficient estimation of Shapley value is a difficult task since the computation load grows exponentially with the increase of input features. Most existing accelerated Shapley value estimation methods have to compromise on estimation accuracy with efficiency. In this article, we present EmSHAP(Energy model-based Shapley value estimation), which can effectively approximate the expectation of Shapley contribution function/deep learning model under arbitrary subset of features given the rest. In order to determine the proposal conditional distribution in the energy model, a gated recurrent unit(GRU) is introduced by mapping the input features onto a hidden space, so that the impact of input feature orderings can be eliminated. In addition, a dynamic masking scheme is proposed to improve the generalization ability. It is proved in Theorems 1, 2 and 3 that EmSHAP achieves tighter error bound than state-of-the-art methods like KernelSHAP and VAEAC, leading to higher estimation accuracy. Finally, case studies on a medical application and an industrial application show that the proposed Shapley value-based explainable framework exhibits enhanced estimation accuracy without compromise on efficiency.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# 静的拡散: 旧式手法による超現実的5D映画生成

Stale Diffusion: Hyper-realistic 5D Movie Generation Using Old-school Methods ( http://arxiv.org/abs/2404.01079v1 )

ライセンス: Link先を確認
Joao F. Henriques, Dylan Campbell, Tengda Han, (参考訳) 2年前、Stable Diffusionは、超人的な指数で画像を生成することで、超人的なパフォーマンスを達成した。 技術的新奇性の着実に低下した後, 安定拡散を最大エントロピー状態で固形化し, 浸透させる手法であるステール拡散を提案する。 安定拡散(stable Diffusion)は、無限の馬が逃げ出した納屋(stable)と類似して機能する(拡散)。 馬は長い間納屋を離れてきたので、我々の提案は時代遅れで無関係であると見なされるかもしれない。 それにもかかわらず、我々は、未来において非常に重要な知恵の真珠を産み出すスローサイエンス運動のアーリーアダプターとして特定することで、ノベルティの主張を積極的に擁護する。 コントリビューションのスピードは、最近のAI実験を一時停止するための準静的な実装と見なすこともできる。 その結果,18ヶ月のGitコミット履歴を慎重に調査した結果,自然に蓄積したエラーが,睡眠を誘発する超現実的な5Dビデオを生成する,エントロピーを最大化する新たなスタイル拡散法を生み出していることが判明した。

Two years ago, Stable Diffusion achieved super-human performance at generating images with super-human numbers of fingers. Following the steady decline of its technical novelty, we propose Stale Diffusion, a method that solidifies and ossifies Stable Diffusion in a maximum-entropy state. Stable Diffusion works analogously to a barn (the Stable) from which an infinite set of horses have escaped (the Diffusion). As the horses have long left the barn, our proposal may be seen as antiquated and irrelevant. Nevertheless, we vigorously defend our claim of novelty by identifying as early adopters of the Slow Science Movement, which will produce extremely important pearls of wisdom in the future. Our speed of contributions can also be seen as a quasi-static implementation of the recent call to pause AI experiments, which we wholeheartedly support. As a result of a careful archaeological expedition to 18-months-old Git commit histories, we found that naturally-accumulating errors have produced a novel entropy-maximising Stale Diffusion method, that can produce sleep-inducing hyper-realistic 5D video that is as good as one's imagination.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# PhysReaction:フォワードダイナミクスによる物理的にプラズブルなリアルタイムヒューマノイド反応合成

PhysReaction: Physically Plausible Real-Time Humanoid Reaction Synthesis via Forward Dynamics Guided 4D Imitation ( http://arxiv.org/abs/2404.01081v1 )

ライセンス: Link先を確認
Yunze Liu, Changxi Chen, Chenjing Ding, Li Yi, (参考訳) ヒューマノイド反応合成は、人間の環境にシームレスに統合し、私たちの生活、働き、コミュニケーションの方法を強化する、高度にインタラクティブで共感的なロボットを作るための重要な要素だ。 しかし、複数の人間の多様な相互作用パターンを学習し、物理的に妥当な反応を生成することは困難である。 キネマティクスをベースとしたアプローチは、浮き足、滑走、浸透、その他の物理的妥当性を損なう問題など、課題に直面している。 既存の物理学に基づく手法は、しばしば、動作実行中にキネマティックノイズによって引き起こされる課題に対処する参照状態を生成するキネマティックスに基づく手法に依存している。 拡散モデルに依存しているため、これらの手法はリアルタイムな推論を達成できない。 本研究では, 物理的に可塑性なヒト様反応を生成するフォワードダイナミクスガイド4Dイミテーション法を提案する。 学習されたポリシーは、物理的に可塑性で人間に似た反応をリアルタイムで生成することができ、既存の方法と比較して、速度(x33)と反応の質を著しく向上させることができる。 InterHumanとChi3Dデータセットに関する実験は、アブレーション研究とともに、我々のアプローチの有効性を実証した。

Humanoid Reaction Synthesis is pivotal for creating highly interactive and empathetic robots that can seamlessly integrate into human environments, enhancing the way we live, work, and communicate. However, it is difficult to learn the diverse interaction patterns of multiple humans and generate physically plausible reactions. The kinematics-based approaches face challenges, including issues like floating feet, sliding, penetration, and other problems that defy physical plausibility. The existing physics-based method often relies on kinematics-based methods to generate reference states, which struggle with the challenges posed by kinematic noise during action execution. Constrained by their reliance on diffusion models, these methods are unable to achieve real-time inference. In this work, we propose a Forward Dynamics Guided 4D Imitation method to generate physically plausible human-like reactions. The learned policy is capable of generating physically plausible and human-like reactions in real-time, significantly improving the speed(x33) and quality of reactions compared with the existing method. Our experiments on the InterHuman and Chi3D datasets, along with ablation studies, demonstrate the effectiveness of our approach.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# SemEval-2024 Task 9: Cracking Brain Teasers: Transformer Models forlateralal Thinking Puzzles

AILS-NTUA at SemEval-2024 Task 9: Cracking Brain Teasers: Transformer Models for Lateral Thinking Puzzles ( http://arxiv.org/abs/2404.01084v1 )

ライセンス: Link先を確認
Ioannis Panagiotopoulos, Giorgos Filandrianos, Maria Lymperaiou, Giorgos Stamou, (参考訳) 本稿では,SemEval-2024 Task 9のコンペティションについて概説する。 サブタスク A-Sentence Puzzle と Sub-task B-Word Puzzle の2つのサブタスクに従事している。 我々は,様々な大きさのトランスフォーマーベース言語モデルを微調整により評価する。 その後、将来の研究者がこれらのモデルを効果的に理解し活用することを支援するために、それらのスコアと反応の分析を行う。 私たちのトップパフォーマンスのアプローチは、両方のサブタスクで競争のリーダーボード上の競争的なポジションを確保しました。 評価段階では,Sentence Puzzleが81.7%,Word Puzzleが85.4%,ChatGPTが20%以上,ChatGPTが30%以上であった。

In this paper, we outline our submission for the SemEval-2024 Task 9 competition: 'BRAINTEASER: A Novel Task Defying Common Sense'. We engage in both sub-tasks: Sub-task A-Sentence Puzzle and Sub-task B-Word Puzzle. We evaluate a plethora of pre-trained transformer-based language models of different sizes through fine-tuning. Subsequently, we undertake an analysis of their scores and responses to aid future researchers in understanding and utilizing these models effectively. Our top-performing approaches secured competitive positions on the competition leaderboard across both sub-tasks. In the evaluation phase, our best submission attained an average accuracy score of 81.7% in the Sentence Puzzle, and 85.4% in the Word Puzzle, significantly outperforming the best neural baseline (ChatGPT) by more than 20% and 30% respectively.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# 高忠実度仮想トライオンのためのテクスチャ保存拡散モデル

Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-On ( http://arxiv.org/abs/2404.01089v1 )

ライセンス: Link先を確認
Xu Yang, Changxing Ding, Zhibin Hong, Junhao Huang, Jin Tao, Xiangmin Xu, (参考訳) 画像ベースの仮想試行は、オンラインショッピングにとってますます重要なタスクである。 特定の衣服を身に着けている特定の人の画像を合成することを目的としている。 拡散モデルに基づくアプローチは,画像合成タスクに優れており,近年普及している。 しかしながら、これらのアプローチは、通常、追加のイメージエンコーダを使用し、衣服から人像へのテクスチャ伝達のためのクロスアテンション機構に依存しており、これは試行の効率と忠実性に影響を与える。 これらの問題に対処するために,仮想試行錯誤のためのテクスチャ保存拡散(TPD)モデルを提案する。 そのため、2つの側面からコントリビューションを行います。 まず,被写体と参照衣料画像を空間的次元に沿って結合し,得られた画像を拡散モデルの視覚的UNetの入力として利用することを提案する。 これにより、拡散モデルに含まれる本来の自己認識層が、効率的かつ正確なテクスチャ転送を実現することができる。 第2に,人物と参照衣料品画像に基づいて正確な塗布マスクを予測し,試着結果の信頼性をさらに高める拡散法を提案する。 さらに,マスク予測と画像合成を1つのコンパクトモデルに統合する。 実験結果から,本手法は様々な試着作業,例えば着物対人,対人対人などに適用可能であり,VITON,VITON-HDデータベース上での最先端手法よりも優れていた。

Image-based virtual try-on is an increasingly important task for online shopping. It aims to synthesize images of a specific person wearing a specified garment. Diffusion model-based approaches have recently become popular, as they are excellent at image synthesis tasks. However, these approaches usually employ additional image encoders and rely on the cross-attention mechanism for texture transfer from the garment to the person image, which affects the try-on's efficiency and fidelity. To address these issues, we propose an Texture-Preserving Diffusion (TPD) model for virtual try-on, which enhances the fidelity of the results and introduces no additional image encoders. Accordingly, we make contributions from two aspects. First, we propose to concatenate the masked person and reference garment images along the spatial dimension and utilize the resulting image as the input for the diffusion model's denoising UNet. This enables the original self-attention layers contained in the diffusion model to achieve efficient and accurate texture transfer. Second, we propose a novel diffusion-based method that predicts a precise inpainting mask based on the person and reference garment images, further enhancing the reliability of the try-on results. In addition, we integrate mask prediction and image synthesis into a single compact model. The experimental results show that our approach can be applied to various try-on tasks, e.g., garment-to-person and person-to-person try-ons, and significantly outperforms state-of-the-art methods on popular VITON, VITON-HD databases.
翻訳日:2024-04-03 22:35:23 公開日:2024-04-01
# HairFastGAN:高速エンコーダによる実効性とロバストなヘアトランスファー

HairFastGAN: Realistic and Robust Hair Transfer with a Fast Encoder-Based Approach ( http://arxiv.org/abs/2404.01094v1 )

ライセンス: Link先を確認
Maxim Nikolaev, Mikhail Kuznetsov, Dmitry Vetrov, Aibek Alanov, (参考訳) 本稿では,ヘアスタイルを参照画像から入力写真に転送する複雑な作業に対処し,バーチャルヘアトライオンを行う。 この課題は、さまざまな写真のポーズ、髪型の感度、客観的な指標の欠如に適応する必要があるため、困難である。 現在の最先端のヘアスタイル転送手法では、アプローチの異なる部分に対して最適化プロセスを使用しており、非常に遅い。 同時に、より高速なエンコーダベースのモデルは、StyleGANのW+空間で動作するか、他の低次元イメージジェネレータを使用するため、非常に低品質である。 さらに、両方のアプローチは、ソースのポーズがターゲットのポーズと非常に異なる場合、そのポーズを全く考慮しないか、非効率に扱うため、ヘアスタイルの転送に問題がある。 本稿では,これらの問題を一意に解き,高分解能,ほぼリアルタイム性能を実現し,最適化問題に基づく手法よりも優れた再構成を実現するHairFastモデルを提案する。 我々のソリューションには、FS潜在空間のStyleGANで動く新しいアーキテクチャ、拡張された塗装アプローチ、アライメント改善のためのエンコーダの改善、カラー転送、ポストプロセッシングのための新しいエンコーダが含まれる。 提案手法の有効性は, 髪型移行時におけるランダムな髪型移動と再構成後のリアリズム指標で示される。 ヘアスタイルの形状と色を異なる画像から転送する最も難しいシナリオでは、Nvidia V100上で1秒未満で実行することができる。 私たちのコードはhttps://github.com/AIRI-Institute/HairFastGANで利用可能です。

Our paper addresses the complex task of transferring a hairstyle from a reference image to an input photo for virtual hair try-on. This task is challenging due to the need to adapt to various photo poses, the sensitivity of hairstyles, and the lack of objective metrics. The current state of the art hairstyle transfer methods use an optimization process for different parts of the approach, making them inexcusably slow. At the same time, faster encoder-based models are of very low quality because they either operate in StyleGAN's W+ space or use other low-dimensional image generators. Additionally, both approaches have a problem with hairstyle transfer when the source pose is very different from the target pose, because they either don't consider the pose at all or deal with it inefficiently. In our paper, we present the HairFast model, which uniquely solves these problems and achieves high resolution, near real-time performance, and superior reconstruction compared to optimization problem-based methods. Our solution includes a new architecture operating in the FS latent space of StyleGAN, an enhanced inpainting approach, and improved encoders for better alignment, color transfer, and a new encoder for post-processing. The effectiveness of our approach is demonstrated on realism metrics after random hairstyle transfer and reconstruction when the original hairstyle is transferred. In the most difficult scenario of transferring both shape and color of a hairstyle from different images, our method performs in less than a second on the Nvidia V100. Our code is available at https://github.com/AIRI-Institute/HairFastGAN.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# LLMを用いたCプログラムのメモリ安全性向上

Enabling Memory Safety of C Programs using LLMs ( http://arxiv.org/abs/2404.01096v1 )

ライセンス: Link先を確認
Nausheen Mohammed, Akash Lal, Aseem Rastogi, Subhajit Roy, Rahul Sharma, (参考訳) C言語で書かれた低レベルのコードのメモリ安全性違反は、ソフトウェア脆弱性の主要な原因のひとつであり続けている。 このような違反を建設によって除去する方法の1つは、安全なC方言にCコードを移植することである。 このような方言は、最小限のランタイムオーバーヘッドで安全性を保証するためにプログラマが提供するアノテーションに依存している。 しかしこの移植は、プログラマに多大な負担をかける手作業であり、そのため、このテクニックの採用は限られている。 ポーティングのタスクはアノテーションを推論するだけでなく、そのようなアノテーションに対処するためにコードのリファクタリングや書き直しも必要かもしれない。 本稿では,これら2つの問題に対処するために,Large Language Models (LLMs) を用いる。 複雑なコード推論や大規模なコードベースの書き直しにLLM機能を利用する方法を示す。 また、軽量な静的解析を利用して、LLMによって効果的に実行できる小さなステップに変換を分解する、プログラム全体の変換のための新しいフレームワークを提案する。 We implement our ideas in a tool called MSA that target the CheckedC dialect。 マイクロベンチマークや,最大20K行までの実世界のコードに対して,MSAを評価した。 我々は,バニラLLMベースラインよりも優れた性能を示すとともに,最先端のシンボル(非LLM)技術よりも優れた性能を示す。

Memory safety violations in low-level code, written in languages like C, continues to remain one of the major sources of software vulnerabilities. One method of removing such violations by construction is to port C code to a safe C dialect. Such dialects rely on programmer-supplied annotations to guarantee safety with minimal runtime overhead. This porting, however, is a manual process that imposes significant burden on the programmer and, hence, there has been limited adoption of this technique. The task of porting not only requires inferring annotations, but may also need refactoring/rewriting of the code to make it amenable to such annotations. In this paper, we use Large Language Models (LLMs) towards addressing both these concerns. We show how to harness LLM capabilities to do complex code reasoning as well as rewriting of large codebases. We also present a novel framework for whole-program transformations that leverages lightweight static analysis to break the transformation into smaller steps that can be carried out effectively by an LLM. We implement our ideas in a tool called MSA that targets the CheckedC dialect. We evaluate MSA on several micro-benchmarks, as well as real-world code ranging up to 20K lines of code. We showcase superior performance compared to a vanilla LLM baseline, as well as demonstrate improvement over a state-of-the-art symbolic (non-LLM) technique.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# 不均一なはしごの位相位相とエッジモード

Topological phases and edge modes of an uneven ladder ( http://arxiv.org/abs/2404.01097v1 )

ライセンス: Link先を確認
Wen-Chuang Shang, Yi-Ning Han, Shimpei Endo, Chao Gao, (参考訳) 両鎖が不均一な脚を持つ2鎖量子はしごの位相的性質について検討する。 このような不均一なはしごは、直接または間接のバンドギャップの閉鎖によって分類されたリッチなバンド構造を示す。 また、バンドトポロジーとエッジモードに関する基本的な概念を探求する機会として、細胞内および細胞間ザック相の相違や、反転対称性(IS)の役割などが挙げられる。 2種類のザック位相を計算し、それぞれ双極子モーメントと余剰電荷蓄積との良好な一致を求める。 また,ISを含まない構成は,直接バンドギャップの閉鎖として現れる2辺のエッジモードと,直接バンドギャップと間接バンドギャップの閉鎖だけでなく,バンド連続体内で発生する一方辺のエッジモードが特徴的であることも見いだした。 さらに、2つの部分格子に投影することにより、有効ブロッホ・ハミルトニアンは、ホッピング振幅が準位数に依存する一般化されたSu-Schrieffer-Heegerモデルまたはライス・ミールモデルに対応することが分かる。 このようにして、トポロジカル位相を曲がりくねった数から効率的に抽出することができる。 スピン依存型光学格子により不均一なはしごを実現することができ、そのリッチな位相特性を近い将来の実験で検証できることを示す。

We investigate the topological properties of a two-chain quantum ladder with uneven legs, i.e. the two chains differ in their periods by a factor of two. Such an uneven ladder presents rich band structures classified by the closure of either direct or indirect bandgaps. It also provides opportunities to explore fundamental concepts concerning band topology and edge modes, including the difference of intracellular and intercellular Zak phases, and the role of the inversion symmetry (IS). We calculate the Zak phases of the two kinds and find excellent agreement with the dipole moment and extra charge accumulation, respectively. We also find that configurations with IS feature a pair of degenerate two-side edge modes emerging as the closure of the direct bandgap, while configurations without IS feature one-side edge modes emerging as not only the closure of both direct and indirect bandgap but also within the band continuum. Furthermore, by projecting to the two sublattices, we find that the effective Bloch Hamiltonian corresponds to that of a generalized Su-Schrieffer-Heeger model or Rice-Mele model whose hopping amplitudes depend on the quasimomentum. In this way, the topological phases can be efficiently extracted through winding numbers. We propose that uneven ladders can be realized by spin-dependent optical lattices and their rich topological characteristics can be examined by near future experiments.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# 安全データには何があるのか?:安全を損なう良質なデータを識別する

What's in Your "Safe" Data?: Identifying Benign Data that Breaks Safety ( http://arxiv.org/abs/2404.01099v1 )

ライセンス: Link先を確認
Luxi He, Mengzhou Xia, Peter Henderson, (参考訳) 現在のLLM(Large Language Models)は、安全性とアライメントのために調整されたものでさえ、ジェイルブレイクの影響を受けやすい。 さらに、良質なデータ(すなわち有害な内容のないデータ)で整列モデルを微調整するだけで、驚くほど安全性が低下することを発見した者もいる。 精巧な微調整が誤ってジェイルブレイクに寄与する理由について、データ中心の側面を掘り下げる。 まず、2つのレンズ(表現空間と勾配空間)を通して微調整データを表現する。 さらに,有害な事例に近づき,良性な事例から遠ざかるデータ点を優先する双方向アンカー手法を提案する。 これにより、微調整後にモデルの安全性を低下させる可能性が高くなる良質なデータのサブセットを効果的に同定する。 わずか100個の不明瞭なデータポイントのトレーニングは、テストされた有害な要求の70%に対して肯定的に反応する微調整モデルにつながる可能性がある。 さらに、選択されたデータは、しばしばリストや弾丸点、数学の質問の形で表示される。

Current Large Language Models (LLMs), even those tuned for safety and alignment, are susceptible to jailbreaking. Some have found that just further fine-tuning an aligned model with benign data (i.e., data without harmful content) surprisingly leads to substantial degradation in safety. We delve into the data-centric aspects of why benign fine-tuning inadvertently contributes to jailbreaking. First, we represent fine-tuning data through two lenses: representation and gradient spaces. Furthermore, we propose a bi-directional anchoring method that prioritizes data points that are close to harmful examples and distant from benign ones. By doing so, our approach effectively identifies subsets of benign data that are more likely to degrade the model's safety after fine-tuning. Training on just 100 of these seemingly benign datapoints can lead to the fine-tuned model affirmatively responding to > 70% of tested harmful requests, compared to < 20% after fine-tuning on randomly selected data. We further find that selected data are often in the form of lists and bullet points, or math questions.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# 有限サンプル周波数領域同定

Finite Sample Frequency Domain Identification ( http://arxiv.org/abs/2404.01100v1 )

ライセンス: Link先を確認
Anastasios Tsiamis, Mohamed Abdalmoaty, Roy S. Smith, John Lygeros, (参考訳) 有限サンプルの観点から非パラメトリック周波数領域同定について検討する。 本研究では、励起入力が周期的である開ループシナリオを仮定し、所定の所望の(偶発的な)周波数での周波数応答を入力出力サンプルとして推定することを目的とする経験的伝達関数推定(ETFE)を考察する。 本研究では,ガウス色以下の雑音(時間領域)と安定性仮定の下では,ETFE推定値が真の値を中心に集中していることを示す。 エラーレートは$\mathcal{O}((d_{\mathrm{u}}+\sqrt{d_{\mathrm{u}}d_{\mathrm{y}}})\sqrt{M/N_{\mathrm{tot}}})$の順である。 この速度は一般的な不合理移動関数に対して有効であり、有限次状態空間表現を必要としない。 M$をチューニングすることで、$ \mathcal{H}_{\infty}$ノルムのすべての周波数上の周波数応答を学習するための$N_{\mathrm{tot}}^{-1/3}$有限サンプルレートを得る。 この結果は半無限行列へのハンソン・ライトの不等式の拡張に導かれる。 ETFEの有限サンプル挙動をシミュレーションで調べる。

We study non-parametric frequency-domain system identification from a finite-sample perspective. We assume an open loop scenario where the excitation input is periodic and consider the Empirical Transfer Function Estimate (ETFE), where the goal is to estimate the frequency response at certain desired (evenly-spaced) frequencies, given input-output samples. We show that under sub-Gaussian colored noise (in time-domain) and stability assumptions, the ETFE estimates are concentrated around the true values. The error rate is of the order of $\mathcal{O}((d_{\mathrm{u}}+\sqrt{d_{\mathrm{u}}d_{\mathrm{y}}})\sqrt{M/N_{\mathrm{tot}}})$, where $N_{\mathrm{tot}}$ is the total number of samples, $M$ is the number of desired frequencies, and $d_{\mathrm{u}},\,d_{\mathrm{y}}$ are the dimensions of the input and output signals respectively. This rate remains valid for general irrational transfer functions and does not require a finite order state-space representation. By tuning $M$, we obtain a $N_{\mathrm{tot}}^{-1/3}$ finite-sample rate for learning the frequency response over all frequencies in the $ \mathcal{H}_{\infty}$ norm. Our result draws upon an extension of the Hanson-Wright inequality to semi-infinite matrices. We study the finite-sample behavior of ETFE in simulations.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# UFID:拡散モデルを用いた入力レベルのバックドア検出のための統一フレームワーク

UFID: A Unified Framework for Input-level Backdoor Detection on Diffusion Models ( http://arxiv.org/abs/2404.01101v1 )

ライセンス: Link先を確認
Zihan Guan, Mengxuan Hu, Sheng Li, Anil Vullikanti, (参考訳) 拡散モデルはバックドア攻撃に対して脆弱であり、悪意のある攻撃者はトレーニング段階でトレーニングサンプルの一部に毒を加えてバックドアを注入する。 これは、APIを通じて拡散モデルに問い合わせたり、インターネットから直接ダウンロードしたりする、ダウンストリームユーザにとって深刻な脅威となる。 バックドア攻撃の脅威を軽減するため、バックドア検出に関する多くの調査が行われた。 しかし、いずれも拡散モデルのための特殊なバックドア検出法を設計しておらず、その領域は未探索のままであった。 さらに、これらの手法は、主に分類タスクにおける従来のニューラルネットワークに焦点を当てており、生成タスクのバックドア検出に容易に適応できない。 さらに、従来の手法のほとんどは、モデルウェイトとアーキテクチャへのホワイトボックスアクセス、あるいは確率ロジットを付加情報として必要としており、これは必ずしも実用的ではない。 本稿では,拡散モデルの観測によって動機づけられ,理論的因果性解析によってさらに検証される拡散モデルに基づく入力レベルのバックドア検出のための統一フレームワークを提案する。 条件付き拡散モデルと非条件付き拡散モデルの両方のデータセットにまたがる広範囲な実験により,本手法は検出効率と実行時効率において優れた性能を発揮することが示された。 コードはhttps://github.com/GuanZihan/official_UFIDで入手できる。

Diffusion Models are vulnerable to backdoor attacks, where malicious attackers inject backdoors by poisoning some parts of the training samples during the training stage. This poses a serious threat to the downstream users, who query the diffusion models through the API or directly download them from the internet. To mitigate the threat of backdoor attacks, there have been a plethora of investigations on backdoor detections. However, none of them designed a specialized backdoor detection method for diffusion models, rendering the area much under-explored. Moreover, these prior methods mainly focus on the traditional neural networks in the classification task, which cannot be adapted to the backdoor detections on the generative task easily. Additionally, most of the prior methods require white-box access to model weights and architectures, or the probability logits as additional information, which are not always practical. In this paper, we propose a Unified Framework for Input-level backdoor Detection (UFID) on the diffusion models, which is motivated by observations in the diffusion models and further validated with a theoretical causality analysis. Extensive experiments across different datasets on both conditional and unconditional diffusion models show that our method achieves a superb performance on detection effectiveness and run-time efficiency. The code is available at https://github.com/GuanZihan/official_UFID.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# 拡散に基づくクロスモーダルセグメンテーションのためのゼロショット医用画像から画像への変換

Diffusion based Zero-shot Medical Image-to-Image Translation for Cross Modality Segmentation ( http://arxiv.org/abs/2404.01102v1 )

ライセンス: Link先を確認
Zihao Wang, Yingyu Yang, Yuzhou Chen, Tingting Yuan, Maxime Sermesant, Herve Delingette, (参考訳) クロスモダリティ画像セグメンテーションは、ソースモダリティで設計された手法を用いて、ターゲットモダリティをセグメンテーションすることを目的としている。 深層生成モデルは、対象のモダリティ画像をソースモダリティに変換することで、モダリティのセグメンテーションを可能にする。 しかし、既存の多くのモダリティ画像翻訳手法は教師あり学習に依存している。 本研究では,ゼロショット学習に基づく画像翻訳タスクの課題に対処することを目的とする。 ゼロショット・クロスモダリティ画像セグメンテーションにおける生成学習を活用するために,新しい教師なし画像変換法を提案する。 このフレームワークは、拡散誘導のために、異なるモダリティ間の固有の統計的一貫性を活用することにより、画像セグメンテーションのターゲットモダリティに未知のソースイメージを変換することを学ぶ。 本フレームワークでは,ソースとターゲットドメイン間の直接マッピングに頼ることなく,拡散誘導を行う。 この利点は、リトレーニングを必要とせずに、ソースドメインの変更に適応できるので、十分なラベル付きソースドメインデータが利用できない場合には、非常に実用的になります。 提案手法は, 対角線モデル, 拡散線モデルなど, 有効な生成モデルとの比較により, ゼロショット・クロスモーダル画像分割タスクにおいて検証される。

Cross-modality image segmentation aims to segment the target modalities using a method designed in the source modality. Deep generative models can translate the target modality images into the source modality, thus enabling cross-modality segmentation. However, a vast body of existing cross-modality image translation methods relies on supervised learning. In this work, we aim to address the challenge of zero-shot learning-based image translation tasks (extreme scenarios in the target modality is unseen in the training phase). To leverage generative learning for zero-shot cross-modality image segmentation, we propose a novel unsupervised image translation method. The framework learns to translate the unseen source image to the target modality for image segmentation by leveraging the inherent statistical consistency between different modalities for diffusion guidance. Our framework captures identical cross-modality features in the statistical domain, offering diffusion guidance without relying on direct mappings between the source and target domains. This advantage allows our method to adapt to changing source domains without the need for retraining, making it highly practical when sufficient labeled source domain data is not available. The proposed framework is validated in zero-shot cross-modality image segmentation tasks through empirical comparisons with influential generative models, including adversarial-based and diffusion-based models.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# SentiCSE: 感性誘導型テキスト類似性を備えた感性認識型コントラスト文埋め込みフレームワーク

SentiCSE: A Sentiment-aware Contrastive Sentence Embedding Framework with Sentiment-guided Textual Similarity ( http://arxiv.org/abs/2404.01104v1 )

ライセンス: Link先を確認
Jaemin Kim, Yohan Na, Kangmin Kim, Sang Rak Lee, Dong-Kyu Chae, (参考訳) 近年,感情認識型事前学習言語モデル (PLM) は,下流の感情分析タスクにおいて顕著な結果を示した。 しかし、彼らは構築された感情表現の質を評価することを無視しており、表現の質を覆い隠す微調整性能の改善にのみ焦点をあてている。 表現品質を保証しなければ、下流の性能は表現品質よりも微調整データの監督に大きく依存する可能性があると論じる。 この問題は、特にラベル付きデータが不足している他の感情関連ドメインへの進出を難しくする。 まず,感情表現の質を評価するための新しい指標である感性誘導テキスト類似度(SgTS)を提案する。 次に,SgTSによって品質が保証される単語レベルと文レベルを組み合わせて感情表現を構築するための,感性を考慮したコントラスト文埋め込みフレームワークであるSentiCSEを提案する。 従来の感情認識型 PLM と比較した質的,定量的な比較は,我々の研究の優位性を示している。 私たちのコードは、https://github.com/nayohan/SentiCSEで利用可能です。

Recently, sentiment-aware pre-trained language models (PLMs) demonstrate impressive results in downstream sentiment analysis tasks. However, they neglect to evaluate the quality of their constructed sentiment representations; they just focus on improving the fine-tuning performance, which overshadows the representation quality. We argue that without guaranteeing the representation quality, their downstream performance can be highly dependent on the supervision of the fine-tuning data rather than representation quality. This problem would make them difficult to foray into other sentiment-related domains, especially where labeled data is scarce. We first propose Sentiment-guided Textual Similarity (SgTS), a novel metric for evaluating the quality of sentiment representations, which is designed based on the degree of equivalence in sentiment polarity between two sentences. We then propose SentiCSE, a novel Sentiment-aware Contrastive Sentence Embedding framework for constructing sentiment representations via combined word-level and sentence-level objectives, whose quality is guaranteed by SgTS. Qualitative and quantitative comparison with the previous sentiment-aware PLMs shows the superiority of our work. Our code is available at: https://github.com/nayohan/SentiCSE
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# MagLive: ニアフィールド磁気センシングによるスマートフォンの音声ライブ検出

MagLive: Near-Field Magnetic Sensing-Based Voice Liveness Detection on Smartphones ( http://arxiv.org/abs/2404.01106v1 )

ライセンス: Link先を確認
Xiping Sun, Jing Chen, Cong Wu, Kun He, Haozhe Xu, Yebo Feng, Ruiying Du, Xianhao Chen, (参考訳) 音声認証はスマートフォンで広く使われている。 しかし、攻撃者は音声認証システムをバイパスするためにスピーカーを用いて、本物の人間の音声サンプルを再生する。 本稿では,スマートフォンによるスプーフィング攻撃の軽減を目的とした,堅牢な音声ライブ検出方式であるMagLiveを提案する。 MagLiveは、話者(人間やスピーカーなど)によって生じる磁場パターンの違いを利用して、生きた検出を行う。 スマートフォンに内蔵されている磁力計を使って、磁場の変化を捉えている。 特に、MagLiveは2つのCNNベースのサブモデルと自己注意に基づく機能融合モデルを使用して、効果的でロバストな特徴を抽出する。 教師付きコントラスト学習は、ユーザ非関連、デバイス非関連、コンテンツ非関連を達成するために使用される。 MagLiveはユーザーに追加の負担を課さず、アクティブなセンシングや追加のデバイスに依存しない。 MagLiveの安全性とロバスト性を評価するため,各種設定による総合的な実験を行った。 この結果は、MagLiveが人間と攻撃者(すなわちスピーカー)を効果的に区別し、99.01%のバランスの取れた精度と0.77%のエラー率を実現していることを示している。

Voice authentication has been widely used on smartphones. However, it remains vulnerable to spoofing attacks, where the attacker replays recorded voice samples from authentic humans using loudspeakers to bypass the voice authentication system. In this paper, we present MagLive, a robust voice liveness detection scheme designed for smartphones to mitigate such spoofing attacks. MagLive leverages differences in magnetic field patterns generated by different speakers (i.e., humans or loudspeakers) when speaking for liveness detection. It uses the built-in magnetometer on smartphones to capture these magnetic field changes. Specifically, MagLive utilizes two CNN-based submodels and a self-attention-based feature fusion model to extract effective and robust features. Supervised contrastive learning is then employed to achieve user-irrelevance, device-irrelevance, and content-irrelevance. MagLive imposes no additional burdens on users and does not rely on active sensing or extra devices. We conducted comprehensive experiments with various settings to evaluate the security and robustness of MagLive. Our results demonstrate that MagLive effectively distinguishes between humans and attackers (i.e., loudspeakers), achieving a balanced accuracy of 99.01% and an equal error rate of 0.77%.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# Software Defined Networksにおけるインクリメンタルなハイブリッド適応型ネットワークベースIDSによるステルス攻撃の検出

An incremental hybrid adaptive network-based IDS in Software Defined Networks to detect stealth attacks ( http://arxiv.org/abs/2404.01109v1 )

ライセンス: Link先を確認
Abdullah H Alqahtani, (参考訳) ネットワーク攻撃は、テクノロジーの進歩と攻撃者の高度化により、ますます洗練され、ステルス性が高まっている。 先進的永続脅威(Advanced Persistent Threats、APT)は、検知を回避し、防衛レーダーの下にいる幅広い戦略を実行する攻撃である。 Software Defined Network (SDN) は、制御プレーンをネットワークプレーンから分離することで動的構成を実装するネットワークパラダイムである。 このアプローチは,ネットワーク侵入検知システムの利用を容易にすることにより,セキュリティ面を改善する。 侵入検知システム(IDS)における機械学習(ML)技術の実装は、そのような攻撃を検出するために広く用いられているが、データ分散が変化すると課題がある。 概念ドリフト(concept drift)とは、入力データとターゲット値(ラベルまたはクラス)の関係の変化を記述する用語である。 ある種の変化が起こると、モデルは劣化すると予想される。 本稿では,ユーザ行動(特に攻撃行動の変化)における変更の第一形態について述べる。 モデルはデータの分散における偏差に適応することが不可欠である。 SDNはデータ分散の変化を監視するのに役立つ。 本稿では,ステルス攻撃行動の変化について論じる。 ここでは,様々な概念ドリフト検出アルゴリズムについて述べる。 SDNにおける概念ドリフト問題に対処するために、インクリメンタルなハイブリッド適応型ネットワーク侵入検知システム(NIDS)を提案する。 既知の攻撃や未知の攻撃を検知できる。 モデルは、有望な結果を示すさまざまなデータセットで評価される。

Network attacks have became increasingly more sophisticated and stealthy due to the advances in technologies and the growing sophistication of attackers. Advanced Persistent Threats (APTs) are a type of attack that implement a wide range of strategies to evade detection and be under the defence radar. Software Defined Network (SDN) is a network paradigm that implements dynamic configuration by separating the control plane from the network plane. This approach improves security aspects by facilitating the employment of network intrusion detection systems. Implementing Machine Learning (ML) techniques in Intrusion Detection Systems (IDSs) is widely used to detect such attacks but has a challenge when the data distribution changes. Concept drift is a term that describes the change in the relationship between the input data and the target value (label or class). The model is expected to degrade as certain forms of change occur. In this paper, the primary form of change will be in user behaviour (particularly changes in attacker behaviour). It is essential for a model to adapt itself to deviations in data distribution. SDN can help in monitoring changes in data distribution. This paper discusses changes in stealth attacker behaviour. The work described here investigates various concept drift detection algorithms. An incremental hybrid adaptive Network Intrusion Detection System (NIDS) is proposed to tackle the issue of concept drift in SDN. It can detect known and unknown attacks. The model is evaluated over different datasets showing promising results.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# レート・歪み・知覚トレードオフ--私的ランダム性の役割

The Rate-Distortion-Perception Trade-off: The Role of Private Randomness ( http://arxiv.org/abs/2404.01111v1 )

ライセンス: Link先を確認
Yassine Hamdi, Aaron B. Wagner, Deniz Gündüz, (参考訳) 画像圧縮において、生成モデリングの最近の進歩とともに、その速度と知覚的品質(リアリズム)のトレードオフの存在が明るみに出され、そこでは、音源への出力分布の密接さによって現実性を測定する。 乱数化符号は、多くの定式化の下で厳密に優れていることが示されている。 特に、共通ランダム性の役割はよく研究されている。 メモリレスソース$X^n=(X_1,...,X_n)$の圧縮におけるプライベートランダム性の役割を、2種類のリアリズム制約の下で解明する。 ほぼ完全なリアリズム制約は、出力シンボルの合同分布$(Y_1,...,Y_n)$を、全変動距離(TVD)でソースの分布を任意に閉ざす必要がある。 シンボルごとのニアパーフェクトリアリズム制約は、出力シンボル$Y_t$の分布とソース分布の間のTVDを、インデックス$tで任意に小さくすることを要求する。 圧縮速度がソースのエントロピーよりも低い場合、エンコーダのプライベートランダム性は役に立たないが、共通ランダム性やデコーダのプライベートランダム性の観点からはリソースに制限がある。

In image compression, with recent advances in generative modeling, the existence of a trade-off between the rate and the perceptual quality (realism) has been brought to light, where the realism is measured by the closeness of the output distribution to the source. It has been shown that randomized codes can be strictly better under a number of formulations. In particular, the role of common randomness has been well studied. We elucidate the role of private randomness in the compression of a memoryless source $X^n=(X_1,...,X_n)$ under two kinds of realism constraints. The near-perfect realism constraint requires the joint distribution of output symbols $(Y_1,...,Y_n)$ to be arbitrarily close the distribution of the source in total variation distance (TVD). The per-symbol near-perfect realism constraint requires that the TVD between the distribution of output symbol $Y_t$ and the source distribution be arbitrarily small, uniformly in the index $t.$ We characterize the corresponding asymptotic rate-distortion trade-off and show that encoder private randomness is not useful if the compression rate is lower than the entropy of the source, however limited the resources in terms of common randomness and decoder private randomness may be.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# クロスシャッター誘導による運動ブラスト分解

Motion Blur Decomposition with Cross-shutter Guidance ( http://arxiv.org/abs/2404.01120v1 )

ライセンス: Link先を確認
Xiang Ji, Haiyang Jiang, Yinqiang Zheng, (参考訳) 動きのぼかしは、しばしば観察されるイメージアーティファクトであり、特に、十分に明るい画像のためにより多くの光子を集めるために露光時間を延ばさなければならない照明が不十分な場合である。 このようなぼやけた効果を取り除くのではなく、最近の研究では、ぼやけた画像を空間的・時間的コヒーレンスのある複数のシャープな画像に分解することを目的としている。 動きのぼかし分解自体は非常に曖昧であるため、周囲のフレームや人間のアノテーションからの先行は、通常、動きの曖昧さのために必要である。 本稿では,グローバルシャッター(GS)カメラとローリングシャッター(RS)カメラの相補的露光特性に着想を得て,ローリングシャッター画像における順序付き走査線遅延を利用して,単一のぼやけた画像の運動分解を強固にする手法を提案する。 この新たなデュアル画像環境を評価するため,実データ収集のための3軸システムと,クロスシャッター動作のぼかし分解のための相互分岐による時間的・文脈的情報を明示的に処理するディープネットワークアーキテクチャを構築した。 実験により,提案アルゴリズムの有効性と2つの画像設定の有効性が検証された。

Motion blur is a frequently observed image artifact, especially under insufficient illumination where exposure time has to be prolonged so as to collect more photons for a bright enough image. Rather than simply removing such blurring effects, recent researches have aimed at decomposing a blurry image into multiple sharp images with spatial and temporal coherence. Since motion blur decomposition itself is highly ambiguous, priors from neighbouring frames or human annotation are usually needed for motion disambiguation. In this paper, inspired by the complementary exposure characteristics of a global shutter (GS) camera and a rolling shutter (RS) camera, we propose to utilize the ordered scanline-wise delay in a rolling shutter image to robustify motion decomposition of a single blurry image. To evaluate this novel dual imaging setting, we construct a triaxial system to collect realistic data, as well as a deep network architecture that explicitly addresses temporal and contextual information through reciprocal branches for cross-shutter motion blur decomposition. Experiment results have verified the effectiveness of our proposed algorithm, as well as the validity of our dual imaging setting.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# CMT:パンシャーペン用ハイブリッド損失を有するクロス変調変圧器

CMT: Cross Modulation Transformer with Hybrid Loss for Pansharpening ( http://arxiv.org/abs/2404.01121v1 )

ライセンス: Link先を確認
Wen-Jie Shu, Hong-Xia Dou, Rui Wen, Xiao Wu, Liang-Jian Deng, (参考訳) Pansharpeningは、高分解能パンクロマティック(PAN)とマルチスペクトル(MS)画像を組み合わせることで、リモートセンシング画像(RSI)の品質を高めることを目的としている。 しかし、従来の手法では、個々の強度を効果的に調整できる体系的な枠組みが欠如していることから、空間情報やスペクトル情報の拡張のためにPANとMSの画像を最適に融合させることに苦労した。 そこで本研究では,注意機構を改良する先駆的手法であるCross Modulation Transformer(CMT)を提案する。 このアプローチは信号処理からロバストな変調技術を利用し、アテンション機構の計算に組み込む。 モジュレータの特徴に応じてキャリアの値(V)行列の重みを動的に調整し、歴史的課題を解決し、空間特性とスペクトル特性のシームレスな統合を実現する。 さらに, RSIが局所的なテクスチャとともに大規模特徴やエッジの詳細を示すことを踏まえ, フーリエ変換とウェーブレット変換を組み合わせたハイブリッド損失関数を構築し, これらの特性を効果的に捉え, パンシャーピングにおける空間的およびスペクトル的精度の両立を図った。 大規模な実験により、我々のフレームワークは既存の最先端手法よりも優れた性能を示している。 コードは公開され、さらなる研究が奨励される。

Pansharpening aims to enhance remote sensing image (RSI) quality by merging high-resolution panchromatic (PAN) with multispectral (MS) images. However, prior techniques struggled to optimally fuse PAN and MS images for enhanced spatial and spectral information, due to a lack of a systematic framework capable of effectively coordinating their individual strengths. In response, we present the Cross Modulation Transformer (CMT), a pioneering method that modifies the attention mechanism. This approach utilizes a robust modulation technique from signal processing, integrating it into the attention mechanism's calculations. It dynamically tunes the weights of the carrier's value (V) matrix according to the modulator's features, thus resolving historical challenges and achieving a seamless integration of spatial and spectral attributes. Furthermore, considering that RSI exhibits large-scale features and edge details along with local textures, we crafted a hybrid loss function that combines Fourier and wavelet transforms to effectively capture these characteristics, thereby enhancing both spatial and spectral accuracy in pansharpening. Extensive experiments demonstrate our framework's superior performance over existing state-of-the-art methods. The code will be publicly available to encourage further research.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# ムンバイにおける降雨予報の精度向上-物理インフォームドコンvLSTM2Dモデルを用いて-

Enhanced Precision in Rainfall Forecasting for Mumbai: Utilizing Physics Informed ConvLSTM2D Models for Finer Spatial and Temporal Resolution ( http://arxiv.org/abs/2404.01122v1 )

ライセンス: Link先を確認
Ajay Devda, Akshay Sunil, Murthy R, B Deepthi, (参考訳) 熱帯地域での降雨予測は、複雑な大気の挙動、湿度の上昇、対流降雨の一般的な存在のために困難である。 インドの文脈では、モンスーン内部の季節変動により、短時間で降雨パターンに有意な変動をもたらすため、この難しさはさらに悪化する。 降雨予測に関する以前の調査では、統計学と深層学習のアプローチとともに、数値的な天気予報手法が活用されていた。 本研究では,降雨予測精度の向上を目的とした深層学習空間モデルを提案する。 本研究では,物理理解の統合により,都市などのより精密な空間スケールの深層学習モデルの降水予測スキルが向上する,という仮説を立てる。 この仮説を検証するため,インド・ムンバイに先立つ降水量6hrと12hrを予測するために,ConvLSTM2Dモデルを導入した。 ERA5リアナリシスデータを用いて様々な測地レベルの予測変数を選択する。 ConvLSTM2Dモデルは、ムンバイの異なる空間格子位置を表す4つの異なる格子に対して、ターゲット変数の降水量に基づいて訓練された。 降雨予測にConvLSTM2Dモデルを用いることで、特定の格子から得られる物理情報を利用して空間情報を限定し、効率と局部的精度の両方を強調する気象学研究の現在の進歩を反映する。

Forecasting rainfall in tropical areas is challenging due to complex atmospheric behaviour, elevated humidity levels, and the common presence of convective rain events. In the Indian context, the difficulty is further exacerbated because of the monsoon intra seasonal oscillations, which introduce significant variability in rainfall patterns over short periods. Earlier investigations into rainfall prediction leveraged numerical weather prediction methods, along with statistical and deep learning approaches. This study introduces deep learning spatial model aimed at enhancing rainfall prediction accuracy on a finer scale. In this study, we hypothesize that integrating physical understanding improves the precipitation prediction skill of deep learning models with high precision for finer spatial scales, such as cities. To test this hypothesis, we introduce a physics informed ConvLSTM2D model to predict precipitation 6hr and 12hr ahead for Mumbai, India. We utilize ERA5 reanalysis data select predictor variables, across various geopotential levels. The ConvLSTM2D model was trained on the target variable precipitation for 4 different grids representing different spatial grid locations of Mumbai. Thus, the use of the ConvLSTM2D model for rainfall prediction, utilizing physics informed data from specific grids with limited spatial information, reflects current advancements in meteorological research that emphasize both efficiency and localized precision.
翻訳日:2024-04-03 22:25:32 公開日:2024-04-01
# CLIPtone: テキストベースのイメージトーン調整のための教師なし学習

CLIPtone: Unsupervised Learning for Text-based Image Tone Adjustment ( http://arxiv.org/abs/2404.01123v1 )

ライセンス: Link先を確認
Hyeongmin Lee, Kyoungkook Kang, Jungseul Ok, Sunghyun Cho, (参考訳) 最近のイメージトーン調整(または強化)アプローチは、主に人中心の知覚評価を学ぶために教師付き学習を採用してきた。 しかし、これらのアプローチは教師あり学習の本質的な課題によって制約されている。 主に、専門家が作成または修正した画像の要求は、データ取得コストを増大させる。 さらに、ターゲットスタイルのカバレッジは、トレーニングデータから推測されるスタイリスティックなバリエーションに限定される。 以上の課題を克服するため,テキストベースの画像トーン調整手法であるCLIPtoneについて,教師なし学習に基づくアプローチを提案する。 具体的には,テキスト記述に基づくバックボーンモデルの事前学習パラメータを適応的に調整するハイパーネットワークを設計する。 調整された画像が真実を示さずにテキスト記述と一致しているかを評価するために,CLIPを用いて言語と画像のペアの膨大な集合を訓練し,人間の知覚に関する知識を包含する。 私たちのアプローチの大きな利点は3つあります。 (i)データ収集費用の最小化 (二)調整の範囲のサポート、及び (三 訓練において目立たない新しい文章の記述を扱う能力。) 提案手法の有効性は,ユーザスタディを含む総合的な実験を通じて実証される。

Recent image tone adjustment (or enhancement) approaches have predominantly adopted supervised learning for learning human-centric perceptual assessment. However, these approaches are constrained by intrinsic challenges of supervised learning. Primarily, the requirement for expertly-curated or retouched images escalates the data acquisition expenses. Moreover, their coverage of target style is confined to stylistic variants inferred from the training data. To surmount the above challenges, we propose an unsupervised learning-based approach for text-based image tone adjustment method, CLIPtone, that extends an existing image enhancement method to accommodate natural language descriptions. Specifically, we design a hyper-network to adaptively modulate the pretrained parameters of the backbone model based on text description. To assess whether the adjusted image aligns with the text description without ground truth image, we utilize CLIP, which is trained on a vast set of language-image pairs and thus encompasses knowledge of human perception. The major advantages of our approach are three fold: (i) minimal data collection expenses, (ii) support for a range of adjustments, and (iii) the ability to handle novel text descriptions unseen in training. Our approach's efficacy is demonstrated through comprehensive experiments, including a user study.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# 医用ビジュアルプロンプティング(MVP) : Versatile and High-Quality Medical Image Segmentationのための統一フレームワーク

Medical Visual Prompting (MVP): A Unified Framework for Versatile and High-Quality Medical Image Segmentation ( http://arxiv.org/abs/2404.01127v1 )

ライセンス: Link先を確認
Yulin Chen, Guoheng Huang, Kai Huang, Zijin Lin, Guo Zhong, Shenghong Luo, Jie Deng, Jian Zhou, (参考訳) 病変領域の正確なセグメンテーションは、様々な疾患の臨床的診断と治療に不可欠である。 深層畳み込みネットワークは, 医用画像のセグメンテーションにおいて良好な結果を得たが, 連続的畳み込みやダウンサンプリングによる病変形状情報の喪失や, 形状や大きさの異なる病変を手作業でラベル付けするコストといった課題に直面している。 これらの課題に対処するため,我々は,自然言語処理(NLP)の概念を事前学習・促進する新しい医用ビジュアル・プロンプト(MVP)フレームワークを提案する。 このフレームワークは、3つの重要なコンポーネントを利用している: 入力画像のスーパーピクセル化のためのSuper-Pixel Guided Prompting(SPGP)、パッチの埋め込みとスーパーピクセルとのマージを凍結するImage Embedding Guided Prompting(IEGP)、そして、プロンプトをピンポイントし、すべてのレイヤを効率的に適応するためのAdaptive Attention Mechanism Guided Prompting(AAGP)である。 SPGP、IEGP、AAGPを統合することにより、MVPはセグメンテーションネットワークにおいて、情報伝達の形状をよりよく学習し、異なるタスク間での相互学習を容易にする。 5つのデータセットで実施した大規模な実験は、単一タスクの医用セグメンテーションモデルを簡素化しながら、様々な困難な医療画像タスクにおいて、この手法の優れた性能を示す。 この新しいフレームワークは、より少ないパラメータでパフォーマンスを改善し、様々な医療課題における病変領域の正確なセグメンテーションに有意義な可能性を秘めており、臨床的に価値のあるものとなっている。

Accurate segmentation of lesion regions is crucial for clinical diagnosis and treatment across various diseases. While deep convolutional networks have achieved satisfactory results in medical image segmentation, they face challenges such as loss of lesion shape information due to continuous convolution and downsampling, as well as the high cost of manually labeling lesions with varying shapes and sizes. To address these issues, we propose a novel medical visual prompting (MVP) framework that leverages pre-training and prompting concepts from natural language processing (NLP). The framework utilizes three key components: Super-Pixel Guided Prompting (SPGP) for superpixelating the input image, Image Embedding Guided Prompting (IEGP) for freezing patch embedding and merging with superpixels to provide visual prompts, and Adaptive Attention Mechanism Guided Prompting (AAGP) for pinpointing prompt content and efficiently adapting all layers. By integrating SPGP, IEGP, and AAGP, the MVP enables the segmentation network to better learn shape prompting information and facilitates mutual learning across different tasks. Extensive experiments conducted on five datasets demonstrate superior performance of this method in various challenging medical image tasks, while simplifying single-task medical segmentation models. This novel framework offers improved performance with fewer parameters and holds significant potential for accurate segmentation of lesion regions in various medical tasks, making it clinically valuable.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# 構造化情報事項:LLMに抽象的意味表現を取り入れたオープンドメイン対話評価の改善

Structured Information Matters: Incorporating Abstract Meaning Representation into LLMs for Improved Open-Domain Dialogue Evaluation ( http://arxiv.org/abs/2404.01129v1 )

ライセンス: Link先を確認
Bohao Yang, Kun Zhao, Chen Tang, Liang Zhan, Chenghua Lin, (参考訳) 自動オープンドメイン対話評価が注目されている。 トレーニング可能な評価指標は、正の反応とランダムに選択された負の反応で訓練され、その結果、与えられた文脈と高い内容の類似性を共有する応答により高いスコアを割り当てる傾向が生じる。 しかし、敵対的負の応答は、意味論的に異なる一方で、文脈と高い内容の類似性を持っている。 したがって、既存の評価指標は、そのような応答を評価するのに十分な堅牢性を持っておらず、その結果、人間の判断との相関が低くなる。 近年の研究では,Large Language Models (LLMs) のオープンドメイン対話評価に有効であることが示されているが,敵の否定例を効果的に扱う上での課題がまだ残っている。 本稿では,ドメイン固有言語モデル(SLM)とLLMを組み合わせた,オープンドメイン対話評価のための簡易かつ効果的なフレームワークを提案する。 SLMは、意味表現学習を強化するためのゲーティング機構を通じて、対話の抽象的意味表現(AMR)グラフ情報を明示的に組み込むことができる。 SLM と AMR グラフ情報の評価結果を LLM のプロンプトにプラグインし,テキスト内学習性能を向上させる。 オープンドメイン対話評価タスクにおける実験結果から,提案手法が最先端のベースラインよりも優れていること,特に敵対的負の応答を識別する上での優位性が確認された。 私たちのコードはhttps://github.com/Bernard-Yang/SIMAMRで利用可能です。

Automatic open-domain dialogue evaluation has attracted increasing attention. Trainable evaluation metrics are commonly trained with true positive and randomly selected negative responses, resulting in a tendency for them to assign a higher score to the responses that share higher content similarity with a given context. However, adversarial negative responses possess high content similarity with the contexts whilst being semantically different. Therefore, existing evaluation metrics are not robust enough to evaluate such responses, resulting in low correlations with human judgments. While recent studies have shown some efficacy in utilizing Large Language Models (LLMs) for open-domain dialogue evaluation, they still encounter challenges in effectively handling adversarial negative examples. In this paper, we propose a simple yet effective framework for open-domain dialogue evaluation, which combines domain-specific language models (SLMs) with LLMs. The SLMs can explicitly incorporate Abstract Meaning Representation (AMR) graph information of the dialogue through a gating mechanism for enhanced semantic representation learning. The evaluation result of SLMs and AMR graph information are plugged into the prompt of LLM, for the enhanced in-context learning performance. Experimental results on open-domain dialogue evaluation tasks demonstrate the superiority of our method compared to a wide range of state-of-the-art baselines, especially in discriminating adversarial negative responses. Our code is available at https://github.com/Bernard-Yang/SIMAMR.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# GOV-REK:ロバストなマルチエージェント強化学習システム設計のためのGoverned Reward Engineering Kernels

GOV-REK: Governed Reward Engineering Kernels for Designing Robust Multi-Agent Reinforcement Learning Systems ( http://arxiv.org/abs/2404.01131v1 )

ライセンス: Link先を確認
Ashish Rana, Michael Oesterle, Jannik Brinkmann, (参考訳) マルチエージェント強化学習システム(MARLS)の場合、問題定式化は一般に、与えられた問題に特有の大規模な報酬工学的努力を投資する。 しかし、この取り組みは、しばしば他の問題に変換できない。さらに悪いことに、システムのダイナミクスが劇的に変化すると、無駄になる。 この問題は、意味のあるヒューリスティックが政策収束タスクを補助できるスパース報酬シナリオにおいてさらに悪化している。 GOVerned Reward Engineering Kernels (GOV-REK) を提案する。 我々はまた、意味のあるエージェント報酬分布を割り当てるために、状態または共同アクション空間の基盤構造を利用するガバナンスカーネルも導入する。 エージェント学習段階では、ハイパーバンドのようなアルゴリズムを用いて様々な報酬分布構成を反復的に探索し、理想的なエージェント報酬モデルを問題に依存しない方法で学習する。 我々の実験は、有意義な報奨が、異なるMARL問題を効果的に学習する学習プロセスを開始することを実証している。

For multi-agent reinforcement learning systems (MARLS), the problem formulation generally involves investing massive reward engineering effort specific to a given problem. However, this effort often cannot be translated to other problems; worse, it gets wasted when system dynamics change drastically. This problem is further exacerbated in sparse reward scenarios, where a meaningful heuristic can assist in the policy convergence task. We propose GOVerned Reward Engineering Kernels (GOV-REK), which dynamically assign reward distributions to agents in MARLS during its learning stage. We also introduce governance kernels, which exploit the underlying structure in either state or joint action space for assigning meaningful agent reward distributions. During the agent learning stage, it iteratively explores different reward distribution configurations with a Hyperband-like algorithm to learn ideal agent reward models in a problem-agnostic manner. Our experiments demonstrate that our meaningful reward priors robustly jumpstart the learning process for effectively learning different MARL problems.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# CityGaussian: ガウシアンによるリアルタイム高品質な大規模レンダリング

CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians ( http://arxiv.org/abs/2404.01133v1 )

ライセンス: Link先を確認
Yang Liu, He Guan, Chuanchen Luo, Lue Fan, Junran Peng, Zhaoxiang Zhang, (参考訳) リアルタイム3次元シーン再構築と新しいビュー合成の進歩は、3Dガウススプラッティング(3DGS)によって著しく促進されている。 しかし、大規模な3DGSを効果的に訓練し、様々なスケールでリアルタイムにレンダリングすることは依然として困難である。 本稿では,CityGaussian(CityGS)について紹介する。CityGaussian(CityGS)は,大規模な3DGSトレーニングとレンダリングを効率的に行うために,新たな分別/分別トレーニングアプローチとレベル・オブ・ディーテール(LoD)戦略を採用している。 具体的には、グローバルシーンの事前かつ適応的なトレーニングデータ選択により、効率的なトレーニングとシームレスな融合が可能になる。 融合ガウスプリミティブに基づいて圧縮により異なる詳細レベルを生成し、提案したブロックワイド詳細レベル選択と集約戦略により、様々なスケールにわたる高速レンダリングを実現する。 大規模シーンにおける大規模な実験結果から,我々の手法が最先端のレンダリング品質を実現し,大規模シーンを一貫したリアルタイムレンダリングを可能にすることを示した。 私たちのプロジェクトページはhttps://dekuliutesla.github.io/citygs/で公開されています。

The advancement of real-time 3D scene reconstruction and novel view synthesis has been significantly propelled by 3D Gaussian Splatting (3DGS). However, effectively training large-scale 3DGS and rendering it in real-time across various scales remains challenging. This paper introduces CityGaussian (CityGS), which employs a novel divide-and-conquer training approach and Level-of-Detail (LoD) strategy for efficient large-scale 3DGS training and rendering. Specifically, the global scene prior and adaptive training data selection enables efficient training and seamless fusion. Based on fused Gaussian primitives, we generate different detail levels through compression, and realize fast rendering across various scales through the proposed block-wise detail levels selection and aggregation strategy. Extensive experimental results on large-scale scenes demonstrate that our approach attains state-of-theart rendering quality, enabling consistent real-time rendering of largescale scenes across vastly different scales. Our project page is available at https://dekuliutesla.github.io/citygs/.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# 認知機能強化によるSLMの共振性能向上

Enhancing Reasoning Capacity of SLM using Cognitive Enhancement ( http://arxiv.org/abs/2404.01135v1 )

ライセンス: Link先を確認
Jonathan Pan, Swee Liang Wong, Xin Wei Chia, Yidi Yuan, (参考訳) 大規模言語モデル(LLM)はサイバーセキュリティ活動の自動化や、サイバー調査やデジタル法医学を含むプロセスに応用されている。 しかし、サイバー調査やデジタル法医学におけるそのようなモデルの使用は、説明責任とセキュリティ上の考慮事項に対処すべきである。 説明責任は、モデルが説明可能な推論と結果を提供する手段を持つことを保証する。 この情報は、明示的なプロンプトリクエストを通じて抽出することができる。 セキュリティ上の考慮事項としては、データ処理中に関係するデータのプライバシと機密性にも対処することが重要です。 この考慮に対処する1つのアプローチは、モデルのローカルインスタンスを使用してデータをローカルに処理することです。 ローカルに利用可能なリソースの制限、すなわちメモリとGPU能力のため、SLM(Smaller Large Language Model)が一般的に使用される。 これらのSLMはLLMに比べてパラメータが大幅に少ない。 しかし、このようなサイズ削減は、特に推論説明を提供するよう指示された場合、顕著な性能低下をもたらす。 本稿では,人間が問題解決に使用する認知戦略の統合により,性能低下を軽減することを目的とする。 我々はこれをプロンプトによる認知的強化と呼ぶ。 以上の結果から,SLMの性能向上に有意な改善が認められた。 我々は,サイバーセキュリティアプリケーションにSLMを最適化するための認知機能強化の活用について,さらなる研究の道を開くと信じている。

Large Language Models (LLMs) have been applied to automate cyber security activities and processes including cyber investigation and digital forensics. However, the use of such models for cyber investigation and digital forensics should address accountability and security considerations. Accountability ensures models have the means to provide explainable reasonings and outcomes. This information can be extracted through explicit prompt requests. For security considerations, it is crucial to address privacy and confidentiality of the involved data during data processing as well. One approach to deal with this consideration is to have the data processed locally using a local instance of the model. Due to limitations of locally available resources, namely memory and GPU capacities, a Smaller Large Language Model (SLM) will typically be used. These SLMs have significantly fewer parameters compared to the LLMs. However, such size reductions have notable performance reduction, especially when tasked to provide reasoning explanations. In this paper, we aim to mitigate performance reduction through the integration of cognitive strategies that humans use for problem-solving. We term this as cognitive enhancement through prompts. Our experiments showed significant improvement gains of the SLMs' performances when such enhancements were applied. We believe that our exploration study paves the way for further investigation into the use of cognitive enhancement to optimize SLM for cyber security applications.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# 量子国家浄化の議定書と貿易

Protocols and Trade-Offs of Quantum State Purification ( http://arxiv.org/abs/2404.01138v1 )

ライセンス: Link先を確認
Hongshun Yao, Yu-Ao Chen, Erdong Huang, Kaichu Chen, Xin Wang, (参考訳) 量子状態の浄化は、未知のノイズ状態の複数のコピーから精製された状態を回復することを目的として、量子通信と量子計算において重要な役割を果たす。 本研究は,特定の確率で高い忠実度を達成し,関連するトレードオフを特徴付けるために設計された汎用的な状態浄化フレームワークを導入する。 特に、非偏極雑音下での量子状態に対して、ターゲット確率で最大忠実性を達成することができる明示的な浄化プロトコルを提案する。 さらに,ブロック符号化手法を用いて最適な浄化プロトコルを実装するための量子回路を提案し,ストリーム浄化のための再帰的プロトコルを提案する。 最後に、興味のある様々な量子ノイズモデルの下でノイズの多い量子状態の浄化における効率性と柔軟性の観点から、我々のプロトコルの利点を実証し、我々のアプローチの有効性と汎用性を示す。

Quantum state purification plays a pivotal role in quantum communication and quantum computation, aiming to recover the purified state from multiple copies of an unknown noisy state. This work introduces a general state purification framework designed to achieve the highest fidelity with a specified probability and characterize the associated trade-offs. In particular, for i.i.d. quantum states under depolarizing noise, we propose an explicit purification protocol capable of achieving maximal fidelity with a target probability. Furthermore, we present quantum circuits for implementing the optimal purification protocols via the block encoding technique and propose recursive protocols for stream purification. Finally, we demonstrate the advantages of our protocols in terms of efficiency and flexibility in purifying noisy quantum states under various quantum noise models of interest, showcasing the effectiveness and versatility of our approach.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# 視覚変換器の注意のための構造化初期化

Structured Initialization for Attention in Vision Transformers ( http://arxiv.org/abs/2404.01139v1 )

ライセンス: Link先を確認
Jianqiao Zheng, Xueqian Li, Simon Lucey, (参考訳) 小規模なデータセット上でのビジョントランスフォーマー(ViT)ネットワークのトレーニングは、大きな課題となる。 対照的に、畳み込みニューラルネットワーク(CNN)はアーキテクチャ上の帰納バイアスを持ち、そのような問題にうまく対応できる。 本稿では,CNN に固有のアーキテクチャバイアスを ViT の初期化バイアスとして再解釈することができることを論じる。 この洞察は、ViTsが大規模アプリケーションに対する柔軟性を維持しながら、小規模問題でも同じように機能するように権限を付与する上で重要である。 この 'structured' の初期化のインスピレーションは、ランダムインパルスフィルタがCNN内の学習フィルタに匹敵する性能を達成できるという経験的観察に端を発する。 提案手法は, CIFAR-10, CIFAR-100, SVHNを含む多数のベンチマークにおいて, データ効率の高いViT学習の最先端性能を実現する。

The training of vision transformer (ViT) networks on small-scale datasets poses a significant challenge. By contrast, convolutional neural networks (CNNs) have an architectural inductive bias enabling them to perform well on such problems. In this paper, we argue that the architectural bias inherent to CNNs can be reinterpreted as an initialization bias within ViT. This insight is significant as it empowers ViTs to perform equally well on small-scale problems while maintaining their flexibility for large-scale applications. Our inspiration for this ``structured'' initialization stems from our empirical observation that random impulse filters can achieve comparable performance to learned filters within CNNs. Our approach achieves state-of-the-art performance for data-efficient ViT learning across numerous benchmarks including CIFAR-10, CIFAR-100, and SVHN.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# KoCoNovel:韓国の小説における文字照合の注釈付きデータセット

KoCoNovel: Annotated Dataset of Character Coreference in Korean Novels ( http://arxiv.org/abs/2404.01140v1 )

ライセンス: Link先を確認
Kyuhee Kim, Surin Lee, Sangah Lee, (参考訳) 韓国の文文から派生した新しい文字コア分析データセットであるKoCoNovelについて,詳細なガイドラインとともに紹介する。 現代・現代朝鮮の小説50冊から178Kのトークンを収録したKoCoNovelは、NIKLコーパスに次いで韓国で2番目に大きな公的な中核解決コーパスであり、最初の文学的テキストをベースとしている。 実用性を広げるために、私たちはKoCoNovelの4つの異なるバージョンを提供しています。 このアプローチは、文学テキストにおけるコア参照解決を取り巻く既存の談話を統合し、探索のための包括的なデータセットを提供する。 KoCoNovelの特徴の1つは、すべての文字の言及の24%が単一の共通名詞であり、所有するマーカーや記事がないことである。 この特徴は特に朝鮮の住所文化のニュアンスの影響を受けており、人名に対する社会関係や親族関係を表す用語の使用が好まれている。 BERTベースのコア推論モデルを用いた実験では, NIKLコーパスと比較して, KoCoNovelによる顕著な性能向上が見られた。 このような発見は、韓国の文化的・言語力学の統合を通じて、コア参照解決モデルを大幅に強化するKoCoNovelの可能性を示している。

We present KoCoNovel, an novel character coreference dataset derived from Korean literary texts, complete with detailed annotation guidelines. Comprising 178K tokens from 50 modern and contemporary Korean novels, KoCoNovel stands as the second-largest public coreference resolution corpus in Korean, after the NIKL corpus, and the first to be based on literary texts. To broaden its utility, we provide four distinct versions of KoCoNovel, offering options for the perspectives of the omniscient author and readers, and for handling multiple entities as either separate or overlapping. This approach integrates existing discourse surrounding coreference resolution in literary texts, providing a comprehensive dataset for exploration. One of KoCoNovel's distinctive features is that 24% of all character mentions are single common nouns, lacking possessive markers or articles. This feature is particularly influenced by the nuances of Korean address term culture, which favors the use of terms denoting social relationships and kinship over personal names. In experiments with a BERT-based coreference model, we observed notable performance enhancements with KoCoNovel in comparison to the NIKL corpus. Such findings underscore KoCoNovel's potential to significantly enhance coreference resolution models through the integration of Korean cultural and linguistic dynamics.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# SoK:高次元データのための微分プライベート線形モデルのレビュー

SoK: A Review of Differentially Private Linear Models For High-Dimensional Data ( http://arxiv.org/abs/2404.01141v1 )

ライセンス: Link先を確認
Amol Khanna, Edward Raff, Nathan Inkawhich, (参考訳) 線形モデルは、データ科学においてユビキタスであるが、特に高次元における過度な適合とデータの記憶が困難である。 トレーニングデータのプライバシを保証するために、差分プライバシを使用することができる。 多くの論文で高次元微分プライベート線形モデルに対する最適化手法が提案されているが、これらの手法の体系的な比較は存在しない。 我々は、プライベートな高次元線形モデルに対する最適化手法の包括的なレビューを提供することで、このギャップを埋める。 全ての手法に関する実証実験では、堅牢で座標最適化アルゴリズムが最善を尽くし、将来の研究を知らせることができる。 すべてのメソッドを実装するためのコードは、オンラインでリリースされている。

Linear models are ubiquitous in data science, but are particularly prone to overfitting and data memorization in high dimensions. To guarantee the privacy of training data, differential privacy can be used. Many papers have proposed optimization techniques for high-dimensional differentially private linear models, but a systematic comparison between these methods does not exist. We close this gap by providing a comprehensive review of optimization methods for private high-dimensional linear models. Empirical tests on all methods demonstrate robust and coordinate-optimized algorithms perform best, which can inform future research. Code for implementing all methods is released online.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# 制御画像生成のための条件対応ニューラルネットワーク

Condition-Aware Neural Network for Controlled Image Generation ( http://arxiv.org/abs/2404.01143v1 )

ライセンス: Link先を確認
Han Cai, Muyang Li, Zhuoyang Zhang, Qinsheng Zhang, Ming-Yu Liu, Song Han, (参考訳) 本稿では,画像生成モデルに制御を追加する新しい手法であるCondition-Aware Neural Network (CAN)を提案する。 従来の条件制御法と並行して、CANはニューラルネットワークの重みを動的に操作することで、画像生成プロセスを制御する。 これは、入力条件に基づいて畳み込み/直線層の条件重みを生成する条件対応重み生成モジュールを導入することで実現される。 我々は,イメージネット上でのクラス条件画像生成とCOCO上でのテキスト・ツー・イメージ生成でCANをテストする。 CANは、DiTやUViTなど、拡散トランスフォーマーモデルの大幅な改善を実現している。 特に、EfficientViT (CaT)と組み合わせたCANはImageNet 512x512で2.78 FIDを獲得し、サンプリングステップあたり52倍のMACを必要とする。

We present Condition-Aware Neural Network (CAN), a new method for adding control to image generative models. In parallel to prior conditional control methods, CAN controls the image generation process by dynamically manipulating the weight of the neural network. This is achieved by introducing a condition-aware weight generation module that generates conditional weight for convolution/linear layers based on the input condition. We test CAN on class-conditional image generation on ImageNet and text-to-image generation on COCO. CAN consistently delivers significant improvements for diffusion transformer models, including DiT and UViT. In particular, CAN combined with EfficientViT (CaT) achieves 2.78 FID on ImageNet 512x512, surpassing DiT-XL/2 while requiring 52x fewer MACs per sampling step.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# 時間依存偏微分方程式の解法における非線形パラメトリゼーションの逐次時間トレーニング

Sequential-in-time training of nonlinear parametrizations for solving time-dependent partial differential equations ( http://arxiv.org/abs/2404.01145v1 )

ライセンス: Link先を確認
Huan Zhang, Yifan Chen, Eric Vanden-Eijnden, Benjamin Peherstorfer, (参考訳) 逐次インタイム法は、ニューラルネットワークのような非線形パラメトリゼーションを時間とともに偏微分方程式の解軌跡を近似するために、一連の訓練問題を解く。 この研究は、数値解析においてよく知られた概念であるOtD(Optimized-then-Discretize)あるいはDtO(disretize-then-Optimize)スキームとして、シーケンシャル・イン・タイムのトレーニング手法が広く理解可能であることを示している。 統一された視点は、新しい安定性と後続の誤差解析結果をもたらし、これは、過剰適合の形式である接空間崩壊現象のような OtD または DtO スキームに固有の理論的および数値的側面に関する洞察を与える。 さらに、統合された視点は、エネルギー汎関数上の自然勾配降下法を対応する勾配流に適用したOtDスキームとして同定することにより、シーケンシャル・イン・タイム・トレーニング法の変種間の接続を確立することを容易にする。

Sequential-in-time methods solve a sequence of training problems to fit nonlinear parametrizations such as neural networks to approximate solution trajectories of partial differential equations over time. This work shows that sequential-in-time training methods can be understood broadly as either optimize-then-discretize (OtD) or discretize-then-optimize (DtO) schemes, which are well known concepts in numerical analysis. The unifying perspective leads to novel stability and a posteriori error analysis results that provide insights into theoretical and numerical aspects that are inherent to either OtD or DtO schemes such as the tangent space collapse phenomenon, which is a form of over-fitting. Additionally, the unified perspective facilitates establishing connections between variants of sequential-in-time training methods, which is demonstrated by identifying natural gradient descent methods on energy functionals as OtD schemes applied to the corresponding gradient flows.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# LLMはFact-Driven Questionsに人間の答えを見つけるか? Redditでのケーススタディ

Do LLMs Find Human Answers To Fact-Driven Questions Perplexing? A Case Study on Reddit ( http://arxiv.org/abs/2404.01147v1 )

ライセンス: Link先を確認
Parker Seegmiller, Joseph Gatto, Omar Sharif, Madhusudan Basak, Sarah Masud Preum, (参考訳) 大規模言語モデル(LLM)は、オンライン談話の文脈における質問に正しく答えることに熟練していることが示されている。 しかし, 事実駆動型ソーシャルメディア質問に対する人間的回答のモデル化にLLMを用いた研究は, いまだに未検討である。 本研究では,複数のトピック固有のRedditコミュニティ,あるいはサブレディットで提起された事実駆動質問に対して,LLMが多種多様な人間の回答をどのようにモデル化するかを検討する。 専門職、社会的アイデンティティ、地理的位置の3つのカテゴリにまたがる15のr/Ask{Topic}コミュニティから、409の事実駆動の質問と7,534の多様性と人間による回答のデータセットを収集し、リリースします。 LLMは、評価の低い人間の答えとは対照的に、そのような質問に対する高い評価の人間の回答をモデル化するのがかなり優れている。 今後の研究の方向性について,本研究の最初の成果をもとに概説する。

Large language models (LLMs) have been shown to be proficient in correctly answering questions in the context of online discourse. However, the study of using LLMs to model human-like answers to fact-driven social media questions is still under-explored. In this work, we investigate how LLMs model the wide variety of human answers to fact-driven questions posed on several topic-specific Reddit communities, or subreddits. We collect and release a dataset of 409 fact-driven questions and 7,534 diverse, human-rated answers from 15 r/Ask{Topic} communities across 3 categories: profession, social identity, and geographic location. We find that LLMs are considerably better at modeling highly-rated human answers to such questions, as opposed to poorly-rated human answers. We present several directions for future research based on our initial findings.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# Detect2Interact:LLMを用いた視覚質問応答(VQA)におけるオブジェクトキーフィールドのローカライズ

Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs ( http://arxiv.org/abs/2404.01151v1 )

ライセンス: Link先を確認
Jialou Wang, Manli Zhu, Yulei Li, Honglei Li, Longzhi Yang, Wai Lok Woo, (参考訳) ローカライゼーションは、VQAシステムの実用性と精度を高める上で重要な役割を担っている。 オブジェクトの特定の部分とのきめ細かい識別と相互作用を可能にすることで、ロボット工学や拡張現実のような動的環境に適用するために重要な、文脈的に関連性があり空間的に正確な応答を提供するシステムの能力を大幅に改善する。 しかし、従来のシステムは、画像内のオブジェクトを正確にマッピングして、ニュアンスで空間的に認識された応答を生成するという課題に直面している。 そこで本研究では,細粒度物体の視覚的フィールド検出のための高度なアプローチを導入することで,これらの課題に対処する「Detect2Interact」を提案する。 まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。 次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。 第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。 その結果、Deuter2Interactは、広範囲なテストケースにわたるオブジェクトキーフィールド検出における一貫した定性的な結果を実現し、より合理的できめ細かな視覚表現を提供することで、既存のVQAシステムより優れたオブジェクト検出を実現する。

Localization plays a crucial role in enhancing the practicality and precision of VQA systems. By enabling fine-grained identification and interaction with specific parts of an object, it significantly improves the system's ability to provide contextually relevant and spatially accurate responses, crucial for applications in dynamic environments like robotics and augmented reality. However, traditional systems face challenges in accurately mapping objects within images to generate nuanced and spatially aware responses. In this work, we introduce "Detect2Interact", which addresses these challenges by introducing an advanced approach for fine-grained object visual key field detection. First, we use the segment anything model (SAM) to generate detailed spatial maps of objects in images. Next, we use Vision Studio to extract semantic object descriptions. Third, we employ GPT-4's common sense knowledge, bridging the gap between an object's semantics and its spatial map. As a result, Detect2Interact achieves consistent qualitative results on object key field detection across extensive test cases and outperforms the existing VQA system with object detection by providing a more reasonable and finer visual representation.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# 変換:高次元回帰のための共変量シフトロバスト変換学習

TransFusion: Covariate-Shift Robust Transfer Learning for High-Dimensional Regression ( http://arxiv.org/abs/2404.01153v1 )

ライセンス: Link先を確認
Zelin He, Ying Sun, Jingyuan Liu, Runze Li, (参考訳) 伝達学習を従来の教師付き学習から切り離す主な課題は、ソースモデルとターゲットモデルの間のシフトとして反映される分布シフトである。 本研究では,高次元回帰設定における共変量シフトの存在下でのモデルシフトに取り組む。 具体的には、ソースタスクからのサンプルを効果的に活用し、限られたサンプルで対象タスクの学習性能を向上させる2段階の融合正規化手法を提案する。 非漸近的境界は、目標モデルの推定誤差に対して設けられ、シフトを共変させるための提案手法の堅牢性を示す。 さらに、推定器がminimax-Optimalである条件を確立する。 さらに,本手法を分散環境に拡張し,集中型バージョンの推定率を維持しつつ,1ラウンドの通信しか必要とせず,事前学習型ファインタニング戦略を実現する。 数値実験は我々の理論を検証し、共変量シフトに対する手法の頑健さを強調した。

The main challenge that sets transfer learning apart from traditional supervised learning is the distribution shift, reflected as the shift between the source and target models and that between the marginal covariate distributions. In this work, we tackle model shifts in the presence of covariate shifts in the high-dimensional regression setting. Specifically, we propose a two-step method with a novel fused-regularizer that effectively leverages samples from source tasks to improve the learning performance on a target task with limited samples. Nonasymptotic bound is provided for the estimation error of the target model, showing the robustness of the proposed method to covariate shifts. We further establish conditions under which the estimator is minimax-optimal. Additionally, we extend the method to a distributed setting, allowing for a pretraining-finetuning strategy, requiring just one round of communication while retaining the estimation rate of the centralized version. Numerical tests validate our theory, highlighting the method's robustness to covariate shifts.
翻訳日:2024-04-03 22:15:37 公開日:2024-04-01
# テキスト・画像拡散モデルに埋め込まれたテキストの発見

Uncovering the Text Embedding in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2404.01154v1 )

ライセンス: Link先を確認
Hu Yu, Hao Luo, Fan Wang, Feng Zhao, (参考訳) 入力テキストと生成された画像との対応は不透明度を示し、小さなテキストによる修正は生成された画像にかなりのずれを生じさせる。 一方、テキストの埋め込みは、テキストと画像の間の重要な仲介役として、比較的過小評価されている。 本稿では,この研究のギャップを,テキスト埋め込み空間を掘り下げて,学習自由フレームワーク内での制御可能な画像編集と説明可能な意味方向属性のキャパシティを開放することで解決する。 具体的には、単語ごとの埋め込みの重要性と、テキスト埋め込みにおける文脈的相関に関する2つの重要な洞察を特定し、学習自由な画像編集の指導的原則を提供する。 さらに、テキスト埋め込みは本質的に多様な意味的ポテンシャルを持ち、特異値分解(SVD)のレンズを通してこの性質を明らかにする。 これらの発見プロパティは、画像編集と意味発見のための実用的なユーティリティを提供する。 さらに重要なことは、テキスト埋め込みの詳細な分析と発見により、テキストから画像への拡散モデルの理解が促進されることを期待する。

The correspondence between input text and the generated image exhibits opacity, wherein minor textual modifications can induce substantial deviations in the generated image. While, text embedding, as the pivotal intermediary between text and images, remains relatively underexplored. In this paper, we address this research gap by delving into the text embedding space, unleashing its capacity for controllable image editing and explicable semantic direction attributes within a learning-free framework. Specifically, we identify two critical insights regarding the importance of per-word embedding and their contextual correlations within text embedding, providing instructive principles for learning-free image editing. Additionally, we find that text embedding inherently possesses diverse semantic potentials, and further reveal this property through the lens of singular value decomposition (SVD). These uncovered properties offer practical utility for image editing and semantic discovery. More importantly, we expect the in-depth analyses and findings of the text embedding can enhance the understanding of text-to-image diffusion models.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# SyncMask:ファッション中心の視覚ランゲージ事前トレーニングのための同期アテンショナルマスキング

SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language Pretraining ( http://arxiv.org/abs/2404.01156v1 )

ライセンス: Link先を確認
Chull Hwan Song, Taebaek Hwang, Jooyoung Yoon, Shunghyun Choi, Yeong Hyeon Gu, (参考訳) 視覚言語モデル(VLM)は、大規模なペア化されたデータセットを通して、モーダル間理解において大きな進歩を遂げた。 しかし、ファッション領域では、データセットは画像とテキストで伝達される情報の間に相違を示すことが多い。 この問題は、1つのファッションアイテムの複数のイメージを含むデータセットを1つのテキストとペアにすることで、個々の画像にいくつかのテキストの詳細が見えないケースに繋がる。 このミスマッチ、特に非共起要素がマスクされている場合、マズード言語モデリングやマズード画像モデリングのような従来のVLM目標のトレーニングを損なうため、モデルがきめ細かい視覚的特徴とテキスト的特徴を正確に調整する能力を妨げます。 この問題に対処するために、画像パッチと単語トークンをピンポイントするマスクを生成するSyncMask(Synchronized attentional Masking)を提案する。 この同期は運動量モデルから得られる交叉アテンショナル特徴を利用し、2つのモード間の正確なアライメントを確保することで達成される。 さらに,画像テキストマッチングや画像テキストコントラスト学習における誤り問題を効果的に軽減し,半ハードな負でグループ化されたバッチサンプリングを強化した。 本実験では,提案手法の有効性を実証し,既存の手法を3つの下流タスクで上回る結果を得た。

Vision-language models (VLMs) have made significant strides in cross-modal understanding through large-scale paired datasets. However, in fashion domain, datasets often exhibit a disparity between the information conveyed in image and text. This issue stems from datasets containing multiple images of a single fashion item all paired with one text, leading to cases where some textual details are not visible in individual images. This mismatch, particularly when non-co-occurring elements are masked, undermines the training of conventional VLM objectives like Masked Language Modeling and Masked Image Modeling, thereby hindering the model's ability to accurately align fine-grained visual and textual features. Addressing this problem, we propose Synchronized attentional Masking (SyncMask), which generate masks that pinpoint the image patches and word tokens where the information co-occur in both image and text. This synchronization is accomplished by harnessing cross-attentional features obtained from a momentum model, ensuring a precise alignment between the two modalities. Additionally, we enhance grouped batch sampling with semi-hard negatives, effectively mitigating false negative issues in Image-Text Matching and Image-Text Contrastive learning objectives within fashion datasets. Our experiments demonstrate the effectiveness of the proposed approach, outperforming existing methods in three downstream tasks.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# Green AI:大規模言語モデルトレーニングにおけるカーボンフットプリント、緩和戦略、トレードオフを探る

Green AI: Exploring Carbon Footprints, Mitigation Strategies, and Trade Offs in Large Language Model Training ( http://arxiv.org/abs/2404.01157v1 )

ライセンス: Link先を確認
Vivian Liu, Yiqiao Yin, (参考訳) 自然言語処理の分野で有名な研究は、長い間、過去のモデルトレーニングアプローチを改善し、モデルアーキテクチャを変更し、パフォーマンスを改善するためにより詳細なデータセットを開発することで、新しい革新的なモデルを作ろうとしてきた。 しかし、NLPの急速な発展に伴い、温室効果ガスの排出が増加し、LLMの訓練による環境被害が懸念される。 人工知能に関連する様々なコスト、特に環境的な側面に関する包括的な理解を得ることは、安全なAIモデルを保証する基盤となる。 現在、AIモデルのCO2排出量の調査は研究の新たな領域であり、本論文では、モデルパラメータの多さから特に炭素フットプリントが高い、よく知られた大規模言語モデルのCO2排出量を評価する。 我々は, 二酸化炭素排出削減対策を提案することによって, 責任と持続性を有するLLMの育成を議論する。 さらに,2つの広く使用されているGPUのモデルトレーニングにおいて,ハードウェアの選択がCO2排出量にどのように影響するかを,CO2排出量と対比して検討する。 本研究の結果から,提案手法の利点と欠点を考察し,ロバスト性や性能を犠牲にすることなく,より環境に安全なAIモデルをトレーニングできる可能性について論じる。

Prominent works in the field of Natural Language Processing have long attempted to create new innovative models by improving upon previous model training approaches, altering model architecture, and developing more in-depth datasets to better their performance. However, with the quickly advancing field of NLP comes increased greenhouse gas emissions, posing concerns over the environmental damage caused by training LLMs. Gaining a comprehensive understanding of the various costs, particularly those pertaining to environmental aspects, that are associated with artificial intelligence serves as the foundational basis for ensuring safe AI models. Currently, investigations into the CO2 emissions of AI models remain an emerging area of research, and as such, in this paper, we evaluate the CO2 emissions of well-known large language models, which have an especially high carbon footprint due to their significant amount of model parameters. We argue for the training of LLMs in a way that is responsible and sustainable by suggesting measures for reducing carbon emissions. Furthermore, we discuss how the choice of hardware affects CO2 emissions by contrasting the CO2 emissions during model training for two widely used GPUs. Based on our results, we present the benefits and drawbacks of our proposed solutions and make the argument for the possibility of training more environmentally safe AI models without sacrificing their robustness and performance.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# ロボットとの対話:SLIVARコミュニティにおける参加と研究の拡大の提案

Dialogue with Robots: Proposals for Broadening Participation and Research in the SLIVAR Community ( http://arxiv.org/abs/2404.01158v1 )

ライセンス: Link先を確認
Casey Kennington, Malihe Alikhani, Heather Pon-Barry, Katherine Atwell, Yonatan Bisk, Daniel Fried, Felix Gervits, Zhao Han, Mert Inan, Michael Johnston, Raj Korpan, Diane Litman, Matthew Marge, Cynthia Matuszek, Ross Mead, Shiwali Mohan, Raymond Mooney, Natalie Parde, Jivko Sinapov, Angela Stewart, Matthew Stone, Stefanie Tellex, Tom Williams, (参考訳) 自然言語を使って機械と対話する能力は、単なる日常ではなく、期待されているものになりつつある。 次のステップは、単なるテキストインターフェースではなく、音声インターフェースであり、コンピュータだけでなく、ロボットを含むすべてのマシンで実現される。 本稿では,ロボットとの音声対話の最近の発展史を概説し,第1部は教育,第2部はベンチマーク,第3部はロボットとの音声対話における言語モデリングに関する3つの提案をコミュニティに提示する。 この3つの提案は、研究者が調査し、構築するためのホワイトペーパーとして機能すべきである。

The ability to interact with machines using natural human language is becoming not just commonplace, but expected. The next step is not just text interfaces, but speech interfaces and not just with computers, but with all machines including robots. In this paper, we chronicle the recent history of this growing field of spoken dialogue with robots and offer the community three proposals, the first focused on education, the second on benchmarks, and the third on the modeling of language when it comes to spoken interaction with robots. The three proposals should act as white papers for any researcher to take and build upon.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# テンソル化RVEAを用いたGPUによる進化的多目的最適化

GPU-accelerated Evolutionary Multiobjective Optimization Using Tensorized RVEA ( http://arxiv.org/abs/2404.01159v1 )

ライセンス: Link先を確認
Zhenyu Liang, Tao Jiang, Kebin Sun, Ran Cheng, (参考訳) 進化的多目的最適化は過去数十年で顕著な進歩をみせた。 しかし、既存のアルゴリズムはしばしば、ハードウェアアクセラレーションの欠如に起因する大規模なシナリオで計算上の問題に遭遇する。 そこで本研究では,GPUアクセラレーションの進歩を生かしたTensorized Reference Vector Guided Evolutionary Algorithm(TensorRVEA)を提案する。 TensorRVEAでは、主要なデータ構造と演算子は、GPUベースの並列コンピューティングを活用するためのテンソル形式に完全に変換される。 大規模人口と問題次元を含む数値ベンチマークテストでは、TensorRVEAは一貫して高い計算性能を示し、1000$\times$スピードアップを達成している。 そして、ロボット制御タスクにおける複雑な課題に対処するために、TensorRVEAを多目的神経進化の領域に適用した。 さらに,数個のテンソル化再生演算子を変化させることで,TensorRVEAの拡張性を評価した。 実験結果は、TensorRVEAの有望なスケーラビリティと堅牢性を示している。 ソースコードはhttps://github.com/EMI-Group/tensorrvea.comで入手できる。

Evolutionary multiobjective optimization has witnessed remarkable progress during the past decades. However, existing algorithms often encounter computational challenges in large-scale scenarios, primarily attributed to the absence of hardware acceleration. In response, we introduce a Tensorized Reference Vector Guided Evolutionary Algorithm (TensorRVEA) for harnessing the advancements of GPU acceleration. In TensorRVEA, the key data structures and operators are fully transformed into tensor forms for leveraging GPU-based parallel computing. In numerical benchmark tests involving large-scale populations and problem dimensions, TensorRVEA consistently demonstrates high computational performance, achieving up to over 1000$\times$ speedups. Then, we applied TensorRVEA to the domain of multiobjective neuroevolution for addressing complex challenges in robotic control tasks. Furthermore, we assessed TensorRVEA's extensibility by altering several tensorized reproduction operators. Experimental results demonstrate promising scalability and robustness of TensorRVEA. Source codes are available at https://github.com/EMI-Group/tensorrvea.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# VGG16とVGG19に基づく転写学習モデルを用いた皮膚癌の診断

Diagnosis of Skin Cancer Using VGG16 and VGG19 Based Transfer Learning Models ( http://arxiv.org/abs/2404.01160v1 )

ライセンス: Link先を確認
Amir Faghihi, Mohammadreza Fathollahi, Roozbeh Rajabi, (参考訳) 現在、皮膚がんは特に注意を要する最も危険で一般的ながんの1つと考えられている。 皮膚癌は、メラノーマ、アクチン性角化症、基底細胞癌、扁平上皮癌、メルケル細胞癌など様々な種類で発生する。 そのうちメラノーマは予測不可能である。 悪性黒色腫は早期に診断でき、疾患治療の可能性を高める。 皮膚病変の自動分類は、疾患の多様な形態やグレードのために困難な課題であり、新しい方法の実施の必要性が要求される。 ディープ畳み込みニューラルネットワーク(CNN)は、データと画像の分類に優れた可能性を示している。 本稿では,CNNを用いた皮膚病変分類問題について検討する。 特筆すべきは、病変検出の顕著な分類精度は、データ拡張手順(VGG16とVGG19アーキテクチャを改良されたAlexNetネットワークで事前トレーニングしたジェネリックデータセットでマージすること)を必要とせず、事前トレーニングされたニューラルネットワーク上で転送学習フレームワークを適切に設計し、適用することで得られることである。 畳み込みニューラルネットワークは2541の画像を用いてトレーニングされ、特に、ネットワークの過度な適合を防ぐためにドロップアウトが使用された。 最後に,K-fold Cross Validation法を用いてモデルの妥当性を確認した。 提案モデルは,他の手法と比較して分類精度を3%(94.2%から98.18%)向上させた。

Today, skin cancer is considered as one of the most dangerous and common cancers in the world which demands special attention. Skin cancer may be developed in different types; including melanoma, actinic keratosis, basal cell carcinoma, squamous cell carcinoma, and Merkel cell carcinoma. Among them, melanoma is more unpredictable. Melanoma cancer can be diagnosed at early stages increasing the possibility of disease treatment. Automatic classification of skin lesions is a challenging task due to diverse forms and grades of the disease, demanding the requirement of novel methods implementation. Deep convolution neural networks (CNN) have shown an excellent potential for data and image classification. In this article, we inspect skin lesion classification problem using CNN techniques. Remarkably, we present that prominent classification accuracy of lesion detection can be obtained by proper designing and applying of transfer learning framework on pre-trained neural networks, without any requirement for data enlargement procedures i.e. merging VGG16 and VGG19 architectures pre-trained by a generic dataset with modified AlexNet network, and then, fine-tuned by a subject-specific dataset containing dermatology images. The convolution neural network was trained using 2541 images and, in particular, dropout was used to prevent the network from overfitting. Finally, the validity of the model was checked by applying the K-fold cross validation method. The proposed model increased classification accuracy by 3% (from 94.2% to 98.18%) in comparison with other methods.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# 緩和ニューラルネットワークによる衝撃波の捕捉

Capturing Shock Waves by Relaxation Neural Networks ( http://arxiv.org/abs/2404.01163v1 )

ライセンス: Link先を確認
Nan Zhou, Zheng Ma, (参考訳) 本稿では,非線形双曲系を解くニューラルネットワークフレームワークを提案する。 このフレームワークは緩和ニューラルネットワーク(RelaxNN)と呼ばれ、物理情報ニューラルネットワーク(PINN)のシンプルでスケーラブルな拡張である。 後に、典型的なPINNフレームワークは、双曲系の解に生じる衝撃波を扱うのに苦労していることが示されている。 これは最終的に、トレーニングプロセスの勾配降下に基づく最適化の失敗をもたらす。 緩和系は、顕微鏡的な観点からマクロ的な問題を解くことができるという期待のもと、不連続解に滑らかな漸近を与える。 緩和システムに基づいて、RelaxNNフレームワークは、PINNフレームワークのトレーニングプロセスにおける損失の衝突を軽減する。 数値シミュレーションで示された顕著な結果に加えて、標準のPINNフレームワークを対象とした加速度技術や改善戦略の大部分がRelaxNNフレームワークにも適用可能である。

In this paper, we put forward a neural network framework to solve the nonlinear hyperbolic systems. This framework, named relaxation neural networks(RelaxNN), is a simple and scalable extension of physics-informed neural networks(PINN). It is shown later that a typical PINN framework struggles to handle shock waves that arise in hyperbolic systems' solutions. This ultimately results in the failure of optimization that is based on gradient descent in the training process. Relaxation systems provide a smooth asymptotic to the discontinuity solution, under the expectation that macroscopic problems can be solved from a microscopic perspective. Based on relaxation systems, the RelaxNN framework alleviates the conflict of losses in the training process of the PINN framework. In addition to the remarkable results demonstrated in numerical simulations, most of the acceleration techniques and improvement strategies aimed at the standard PINN framework can also be applied to the RelaxNN framework.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# LITE:マルチモーダル大言語モデルによる環境生態系のモデル化

LITE: Modeling Environmental Ecosystems with Multimodal Large Language Models ( http://arxiv.org/abs/2404.01165v1 )

ライセンス: Link先を確認
Haoran Li, Junqi Liu, Zexian Wang, Shiyuan Luo, Xiaowei Jia, Huaxiu Yao, (参考訳) 環境生態系のモデリングは,地球環境の持続可能な管理において重要な役割を担っている。 空間と時間における重要な環境変数の正確な予測は、インフォームドポリシーや意思決定に役立つため、人々の生活を改善することができる。 近年,深層学習に基づく手法は,環境変数の予測のための空間的・時間的関係をモデル化する上で有望であることが示されている。 しかし、これらの手法は不完全な特徴や分布の変化を扱うのに不足することが多く、これは測定器におけるデータ収集と誤動作のかなりのコストのために、環境データでよく見られる。 これらの課題に対処するため,環境生態系モデリングのための多モーダル大規模言語モデルLITEを提案する。 具体的には、LITEは環境変数を自然言語記述や線グラフ画像に変換することで、異なる環境変数を統一する。 そして、LITEは統一エンコーダを使用して、異なるモードの空間的時間的ダイナミクスと相関をキャプチャする。 この段階において、不完全な特徴はスパース・ミックス・オブ・エキスパート・フレームワークによって示唆され、分布シフトは過去の観測から多粒度情報を取り入れることで処理される。 最後に、ドメイン命令で導かれる言語モデルを用いて、予測のためのマルチモーダル表現を融合させる。 実験により, LITEは, 環境空間的予測の精度を, 最良基準に比べて有意に向上し, 予測誤差は41.25%減少した。 これはその効果を正当化する。 私たちのデータとコードはhttps://github.com/hrlics/LITE.comで公開されています。

The modeling of environmental ecosystems plays a pivotal role in the sustainable management of our planet. Accurate prediction of key environmental variables over space and time can aid in informed policy and decision-making, thus improving people's livelihood. Recently, deep learning-based methods have shown promise in modeling the spatial-temporal relationships for predicting environmental variables. However, these approaches often fall short in handling incomplete features and distribution shifts, which are commonly observed in environmental data due to the substantial cost of data collection and malfunctions in measuring instruments. To address these issues, we propose LITE -- a multimodal large language model for environmental ecosystems modeling. Specifically, LITE unifies different environmental variables by transforming them into natural language descriptions and line graph images. Then, LITE utilizes unified encoders to capture spatial-temporal dynamics and correlations in different modalities. During this step, the incomplete features are imputed by a sparse Mixture-of-Experts framework, and the distribution shift is handled by incorporating multi-granularity information from past observations. Finally, guided by domain instructions, a language model is employed to fuse the multimodal representations for the prediction. Our experiments demonstrate that LITE significantly enhances performance in environmental spatial-temporal prediction across different domains compared to the best baseline, with a 41.25% reduction in prediction error. This justifies its effectiveness. Our data and code are available at https://github.com/hrlics/LITE.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# Mirror-3DGS: 3次元ガウススプレイティングにミラー反射を組み込む

Mirror-3DGS: Incorporating Mirror Reflections into 3D Gaussian Splatting ( http://arxiv.org/abs/2404.01168v1 )

ライセンス: Link先を確認
Jiarui Meng, Haijie Li, Yanmin Wu, Qiankun Gao, Shuzhou Yang, Jian Zhang, Siwei Ma, (参考訳) 3D Gaussian Splatting (3DGS)は、3Dシーンの再構築と新しいビュー合成の領域において画期的な進歩を遂げた。 しかし、3DGSは、前身のNeural Radiance Fields(NeRF)と同様に、物理反射を正確にモデル化するのに苦労している。 この見落としは、物理的に存在する別個の実体として反射を誤って知覚し、その結果、様々な視点で不正確な再構成と矛盾した反射特性をもたらす。 この重要な課題に対処するために、ミラー3DGS(ミラー3DGS)を紹介します。 鏡の属性を3DGSに巧みに取り入れ、平面ミラーイメージングの原理を活用することで、ミラー3DGSは鏡の後ろから観察する鏡の視点を作り、シーンレンダリングのリアリズムを豊かにする。 総合的な評価は、合成シーンと実世界のシーンの両方にまたがって、我々の方法では、新しいビューをリアルタイムに拡張された忠実さで描画する能力を示し、挑戦するミラー領域で特に最先端のミラー・ネRFを超越している。 私たちのコードは再現可能な研究のために公開されます。

3D Gaussian Splatting (3DGS) has marked a significant breakthrough in the realm of 3D scene reconstruction and novel view synthesis. However, 3DGS, much like its predecessor Neural Radiance Fields (NeRF), struggles to accurately model physical reflections, particularly in mirrors that are ubiquitous in real-world scenes. This oversight mistakenly perceives reflections as separate entities that physically exist, resulting in inaccurate reconstructions and inconsistent reflective properties across varied viewpoints. To address this pivotal challenge, we introduce Mirror-3DGS, an innovative rendering framework devised to master the intricacies of mirror geometries and reflections, paving the way for the generation of realistically depicted mirror reflections. By ingeniously incorporating mirror attributes into the 3DGS and leveraging the principle of plane mirror imaging, Mirror-3DGS crafts a mirrored viewpoint to observe from behind the mirror, enriching the realism of scene renderings. Extensive assessments, spanning both synthetic and real-world scenes, showcase our method's ability to render novel views with enhanced fidelity in real-time, surpassing the state-of-the-art Mirror-NeRF specifically within the challenging mirror regions. Our code will be made publicly available for reproducible research.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# ループエッジによるグラフ上の強い量子状態移動

Strong quantum state transfer on graphs via loop edges ( http://arxiv.org/abs/2404.01173v1 )

ライセンス: Link先を確認
Gabor Lippner, Yujia Shi, (参考訳) これらの頂点間の量子状態伝達の強さに対するグラフのソースおよびターゲットノードにおける重み付きループの効果を定量化する。 我々は、このプロトコルが実現可能なグラフで機能する強い転送忠実性を保証するループウェイトに対して、より低い境界を与える。 局所スペクトル対称性を考慮し、必要なウェイトサイズはグラフの最大度にのみ依存し、いくつかのあまり好ましくない場合、頂点間の距離が示される。 さらに, 移動強度が所定の閾値を超える期間について検討する。

We quantify the effect of weighted loops at the source and target nodes of a graph on the strength of quantum state transfer between these vertices. We give lower bounds on loop weights that guarantee strong transfer fidelity that works for any graph where this protocol is feasible. By considering local spectral symmetry, we show that the required weight size depends only on the maximum degree of the graph and, in some less favorable cases, the distance between vertices. Additionally, we explore the duration for which transfer strength remains above a specified threshold.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# SpikeMba: テンポラルビデオグラウンドのためのマルチモーダルスパイス・サイレンシー・マンバ

SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding ( http://arxiv.org/abs/2404.01174v1 )

ライセンス: Link先を確認
Wenrui Li, Xiaopeng Hong, Xiaopeng Fan, (参考訳) 時間的ビデオグラウンドティング(TVG)は,映像コンテンツ理解において重要な課題である。 大幅な進歩にもかかわらず、既存の手法は、長いビデオシーケンスを処理する際に、マルチモーダル入力と高い計算コストの間のきめ細かい関係を捉えるのに制限されることが多い。 これらの制約に対処するために、時間的ビデオグラウンドティングのための新しいスパイクムバ、マルチモーダルスパイクサリエンシ・マンバを紹介した。 本研究では、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合し、マルチモーダル特徴のきめ細かい関係を効果的に捉える。 具体的には、関連スロットを導入して、モデルのメモリ能力を向上し、ビデオシーケンスのより深いコンテキスト理解を可能にする。 文脈的モーメント推論器はこれらのスロットを活用し、文脈的情報保存と意味的関連性探索のバランスを維持する。 同時に、スパイクサリエンシ検出器はSNNのユニークな特性を利用して、サリエントな提案を正確に見つける。 我々の実験は、主流ベンチマークにおける最先端手法を一貫して上回るSpikeMbaの有効性を実証した。

Temporal video grounding (TVG) is a critical task in video content understanding. Despite significant advancements, existing methods often limit in capturing the fine-grained relationships between multimodal inputs and the high computational costs with processing long video sequences. To address these limitations, we introduce a novel SpikeMba: multi-modal spiking saliency mamba for temporal video grounding. In our work, we integrate the Spiking Neural Networks (SNNs) and state space models (SSMs) to capture the fine-grained relationships of multimodal features effectively. Specifically, we introduce the relevant slots to enhance the model's memory capabilities, enabling a deeper contextual understanding of video sequences. The contextual moment reasoner leverages these slots to maintain a balance between contextual information preservation and semantic relevance exploration. Simultaneously, the spiking saliency detector capitalizes on the unique properties of SNNs to accurately locate salient proposals. Our experiments demonstrate the effectiveness of SpikeMba, which consistently outperforms state-of-the-art methods across mainstream benchmarks.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# 分散型協調型レコメンダシステムの導入とその対策

Poisoning Decentralized Collaborative Recommender System and Its Countermeasures ( http://arxiv.org/abs/2404.01177v1 )

ライセンス: Link先を確認
Ruiqi Zheng, Liang Qu, Tong Chen, Kai Zheng, Yuhui Shi, Hongzhi Yin, (参考訳) プライバシと効率性を確保するため、多くのレコメンダシステムのデプロイは、中央サーバからパーソナルデバイスへのシフトを経験しており、フェデレーションされたレコメンダシステム(FedRecs)と分散化されたコラボレーティブレコメンダシステム(DecRecs)は、間違いなく2つの最も代表的なパラダイムである。 どちらも、ローカルモデルの学習を容易にするために知識(グラデーションなど)の共有を活用するが、FedRecsは最適化プロセスを調整するために中央サーバに依存しているが、DecRecsでは、知識の共有はクライアント間で直接行われる。 知識共有はまた、モデル中毒攻撃のバックドアも開き、敵は良心的なクライアントに変装し、汚染された知識を広めて、アイテムの露出率の促進のような悪意ある目標を達成する。 このような中毒攻撃の研究は、セキュリティの抜け穴やそれに対応する対策を見つけるための貴重な洞察を提供するが、既存の攻撃は主にFedRecsに焦点を当てており、DecRecsには適用できないか効果がない。 改ざんされた情報が一度クラウドにアップロードされたすべてのクライアントに普遍的に分散できるFedRecsと比較して、DecRecsの各敵は、小さなサイズの隣のクライアントとしか通信できないため、その影響範囲は限られている。 このギャップを埋めるために,PAMN(Adaptive Malicious Neighbors)を用いたPoisoningという新たな攻撃手法を提案する。 PAMNは、トップKレコメンデーションを攻撃目的として推奨することで、敵の顧客をエミュレートし、各敵の隣人に対して適応的に構築された勾配を伝達する複数の敵によって、ターゲットアイテムのランクを効果的に向上させる。 さらに、DecRecsの脆弱性が明らかになったことにより、スペーサー付きユーザレベルの勾配クリッピングに基づく専用の防御機構が提案されている。 広範囲にわたる実験により, 毒性攻撃の有効性と防御機構の堅牢性が実証された。

To make room for privacy and efficiency, the deployment of many recommender systems is experiencing a shift from central servers to personal devices, where the federated recommender systems (FedRecs) and decentralized collaborative recommender systems (DecRecs) are arguably the two most representative paradigms. While both leverage knowledge (e.g., gradients) sharing to facilitate learning local models, FedRecs rely on a central server to coordinate the optimization process, yet in DecRecs, the knowledge sharing directly happens between clients. Knowledge sharing also opens a backdoor for model poisoning attacks, where adversaries disguise themselves as benign clients and disseminate polluted knowledge to achieve malicious goals like promoting an item's exposure rate. Although research on such poisoning attacks provides valuable insights into finding security loopholes and corresponding countermeasures, existing attacks mostly focus on FedRecs, and are either inapplicable or ineffective for DecRecs. Compared with FedRecs where the tampered information can be universally distributed to all clients once uploaded to the cloud, each adversary in DecRecs can only communicate with neighbor clients of a small size, confining its impact to a limited range. To fill the gap, we present a novel attack method named Poisoning with Adaptive Malicious Neighbors (PAMN). With item promotion in top-K recommendation as the attack objective, PAMN effectively boosts target items' ranks with several adversaries that emulate benign clients and transfers adaptively crafted gradients conditioned on each adversary's neighbors. Moreover, with the vulnerabilities of DecRecs uncovered, a dedicated defensive mechanism based on user-level gradient clipping with sparsified updating is proposed. Extensive experiments demonstrate the effectiveness of the poisoning attack and the robustness of our defensive mechanism.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# BEM:Long-Tailed Semi-Supervised Learningのためのバランスとエントロピーに基づくミックス

BEM: Balanced and Entropy-based Mix for Long-Tailed Semi-Supervised Learning ( http://arxiv.org/abs/2404.01179v1 )

ライセンス: Link先を確認
Hongwei Zheng, Linyuan Zhou, Han Li, Jinming Su, Xiaoming Wei, Xiaoming Xu, (参考訳) データミキシングは、半教師付き学習(SSL)において重要な役割を果たすが、長い尾を持つ半教師付き学習(LTSSL)では研究されていない。 第一の理由は、バッチ内混合方式がクラス不均衡に対処できないことである。 さらに、既存のLTSSLメソッドは主にデータ量の再バランスに重点を置いているが、クラスの不確実性は無視している。 例えば、十分なサンプルを持つクラスの中には、識別不能な特徴のため、高い不確実性を示すものもある。 そこで本研究では,データ量と不確実性の両方のクラス分布を再均衡させる手法として,Ba balanced and Entropy-based Mix (BEM)を提案する。 具体的には、まず、各クラスのデータをミキシングするためのバランスの取れた混合銀行を提案する。 この銀行は、推定量分布に基づいてデータをサンプリングし、データ量を再バランスする。 次に、エントロピーに基づくサンプリング戦略、エントロピーに基づく選択モジュール、およびエントロピーに基づくクラスバランス損失を含む、クラスの不確実性を再バランスさせるためのエントロピーに基づく学習手法を提案する。 私たちのBEMはまず、LTSSLを改善するためにデータミキシングを利用します。 実験の結果、BEMは様々なLTSSLフレームワークを大幅に強化し、複数のベンチマークで最先端のパフォーマンスを実現している。

Data mixing methods play a crucial role in semi-supervised learning (SSL), but their application is unexplored in long-tailed semi-supervised learning (LTSSL). The primary reason is that the in-batch mixing manner fails to address class imbalance. Furthermore, existing LTSSL methods mainly focus on re-balancing data quantity but ignore class-wise uncertainty, which is also vital for class balance. For instance, some classes with sufficient samples might still exhibit high uncertainty due to indistinguishable features. To this end, this paper introduces the Balanced and Entropy-based Mix (BEM), a pioneering mixing approach to re-balance the class distribution of both data quantity and uncertainty. Specifically, we first propose a class balanced mix bank to store data of each class for mixing. This bank samples data based on the estimated quantity distribution, thus re-balancing data quantity. Then, we present an entropy-based learning approach to re-balance class-wise uncertainty, including entropy-based sampling strategy, entropy-based selection module, and entropy-based class balanced loss. Our BEM first leverages data mixing for improving LTSSL, and it can also serve as a complement to the existing re-balancing methods. Experimental results show that BEM significantly enhances various LTSSL frameworks and achieves state-of-the-art performances across multiple benchmarks.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# 食品中の塩分濃度のモニタリングのための神経・シンボリックアプローチ

A Neuro-Symbolic Approach to Monitoring Salt Content in Food ( http://arxiv.org/abs/2404.01182v1 )

ライセンス: Link先を確認
Anuja Tayal, Barbara Di Eugenio, Devika Salunke, Andrew D. Boyd, Carolyn A Dickens, Eulalia P Abril, Olga Garcia-Bedoya, Paula G Allen-Meares, (参考訳) 本研究では, 心不全患者が食品中の塩分について質問し, 塩分摂取の監視と低減を支援する対話システムを提案する。 食品ベースの塩分分析のための特定のデータセットの欠如に対処し、テンプレートベースの会話データセットを開発する。 データセットは、食品とその塩分を識別するために、明確化の質問を行うように構成されている。 以上の結果から,データセット上の微調整型トランスフォーマーモデルでは限られた性能が得られるが,Neuro-Symbolic Rulesの統合はシステムの性能を著しく向上させることがわかった。 実験の結果, ニューロシンボリック・ルールを組み込むことで, 異なるデータサイズで20%以上の目標精度を達成できることがわかった。

We propose a dialogue system that enables heart failure patients to inquire about salt content in foods and help them monitor and reduce salt intake. Addressing the lack of specific datasets for food-based salt content inquiries, we develop a template-based conversational dataset. The dataset is structured to ask clarification questions to identify food items and their salt content. Our findings indicate that while fine-tuning transformer-based models on the dataset yields limited performance, the integration of Neuro-Symbolic Rules significantly enhances the system's performance. Our experiments show that by integrating neuro-symbolic rules, our system achieves an improvement in joint goal accuracy of over 20% across different data sizes compared to naively fine-tuning transformer-based models.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# 制御バリア関数誘導型ニューラルコントローラを用いたマニピュレータの効率的な動作計画

Efficient Motion Planning for Manipulators with Control Barrier Function-Induced Neural Controller ( http://arxiv.org/abs/2404.01184v1 )

ライセンス: Link先を確認
Mingxin Yu, Chenning Yu, M-Mahdi Naddaf-Sh, Devesh Upadhyay, Sicun Gao, Chuchu Fan, (参考訳) 混雑した環境下でのマニピュレータのサンプリングに基づく動作計画法は、しばしば高価な衝突チェックと高いサンプリング複雑性に悩まされ、リアルタイムでの使用が困難になる。 そこで本研究では,サンプリング型モーションプランナRTRに必要なサンプル数を削減するために,CBFベースのステアリングコントローラを提案する。 本手法は, CBF誘導型ニューラルコントローラ(CBF-INC)を用いて, リアルタイム衝突回避制御のためのCBFの強度と, 長距離移動計画のためのRTTの強度を組み合わせて, RRTによるサンプル設定に向けて制御する制御信号を生成する。 CBF-INCはニューラルネットワークとして学習され、状態(符号距離)入力とLiDARからのポイントクラウド入力の2つの異なる入力を処理する。 後者では,完全かつ部分的に観察された環境情報という2つの異なる設定についても検討する。 CBF-INCは、ロボット幾何学の過度な近似に苦しむ手作りのCBFと比べ、過保守でなくても安全性と目標達成のバランスが良くなる。 CBF-INC-RRT(英語版)は、状態に基づく入力により、ハードテストケースでのバニラRTと比較して、30%の探索ノード数を減らしながら、成功率を14%向上させることができる。 バニラRTが直接適用されないLiDAR入力を考えると、他のステアリングコントローラとの計画と比較してCBF-INC-RRTは成功率を10%向上させることができる。 補助材料を備えたプロジェクトページはhttps://mit-realm.github.io/CBF-INC-RRT-website/。

Sampling-based motion planning methods for manipulators in crowded environments often suffer from expensive collision checking and high sampling complexity, which make them difficult to use in real time. To address this issue, we propose a new generalizable control barrier function (CBF)-based steering controller to reduce the number of samples needed in a sampling-based motion planner RRT. Our method combines the strength of CBF for real-time collision-avoidance control and RRT for long-horizon motion planning, by using CBF-induced neural controller (CBF-INC) to generate control signals that steer the system towards sampled configurations by RRT. CBF-INC is learned as Neural Networks and has two variants handling different inputs, respectively: state (signed distance) input and point-cloud input from LiDAR. In the latter case, we also study two different settings: fully and partially observed environmental information. Compared to manually crafted CBF which suffers from over-approximating robot geometry, CBF-INC can balance safety and goal-reaching better without being over-conservative. Given state-based input, our neural CBF-induced neural controller-enhanced RRT (CBF-INC-RRT) can increase the success rate by 14% while reducing the number of nodes explored by 30%, compared with vanilla RRT on hard test cases. Given LiDAR input where vanilla RRT is not directly applicable, we demonstrate that our CBF-INC-RRT can improve the success rate by 10%, compared with planning with other steering controllers. Our project page with supplementary material is at https://mit-realm.github.io/CBF-INC-RRT-website/.
翻訳日:2024-04-03 22:05:48 公開日:2024-04-01
# 電子カルテからフル・フル・フル・ホスピタル・サマリーを創出する

Generating Faithful and Complete Hospital-Course Summaries from the Electronic Health Record ( http://arxiv.org/abs/2404.01189v1 )

ライセンス: Link先を確認
Griffin Adams, (参考訳) 電子健康記録(EHR)の急速な普及は、行政業務の合理化、透明性の向上、提供者間のケアの継続の実現に役立っている。 しかし、ドキュメントの負担の増加による意図しない結果が、患者との対面時間を短縮し、同時にクリニックバーンアウトの劇的な増加が見られた。 本論文では,患者の入院状況の要約を作成し,自動化ソリューションの提案と評価を行う。 第2章では,109,000件の入院(2M資料)に基づくデータセットを構築し,今後のモデリングと評価への取り組みを動機づける探索分析を行う [NAACL 2021]。 第3章では、ノイズレファレンス[EMNLP 2022]を改訂し、参照への依存を減らし、モデル出力を直接メトリクス[ACL 2023]に校正することで、モデリングの観点から忠実さを論じる。 人間のアノテーションが限られていたため、これらの作業は自動メトリクスに大きく依存した。 このギャップを埋めるために、第4章では、既存のメトリクスをメタ評価し、ドメイン適応とソース・サマリアライメントのタスク固有の問題をよりよく理解するために、システムエラーの詳細な専門家アノテーションを実行します。 抽出性(コピー・アンド・ペースト)に相関しないメトリクスを学習するために、既存のメトリクスのアンサンブルからノイズの多い忠実度ラベルを導き、これらの疑似ラベル[MLHC 2023]に忠実度分類器を訓練する。 最後に、第5章では、微調整されたLLM(ミストラルとゼファー)が、実体幻覚に強く影響し、より塩分が少ないことを実証する。 本研究では,テキストから事前計算された有能なエンティティの集合に基づいて文レベルのエンティティ計画を行うことにより,包括的・忠実性の両方を改善し,エンティティ誘導ニュース要約 [ACL, 2023], [EMNLP, 2023] の作業を拡張した。

The rapid adoption of Electronic Health Records (EHRs) has been instrumental in streamlining administrative tasks, increasing transparency, and enabling continuity of care across providers. An unintended consequence of the increased documentation burden, however, has been reduced face-time with patients and, concomitantly, a dramatic rise in clinician burnout. In this thesis, we pinpoint a particularly time-intensive, yet critical, documentation task: generating a summary of a patient's hospital admissions, and propose and evaluate automated solutions. In Chapter 2, we construct a dataset based on 109,000 hospitalizations (2M source notes) and perform exploratory analyses to motivate future work on modeling and evaluation [NAACL 2021]. In Chapter 3, we address faithfulness from a modeling perspective by revising noisy references [EMNLP 2022] and, to reduce the reliance on references, directly calibrating model outputs to metrics [ACL 2023]. These works relied heavily on automatic metrics as human annotations were limited. To fill this gap, in Chapter 4, we conduct a fine-grained expert annotation of system errors in order to meta-evaluate existing metrics and better understand task-specific issues of domain adaptation and source-summary alignments. To learn a metric less correlated to extractiveness (copy-and-paste), we derive noisy faithfulness labels from an ensemble of existing metrics and train a faithfulness classifier on these pseudo labels [MLHC 2023]. Finally, in Chapter 5, we demonstrate that fine-tuned LLMs (Mistral and Zephyr) are highly prone to entity hallucinations and cover fewer salient entities. We improve both coverage and faithfulness by performing sentence-level entity planning based on a set of pre-computed salient entities from the source text, which extends our work on entity-guided news summarization [ACL, 2023], [EMNLP, 2023].
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# iMD4GC: 胃癌の精密治療適応予測と生存分析を向上する不完全多モードデータ統合

iMD4GC: Incomplete Multimodal Data Integration to Advance Precise Treatment Response Prediction and Survival Analysis for Gastric Cancer ( http://arxiv.org/abs/2404.01192v1 )

ライセンス: Link先を確認
Fengtao Zhou, Yingxue Xu, Yanfen Cui, Shenyan Zhang, Yun Zhu, Weiyang He, Jiguang Wang, Xin Wang, Ronald Chan, Louis Ho Shing Lau, Chu Han, Dafu Zhang, Zhenhui Li, Hao Chen, (参考訳) 胃癌(GC)は世界中で流行している悪性腫瘍で、2020年に新たに100万人以上、70万人の死者を出した5番目に多いがんである。 局所進行胃癌 (LAGC) はGC診断の約3分の2を占め, LAGCの標準治療としてネオアジュバント化学療法 (NACT) が出現している。 しかし, NACTの有効性は患者によって大きく異なり, 治療抵抗を示すサブセットもかなり存在する。 非有効なNATは副作用を引き起こすだけでなく、最適な治療窓を見逃し、生存率を低下させる。 しかし, 既存のマルチモーダル学習法では, 臨床実践の現実と一致しない, 患者ごとのすべてのモダリティが想定されている。 各患者に対するモダリティの可用性の制限は、情報損失を引き起こし、予測精度に悪影響を及ぼす。 本研究では,GC(iMD4GC)のための不完全なマルチモーダルデータ統合フレームワークを提案する。 特に、iMD4GCは、モダリティごとに一様注意層を組み込んで、モダリティ内情報をキャプチャする。 その後、モダリティ間の相互作用層は、潜在的なモダリティ間相互作用を探索し、モダリティをまたいだ相補的な情報をキャプチャすることで、モダリティの欠如に対する情報補償を可能にする。 iMD4GCを評価するために,反応予測のためのガストリル(698例),生存分析のためのガストリル(801例),生存分析のためのTCGA-STAD(400例)の3つのマルチモーダルデータセットを収集した。 データセットの規模は、これまでの研究よりもかなり大きい。 iMD4GCはガストリスで80.2%のAUC、ガストリスで71.4%のCインデックス、TCGA-STADで66.1%のCインデックスを達成し、他の比較手法をはるかに上回った。

Gastric cancer (GC) is a prevalent malignancy worldwide, ranking as the fifth most common cancer with over 1 million new cases and 700 thousand deaths in 2020. Locally advanced gastric cancer (LAGC) accounts for approximately two-thirds of GC diagnoses, and neoadjuvant chemotherapy (NACT) has emerged as the standard treatment for LAGC. However, the effectiveness of NACT varies significantly among patients, with a considerable subset displaying treatment resistance. Ineffective NACT not only leads to adverse effects but also misses the optimal therapeutic window, resulting in lower survival rate. However, existing multimodal learning methods assume the availability of all modalities for each patient, which does not align with the reality of clinical practice. The limited availability of modalities for each patient would cause information loss, adversely affecting predictive accuracy. In this study, we propose an incomplete multimodal data integration framework for GC (iMD4GC) to address the challenges posed by incomplete multimodal data, enabling precise response prediction and survival analysis. Specifically, iMD4GC incorporates unimodal attention layers for each modality to capture intra-modal information. Subsequently, the cross-modal interaction layers explore potential inter-modal interactions and capture complementary information across modalities, thereby enabling information compensation for missing modalities. To evaluate iMD4GC, we collected three multimodal datasets for GC study: GastricRes (698 cases) for response prediction, GastricSur (801 cases) for survival analysis, and TCGA-STAD (400 cases) for survival analysis. The scale of our datasets is significantly larger than previous studies. The iMD4GC achieved impressive performance with an 80.2% AUC on GastricRes, 71.4% C-index on GastricSur, and 66.1% C-index on TCGA-STAD, significantly surpassing other compared methods.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# マルチドメインランドマーク検出のための適応型クエリプロンプト

Adaptive Query Prompting for Multi-Domain Landmark Detection ( http://arxiv.org/abs/2404.01194v1 )

ライセンス: Link先を確認
Qiusen Wei, Guoheng Huang, Xiaochen Yuan, Xuhang Chen, Guo Zhong, Jianwen Huang, Jiajie Huang, (参考訳) 医学的ランドマークの検出は、様々な医用画像のモダリティや手順において重要である。 ディープラーニングベースの手法は有望なパフォーマンスを実現しているが、主に特定の解剖学的領域やタスクのために設計されている。 本研究では、トランスフォーマーアーキテクチャを活用し、適応クエリプロンプト(AQP)と呼ばれるプロンプトコンポーネントを開発することで、マルチドメインランドマーク検出のための普遍モデルを提案する。 バックボーンネットワークに新たなモジュールを埋め込む代わりに、他のトランスフォーマーネットワークに効果的に拡張可能なプロンプトを生成するために、別個のモジュールを設計する。 提案したAQPでは、プロンプトはプロンプトプールと呼ばれるメモリ空間で保持される学習可能なパラメータである。 中心となる考え方は、バックボーンを凍結させ、モデル推論プロセスを指示するためにプロンプトを最適化することだ。 さらに、軽量デコーダを用いて、抽出した特徴、すなわちLight-MLDからランドマークをデコードする。 デコーダとAQPの軽量性のおかげで、バックボーンエンコーダを共有することで複数のデータセットを処理でき、余分なコストを伴わずに部分パラメータチューニングのみを実行できます。 よりランドマークな検出タスクに拡張される可能性がある。 医用ランドマーク検出に広く用いられている3つのX線データセットについて実験を行った。 提案するLight-MLDとAQPを組み合わせることで、複雑な構造設計や複雑なフレームワークを使わずとも、多くのメトリクス上でSOTA性能を実現することができる。

Medical landmark detection is crucial in various medical imaging modalities and procedures. Although deep learning-based methods have achieve promising performance, they are mostly designed for specific anatomical regions or tasks. In this work, we propose a universal model for multi-domain landmark detection by leveraging transformer architecture and developing a prompting component, named as Adaptive Query Prompting (AQP). Instead of embedding additional modules in the backbone network, we design a separate module to generate prompts that can be effectively extended to any other transformer network. In our proposed AQP, prompts are learnable parameters maintained in a memory space called prompt pool. The central idea is to keep the backbone frozen and then optimize prompts to instruct the model inference process. Furthermore, we employ a lightweight decoder to decode landmarks from the extracted features, namely Light-MLD. Thanks to the lightweight nature of the decoder and AQP, we can handle multiple datasets by sharing the backbone encoder and then only perform partial parameter tuning without incurring much additional cost. It has the potential to be extended to more landmark detection tasks. We conduct experiments on three widely used X-ray datasets for different medical landmark detection tasks. Our proposed Light-MLD coupled with AQP achieves SOTA performance on many metrics even without the use of elaborate structural designs or complex frameworks.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# 文書レベル分布からの語彙複雑度の推定

Estimating Lexical Complexity from Document-Level Distributions ( http://arxiv.org/abs/2404.01196v1 )

ライセンス: Link先を確認
Sondre Wold, Petter Mæhlum, Oddbjørn Hove, (参考訳) 既存の複雑性推定法は、典型的には文書全体に対して開発される。 この範囲の制限により、健康評価ツールのような短いテキストには適用できない。 これらは典型的には独立した文のリストで構成され、これらは全て既存の方法を適用するには短すぎる。 これらの評価ツールにおける単語の選択は、認知能力と意図する患者グループの言語能力の両方が大きく異なる可能性があるため、非常に重要である。 医療実践者を支援するためのより良いツールを作成するための第一歩として、事前に注釈付けされたデータに依存しない語彙的複雑さを推定するための2段階のアプローチを開発します。 我々は,ノルウェー語に対するアプローチを実装し,その妥当性を統計的に検証し,実際の評価ツールによるサンプルの質的評価を行った。 また, 単語の長さ, 頻度, 音節数など, 文献の複雑さに関連する特徴と, 複雑性尺度との関係についても検討した。

Existing methods for complexity estimation are typically developed for entire documents. This limitation in scope makes them inapplicable for shorter pieces of text, such as health assessment tools. These typically consist of lists of independent sentences, all of which are too short for existing methods to apply. The choice of wording in these assessment tools is crucial, as both the cognitive capacity and the linguistic competency of the intended patient groups could vary substantially. As a first step towards creating better tools for supporting health practitioners, we develop a two-step approach for estimating lexical complexity that does not rely on any pre-annotated data. We implement our approach for the Norwegian language and verify its effectiveness using statistical testing and a qualitative evaluation of samples from real assessment tools. We also investigate the relationship between our complexity measure and certain features typically associated with complexity in the literature, such as word length, frequency, and the number of syllables.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# テキスト・ツー・イメージモデルにおける空間整合性の改善

Getting it Right: Improving Spatial Consistency in Text-to-Image Models ( http://arxiv.org/abs/2404.01197v1 )

ライセンス: Link先を確認
Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang, (参考訳) 現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。 本稿では,この制限を包括的に調査するとともに,最先端の性能を実現するためのデータセットや手法を開発する。 まず、このボトルネックを軽減するために、4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。 SPRIGHTは3倍の評価と分析のパイプラインを通じて,空間的関係の取得において既存のデータセットを大幅に改善することがわかった。 有効性を示すために、SPRIGHTの0.25%しか利用せず、空間的精度の高い画像を生成するのに22%改善し、FIDとCMMDのスコアも改善した。 第2に,多数の物体を含む画像に対するトレーニングが空間的整合性を大幅に向上させることがわかった。 特に,T2I-CompBenchの<500画像の微調整により,空間スコア0.2133で最先端のT2I-CompBenchが得られる。 最後に,テキスト・ツー・イメージ・モデルにおける空間的整合性に影響を与える因子の理解を深めると考えられる複数の研究結果について報告する。 この分野のさらなる研究を促進するために、データセットとモデルを公開しています。

One of the key shortcomings in current text-to-image (T2I) models is their inability to consistently generate images which faithfully follow the spatial relationships specified in the text prompt. In this paper, we offer a comprehensive investigation of this limitation, while also developing datasets and methods that achieve state-of-the-art performance. First, we find that current vision-language datasets do not represent spatial relationships well enough; to alleviate this bottleneck, we create SPRIGHT, the first spatially-focused, large scale dataset, by re-captioning 6 million images from 4 widely used vision datasets. Through a 3-fold evaluation and analysis pipeline, we find that SPRIGHT largely improves upon existing datasets in capturing spatial relationships. To demonstrate its efficacy, we leverage only ~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially accurate images while also improving the FID and CMMD scores. Secondly, we find that training on images containing a large number of objects results in substantial improvements in spatial consistency. Notably, we attain state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by fine-tuning on <500 images. Finally, through a set of controlled experiments and ablations, we document multiple findings that we believe will enhance the understanding of factors that affect spatial consistency in text-to-image models. We publicly release our dataset and model to foster further research in this area.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# マルチアーマッド帯域問題改善のためのニアタイト近似保証

Nearly-tight Approximation Guarantees for the Improving Multi-Armed Bandits Problem ( http://arxiv.org/abs/2404.01198v1 )

ライセンス: Link先を確認
Avrim Blum, Kavya Ravichandran, (参考訳) 改良されたマルチアームバンディット問題に対して,上と下の境界をほぼ8つ与える。 この問題の例としては、$k$のアームがあり、それぞれの報酬関数は凹凸であり、腕が引き抜かれた回数の関数が増加する。 任意のランダム化オンラインアルゴリズムに対して、最適報酬に対して少なくとも$\Omega(\sqrt{k})$近似係数を負わなければならない事例が存在することを示す。 次に、あらかじめ最適なアームで達成可能な最大報酬が与えられると、$O(\sqrt{k})$近似係数を保証するランダム化オンラインアルゴリズムを提供する。 次に、この仮定を余分な$O(\log k)$近似係数のコストで除去する方法を示し、全体的な$O(\sqrt{k} \log k)$近似を最適に対して達成する。

We give nearly-tight upper and lower bounds for the improving multi-armed bandits problem. An instance of this problem has $k$ arms, each of whose reward function is a concave and increasing function of the number of times that arm has been pulled so far. We show that for any randomized online algorithm, there exists an instance on which it must suffer at least an $\Omega(\sqrt{k})$ approximation factor relative to the optimal reward. We then provide a randomized online algorithm that guarantees an $O(\sqrt{k})$ approximation factor, if it is told the maximum reward achievable by the optimal arm in advance. We then show how to remove this assumption at the cost of an extra $O(\log k)$ approximation factor, achieving an overall $O(\sqrt{k} \log k)$ approximation relative to optimal.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# 長距離二種原子干渉計における超微細基底状態交換法を用いた二次ゼーマン効果による系統誤差の評価

Evaluation of the systematic error induced by quadratic Zeeman effect using hyperfine ground state exchange method in a long-baseline dual-species atom interferometer ( http://arxiv.org/abs/2404.01199v1 )

ライセンス: Link先を確認
Yu-Hang Ji, Chuan He, Si-Tong Yan, Jun-Jie Jiang, Jia-Qi Lei, Lu Zhou, Lin Zhou, Xi Chen, Jin Wang, Ming-Sheng Zhan, (参考訳) 二次ゼーマン効果によって誘導される系統的誤差は原子干渉計では無視できず、正確に評価されなければならない。 ゼーマン効果によって誘導される位相シフトを理論的に解析し,2次ゼーマン効果による長基線$^{85}$Rb-$^{87}$Rb二種原子干渉計の系統的誤差を評価するために超微細基底状態交換法(HGSE)を用いる。 干渉領域における絶対磁場のマッピングと異なるバイアス場での位相測定を行う2つの評価法と比較して, HGSE法は, 周囲磁場の緩やかなドリフトや超微粒地盤状態に関係のない系統的効果の場合に, リアルタイムで系統的誤差を得ることができた。 また,HGSE法の有効性を検証するために,10-11$レベルの精度で3つの手法の相互検査と一貫した結果を得るために,マッピング磁場法とバイアス場法を独立に変調した。 HGSE法は、等値原理試験などの長基準原子干渉計に基づく精度測定において、2次ゼーマン効果による系統的誤差の評価と抑制に有用である。

The systematic error induced by the quadratic Zeeman effect is non-negligible in atom interferometers and must be precisely evaluated. We theoretically analyze the phase shift induced by the Zeeman effect, and use a hyperfine ground state exchange (HGSE) method to evaluate the systematic error in the long-baseline $^{85}$Rb-$^{87}$Rb dual-species atom interferometer due to the quadratic Zeeman effect. Compared to the two evaluation methods, mapping the absolute magnetic field in the interference region and performing phase measurements at different bias fields, the HGSE method could obtain the systematic error in real time in case of slow drifts of either the ambient magnetic field or other systematic effects irrelevant to the hyperfine ground states. To validate the effectiveness of the HGSE method, we also employ the mapping magnetic field method and modulating bias field method independently to cross-check and yield consistent results of three methods within an accuracy of $10^{-11}$ level. The HGSE method is helpful in evaluating and suppressing the quadratic Zeeman-effect-induced systematic error in long-baseline atom interferometer-based precision measurements, such as equivalence principle tests.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# 大規模非凸確率制約分布ロバスト最適化

Large-Scale Non-convex Stochastic Constrained Distributionally Robust Optimization ( http://arxiv.org/abs/2404.01200v1 )

ライセンス: Link先を確認
Qi Zhang, Yi Zhou, Ashley Prater-Bennette, Lixin Shen, Shaofeng Zou, (参考訳) 分散ロバスト最適化(DRO)は、データ分散シフトに対してロバストモデルをトレーニングするための強力なフレームワークである。 本稿では、ロバスト性レベルを明確に評価した制約付きDROに焦点を当てる。 制約付きDROの既存の研究は、主に凸損失関数に注目し、非凸損失関数(例えばニューラルネットワーク)の実用的で挑戦的なケースを除外している。 本稿では,非凸制約DROに対する確率的アルゴリズムとその性能解析について述べる。 各繰り返しにおける確率的アルゴリズムの計算複雑性は、全体のデータセットサイズに依存しないので、大規模アプリケーションに適している。 我々は、特別な場合として$\chi^2$-divergencesを含む一般的なCressie-Read族分岐定義の不確実性集合に焦点を当てる。 計算複雑性が$\mathcal O(\epsilon^{-3k_*-5})$, $k_*$はCressie-Read分散のパラメータであることを示す。 その結果,本手法は既存の手法よりも優れていることがわかった。 また,本手法はCVaRDROのスムーズな条件値にも適用可能である。

Distributionally robust optimization (DRO) is a powerful framework for training robust models against data distribution shifts. This paper focuses on constrained DRO, which has an explicit characterization of the robustness level. Existing studies on constrained DRO mostly focus on convex loss function, and exclude the practical and challenging case with non-convex loss function, e.g., neural network. This paper develops a stochastic algorithm and its performance analysis for non-convex constrained DRO. The computational complexity of our stochastic algorithm at each iteration is independent of the overall dataset size, and thus is suitable for large-scale applications. We focus on the general Cressie-Read family divergence defined uncertainty set which includes $\chi^2$-divergences as a special case. We prove that our algorithm finds an $\epsilon$-stationary point with a computational complexity of $\mathcal O(\epsilon^{-3k_*-5})$, where $k_*$ is the parameter of the Cressie-Read divergence. The numerical results indicate that our method outperforms existing methods.} Our method also applies to the smoothed conditional value at risk (CVaR) DRO.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# 経路ベル試験に基づくデバイス非依存量子鍵分布

Device-independent quantum key distribution based on routed Bell tests ( http://arxiv.org/abs/2404.01202v1 )

ライセンス: Link先を確認
Tristan Le Roy-Deloison, Edwin Peter Lobo, Jef Pauwels, Stefano Pironio, (参考訳) 光子損失は、デバイス非依存量子鍵分布(DIQKD)の完全なフォトニック実装の主な障害である。 最近の研究により、ルート化されたベルのシナリオは、長距離量子相関の証明における検出の非効率性を高めることを示し、ルーティングされたセットアップに基づいてDIQKDプロトコルを検証した。 これらのプロトコルでは、テストラウンドのいくつかでは、ソースからの光子は、アクティブに制御されたスイッチによって、遠方ではなく近くのテストデバイスにルーティングされる。 非可換多項式最適化とBrown-Fawzi-Fazwi法を用いて、これらのプロトコルのセキュリティを分析し、鍵レートの低い境界を計算する方法を示す。 我々は、CHSHやBB84の相関に基づいて、いくつかの単純な2ビットルーティングDIQKDプロトコルの漸近鍵レートの低い値を決定し、それらの性能を標準プロトコルと比較する。 DIQKDプロトコルをルーティングした理想的な場合、検出効率の要件は、未処理のプロトコルと比較して最大で$\sim 30\%の精度で大幅に改善できることがわかった。 特に、ルーティングされたBB84プロトコルは、2つの信頼できない測定を特徴とするQKDプロトコルの最低しきい値である、検出効率が50\%以下の正の鍵レートを達成する。 しかし, ノイズや損失に非常に敏感で, 追加試験装置を含む短距離相関に影響を及ぼすという利点がある。

Photon losses are the main obstacle to fully photonic implementations of device-independent quantum key distribution (DIQKD). Motivated by recent work showing that routed Bell scenarios offer increased robustness to detection inefficiencies for the certification of long-range quantum correlations, we investigate DIQKD protocols based on a routed setup. In these protocols, in some of the test rounds, photons from the source are routed by an actively controlled switch to a nearby test device instead of the distant one. We show how to analyze the security of these protocols and compute lower bounds on the key rates using non-commutative polynomial optimization and the Brown-Fawzi-Fazwi method. We determine lower bounds on the asymptotic key rates of several simple two-qubit routed DIQKD protocols based on CHSH or BB84 correlations and compare their performance to standard protocols. We find that in an ideal case routed DIQKD protocols can significantly improve detection efficiency requirements, by up to $\sim 30\%$, compared to their non-routed counterparts. Notably, the routed BB84 protocol achieves a positive key rate with a detection efficiency as low as $50\%$ for the distant device, the minimal threshold for any QKD protocol featuring two untrusted measurements. However, the advantages we find are highly sensitive to noise and losses affecting the short-range correlations involving the additional test device.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# 拡散モデルによる映像補間

Video Interpolation with Diffusion Models ( http://arxiv.org/abs/2404.01203v1 )

ライセンス: Link先を確認
Siddhant Jain, Daniel Watson, Eric Tabellion, Aleksander Hołyński, Ben Poole, Janne Kontkanen, (参考訳) 本稿では,ビデオ補間のための生成モデルであるVIDIMについて述べる。 VIDIMは、入力データに見えない高忠実性を実現し、動きを生成するため、まずカスケード拡散モデルを用いて、低解像度でターゲット映像を生成し、次に低解像度で生成された映像に条件付けされた高解像度映像を生成する。 我々は、VIDIMと従来の映像補間手法を比較し、その動作が複雑、非線形、曖昧である場合、VIDIMがこのようなケースを容易に扱える場合において、そのような動作がいかに失敗するかを実証する。 さらに,開始フレームと終了フレームの分類器フリーガイダンスと,高解像度フレームの超解像モデルをパラメータを加味せずに条件付けすることで,高忠実度結果の解放を図っている。 VIDIMは、生成するすべてのフレームを共同でノイズ化し、魅力的な結果を得るためには拡散モデル当たり10億のパラメータを必要とせず、拡張性とより大きなパラメータ数での質の向上を享受しているため、サンプリングは高速である。

We present VIDIM, a generative model for video interpolation, which creates short videos given a start and end frame. In order to achieve high fidelity and generate motions unseen in the input data, VIDIM uses cascaded diffusion models to first generate the target video at low resolution, and then generate the high-resolution video conditioned on the low-resolution generated video. We compare VIDIM to previous state-of-the-art methods on video interpolation, and demonstrate how such works fail in most settings where the underlying motion is complex, nonlinear, or ambiguous while VIDIM can easily handle such cases. We additionally demonstrate how classifier-free guidance on the start and end frame and conditioning the super-resolution model on the original high-resolution frames without additional parameters unlocks high-fidelity results. VIDIM is fast to sample from as it jointly denoises all the frames to be generated, requires less than a billion parameters per diffusion model to produce compelling results, and still enjoys scalability and improved quality at larger parameter counts.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# ファインライン:ダウンストリーム能力分析による大規模言語モデルの事前学習

The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis ( http://arxiv.org/abs/2404.01204v1 )

ライセンス: Link先を確認
Chen Yang, Junzhuo Li, Xinyao Niu, Xinrun Du, Songyang Gao, Haoran Zhang, Zhaoliang Chen, Xingwei Qu, Ruibin Yuan, Yizhi Li, Jiaheng Liu, Stephen W. Huang, Shawn Yue, Wenhu Chen, Jie Fu, Ge Zhang, (参考訳) 最終的なモデルパフォーマンスを反映した初期段階のメトリクスを明らかにすることは、大規模な事前トレーニングのコア原則のひとつです。 既存のスケーリング法則では,事前学習損失とトレーニングフロップの相関関係が示されており,これは大規模言語モデルにおける現在のトレーニング状態の重要な指標となっている。 しかし、この原則はトレーニングデータに対するモデルの圧縮特性のみに焦点を当てており、結果として下流タスクの能力改善と矛盾する。 いくつかの追従的な研究は、スケーリング法則をより複雑なメトリクス(ハイパーパラメータなど)に拡張しようとしたが、事前訓練中に様々な能力の動的差異を包括的に分析することはできなかった。 上記の制約に対処するため,本研究では,様々な事前学習中間チェックポイントにおけるモデル機能の包括的比較を行う。 この分析により、特定の下流メトリクスが、最大67億のパラメータを含む、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認した。 コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。 このイニシアチブは、研究コミュニティに貴重なリソースを提供し、オープンソース研究者によるLLM事前学習の検証と探索を容易にする。 さらに、異なるモデルと能力のパフォーマンス比較や、異なるトレーニングフェーズのための重要なメトリクスの授業など、実証的な要約も提供します。 これらの知見に基づき、我々は最適化状態を評価するためのよりユーザフレンドリな戦略を提供し、安定した事前学習プロセスを確立するためのガイダンスを提供する。

Uncovering early-stage metrics that reflect final model performance is one core principle for large-scale pretraining. The existing scaling law demonstrates the power-law correlation between pretraining loss and training flops, which serves as an important indicator of the current training state for large language models. However, this principle only focuses on the model's compression properties on the training data, resulting in an inconsistency with the ability improvements on the downstream tasks. Some follow-up works attempted to extend the scaling-law to more complex metrics (such as hyperparameters), but still lacked a comprehensive analysis of the dynamic differences among various capabilities during pretraining. To address the aforementioned limitations, this paper undertakes a comprehensive comparison of model capabilities at various pretraining intermediate checkpoints. Through this analysis, we confirm that specific downstream metrics exhibit similar training dynamics across models of different sizes, up to 67 billion parameters. In addition to our core findings, we've reproduced Amber and OpenLLaMA, releasing their intermediate checkpoints. This initiative offers valuable resources to the research community and facilitates the verification and exploration of LLM pretraining by open-source researchers. Besides, we provide empirical summaries, including performance comparisons of different models and capabilities, and tuition of key metrics for different training phases. Based on these findings, we provide a more user-friendly strategy for evaluating the optimization state, offering guidance for establishing a stable pretraining process.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# サイバーレジリエンスの基礎:ゲーム,制御,学習理論の関連性

Foundations of Cyber Resilience: The Confluence of Game, Control, and Learning Theories ( http://arxiv.org/abs/2404.01205v1 )

ライセンス: Link先を確認
Quanyan Zhu, (参考訳) サイバーレジリエンス(サイバーレジリエンス)は、サイバーセキュリティの補完的な概念であり、予防が難しいサイバー脅威の準備、対応、回復に焦点を当てている。 組織は、進化するサイバー脅威の状況において、このような脅威に直面している。 サイバーレジリエンスの基礎を理解し確立することは、サイバーリスク評価、緩和政策評価、リスクインフォームド・ディフェンス設計に対する定量的かつ体系的なアプローチを提供する。 サイバーリスクに対するシステム科学的見解は、全体論的かつシステムレベルの解決策を提供する。 この章は、サイバーリスクに対する体系的な見解から始まり、ゲーム理論、制御理論、学習理論の融合を示します。 ゲームおよび制御理論の手法は、ディフェンダーとアタッカーの間の戦略的および動的相互作用を捉えるための一連のモデリングフレームワークを提供する。 コントロールと学習のフレームワークが組み合わさって、脅威に対する自律的かつ適応的な応答を可能にする、フィードバック駆動のメカニズムを提供する。 ゲームと学習のフレームワークは、敵対的な行動やレジリエントな戦略について積極的に推論するための、データ駆動のアプローチを提供する。 これら3つの組み合わせは、サイバー・レジリエンスの分析と設計の理論的基礎を成している。 この章は、最近の交差点における進歩として、動的非対称ゲーム、移動地平線制御、客観学習、メタラーニングなど、様々な理論パラダイムを提示している。 この章は、サイバーレジリエンスにおけるニューロシンボリックラーニングの役割と基礎モデルとゲームモデルとの相乗効果の今後の方向性と議論で締めくくります。

Cyber resilience is a complementary concept to cybersecurity, focusing on the preparation, response, and recovery from cyber threats that are challenging to prevent. Organizations increasingly face such threats in an evolving cyber threat landscape. Understanding and establishing foundations for cyber resilience provide a quantitative and systematic approach to cyber risk assessment, mitigation policy evaluation, and risk-informed defense design. A systems-scientific view toward cyber risks provides holistic and system-level solutions. This chapter starts with a systemic view toward cyber risks and presents the confluence of game theory, control theory, and learning theories, which are three major pillars for the design of cyber resilience mechanisms to counteract increasingly sophisticated and evolving threats in our networks and organizations. Game and control theoretic methods provide a set of modeling frameworks to capture the strategic and dynamic interactions between defenders and attackers. Control and learning frameworks together provide a feedback-driven mechanism that enables autonomous and adaptive responses to threats. Game and learning frameworks offer a data-driven approach to proactively reason about adversarial behaviors and resilient strategies. The confluence of the three lays the theoretical foundations for the analysis and design of cyber resilience. This chapter presents various theoretical paradigms, including dynamic asymmetric games, moving horizon control, conjectural learning, and meta-learning, as recent advances at the intersection. This chapter concludes with future directions and discussions of the role of neurosymbolic learning and the synergy between foundation models and game models in cyber resilience.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# 伝統的なモデルと大規模言語モデルのための機械学習:短い調査

Machine Unlearning for Traditional Models and Large Language Models: A Short Survey ( http://arxiv.org/abs/2404.01206v1 )

ライセンス: Link先を確認
Yi Xu, (参考訳) 個人データプライバシー規則の実装により、機械学習(ML)の分野は「忘れられる権利」という課題に直面している。 マシンアンラーニングは、データを削除し、ユーザー要求に応じてモデルへの影響を減らすことを目的として、この問題に対処する。 機械学習に広く関心が寄せられているにもかかわらず、特にLLM(Large Language Models)分野における最新の進歩に関する総合的な調査は欠落している。 この調査は、定義、分類、評価基準、および異なる環境とそのソリューションにおける課題を含む、機械学習の詳細な調査を提供することによって、このギャップを埋めることを目的としている。 具体的には,従来のモデルとLLMの両方のアンラーニングを分類・検討し,アンラーニングの有効性と効率を評価する手法と性能測定基準を提案する。 本稿では、現在の未学習手法の限界を明らかにするとともに、任意の忘れることを避けるための総合的未学習評価の重要性を強調する。 この調査は、未学習技術の重要概念を要約するだけでなく、今後の研究の目立った課題と実現可能な方向性を指摘し、この分野の学者に貴重なガイダンスを提供する。

With the implementation of personal data privacy regulations, the field of machine learning (ML) faces the challenge of the "right to be forgotten". Machine unlearning has emerged to address this issue, aiming to delete data and reduce its impact on models according to user requests. Despite the widespread interest in machine unlearning, comprehensive surveys on its latest advancements, especially in the field of Large Language Models (LLMs) is lacking. This survey aims to fill this gap by providing an in-depth exploration of machine unlearning, including the definition, classification and evaluation criteria, as well as challenges in different environments and their solutions. Specifically, this paper categorizes and investigates unlearning on both traditional models and LLMs, and proposes methods for evaluating the effectiveness and efficiency of unlearning, and standards for performance measurement. This paper reveals the limitations of current unlearning techniques and emphasizes the importance of a comprehensive unlearning evaluation to avoid arbitrary forgetting. This survey not only summarizes the key concepts of unlearning technology but also points out its prominent issues and feasible directions for future research, providing valuable guidance for scholars in the field.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# 新生児蘇生期における情報提供者注意の復号化のための視覚言語モデル

Vision-language models for decoding provider attention during neonatal resuscitation ( http://arxiv.org/abs/2404.01207v1 )

ライセンス: Link先を確認
Felipe Parodi, Jordan Matelsky, Alejandra Regla-Vargas, Elizabeth Foglia, Charis Lim, Danielle Weinberg, Konrad Kording, Heidi Herrick, Michael Platt, (参考訳) 新生児の蘇生は、複数の情報ストリームを同時に処理しなければならないプロバイダから特別な注意力を要求する。 ガゼは意思決定に強く影響を与えており、新生児蘇生中に提供者がどこに目を向けているかを理解することで、提供者のトレーニングを知らせ、リアルタイムな意思決定支援を強化し、提供室と新生児集中治療ユニット(NICU)の設計を改善することができる。 新生児提供者の視線を定量化する現在のアプローチは、スケーラビリティと実用性を制限する手動のコーディングやシミュレーションに依存している。 そこで本研究では,生中継中に記録された一対一の視点ビデオから直接,プロバイダがセマンティッククラスに目を向ける自動,リアルタイム,ディープラーニングのアプローチを提案する。 最先端のリアルタイムセグメンテーションとビジョン言語モデル(CLIP)を組み合わせることで、私たちの低ショットパイプラインは、トレーニングなしで視線目標を特定する場合に、91\%の精度で分類できる。 微調整では、視線誘導型視線変換器の性能は、視線分類の精度が98%を超え、人間のレベル精度に近づいた。 本システムは,生後新生児蘇生期における提供者注意動態の客観的定量化を可能にする。 当社のアプローチでは,既存のインフラストラクチャとシームレスに統合してデータスカース・アイ分析を行い,臨床的意思決定の理解と精査を行う新たな機会を提供する,スケーラブルなソリューションを提供しています。

Neonatal resuscitations demand an exceptional level of attentiveness from providers, who must process multiple streams of information simultaneously. Gaze strongly influences decision making; thus, understanding where a provider is looking during neonatal resuscitations could inform provider training, enhance real-time decision support, and improve the design of delivery rooms and neonatal intensive care units (NICUs). Current approaches to quantifying neonatal providers' gaze rely on manual coding or simulations, which limit scalability and utility. Here, we introduce an automated, real-time, deep learning approach capable of decoding provider gaze into semantic classes directly from first-person point-of-view videos recorded during live resuscitations. Combining state-of-the-art, real-time segmentation with vision-language models (CLIP), our low-shot pipeline attains 91\% classification accuracy in identifying gaze targets without training. Upon fine-tuning, the performance of our gaze-guided vision transformer exceeds 98\% accuracy in gaze classification, approaching human-level precision. This system, capable of real-time inference, enables objective quantification of provider attention dynamics during live neonatal resuscitation. Our approach offers a scalable solution that seamlessly integrates with existing infrastructure for data-scarce gaze analysis, thereby offering new opportunities for understanding and refining clinical decision making.
翻訳日:2024-04-03 21:55:47 公開日:2024-04-01
# SemEval-2024 Task 6 におけるAILS-NTUA:幻覚検出と解析のための効率的なモデルチューニング

AILS-NTUA at SemEval-2024 Task 6: Efficient model tuning for hallucination detection and analysis ( http://arxiv.org/abs/2404.01210v1 )

ライセンス: Link先を確認
Natalia Griogoriadou, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou, (参考訳) 本稿では,SemEval-2024 Task-6 - SHROOM, 幻覚と関連する過剰発生ミスの共有タスクについて紹介する。 参加者は、流動性増悪幻覚の症例を特定するために、二分分類の実行を依頼された。 実験では,幻覚検出の訓練済みモデルと自然言語推論(NLI)モデルを微調整した。 最も成功した戦略は、これらのモデルのアンサンブルの作成であり、それぞれモデルに依存しないデータセットで77.8%と79.9%の精度で、主催者のベースラインを上回り、競争における上位成績と対比した場合に顕著な結果が得られ、84.7%と81.3%の精度が報告された。

In this paper, we present our team's submissions for SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes. The participants were asked to perform binary classification to identify cases of fluent overgeneration hallucinations. Our experimentation included fine-tuning a pre-trained model on hallucination detection and a Natural Language Inference (NLI) model. The most successful strategy involved creating an ensemble of these models, resulting in accuracy rates of 77.8% and 79.9% on model-agnostic and model-aware datasets respectively, outperforming the organizers' baseline and achieving notable results when contrasted with the top-performing results in the competition, which reported accuracies of 84.7% and 81.3% correspondingly.
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# フォトニック量子ビットの非エルミート的一方向ルーティング

Non-Hermitian unidirectional routing of photonic qubits ( http://arxiv.org/abs/2404.01211v1 )

ライセンス: Link先を確認
En-Ze Li, Yi-Yang Liu, Ming-Xin Dong, Dong-Sheng Ding, Bao-Sen Shi, (参考訳) 効率的な量子ビット一方向ルータとスピン波ダイオードは、古典情報処理領域と量子情報処理領域の両方において重要な役割を果たす。 ここでは、多レベル中性冷媒原子が散逸性結合とコヒーレント結合の両方を媒介できることを明らかにする。 興味深いことに、このパラダイムを実験的に検討し、光量子ビット一方向ルータとスピン波ダイオードの両方として二重機能を持つシステムの合成に成功した。 場のヘリシティを操作することにより、コヒーレンス結合と散逸チャネルを効果的にバランスさせ、フォトニック量子ビットの一方向移動を確実にすることができる。 クビット忠実度は97.49%を超え、分離比は16.8\pm0.11$dB、挿入損失は0.36dB未満である。 さらに、スピン波ダイオードは、コヒーレント結合パラメータを適切に設定することにより、一方向の情報伝達を効果的に実現できることを示す。 我々の研究は、量子ネットワークにおける広範なコンポーネントの設計のための新しいアイデアを提供するだけでなく、非エルミート量子物理学、複雑な量子ネットワーク、一方向量子情報伝達の新しい可能性も開きます。

Efficient and tunable qubit unidirectional routers and spin-wave diodes play an important role in both classical and quantum information processing domains. Here, we reveal that multi-level neutral cold atoms can mediate both dissipative and coherent couplings. Interestingly, we investigate and practically implement this paradigm in experiments, successfully synthesizing a system with dual functionality as both a photonic qubit unidirectional router and a spin-wave diode. By manipulating the helicity of the field, we can effectively balance the coherence coupling and dissipative channel, thereby ensuring the unidirectional transfer of photonic qubits. The qubit fidelity exceeds 97.49%, and the isolation ratio achieves $16.8\pm0.11$ dB while the insertion loss is lower than 0.36 dB. Furthermore, we show that the spin-wave diode can effectively achieve unidirectional information transfer by appropriately setting the coherent coupling parameters. Our work not only provides new ideas for the design of extensive components in quantum networks, but also opens up new possibilities for non-Hermitian quantum physics, complex quantum networks, and unidirectional quantum information transfer.
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# 秘密共有とテレポーテーションとベルの不平等

Secret Sharing, Teleportation and Bell's Inequality ( http://arxiv.org/abs/2404.01212v1 )

ライセンス: Link先を確認
Pratishtha Abrol, Pahulpreet Singh, Indranil Chakrabarty, (参考訳) 忠実な秘密の共有と再構築のためには、独立した再構築は不可能であることが不可欠である。 この基準を満たす三部構成の国家は、秘密の共有のための潜在的資源であると言われている。 このような状態は、テレポーテーションの忠実度とベルの不等式違反の最大値に制限を課し、どちらも量子通信プロトコルにおいて重要な指標である。 本稿では, ディーラーとレシーバーが関与する3国間テレポーテーションと2国間テレポーテーションの相互関係について検討する。 さらに, 再建忠実度とベルの不平等振動の両部値との相関について検討した。 本研究の目的は,これらの接続を解析することにより,最大テレポーテーション忠実度やベルの不平等振動値による制約下での最大再生忠実度を確認することである。 量子通信プロトコルの基本的限界、特にセキュアな情報伝送の領域に関する貴重な洞察を提供する。

For faithful secret sharing and reconstruction, it is vital that independent reconstruction is not possible. A tripartite state that satisfies this criterion is said to be a potential resource for secret sharing. Such a state imposes restrictions on the maximum values of teleportation fidelity and Bell's Inequality Violation achieved, both being crucial metrics in quantum communication protocols. This paper explores the link between reconstruction fidelity of a three-party state and two bipartite teleportation fidelities involving the dealer and receivers. Additionally, it investigates the correlation between the reconstruction fidelity and the bipartite values of Bell's Inequality Violation observable among the same parties. By analyzing these connections, this paper aims to ascertain the maximum achievable reconstruction fidelity under the constraints posed by the maximum teleportation fidelity or Bell's Inequality Violation value. In doing so, it provides valuable insights into the fundamental limits of quantum communication protocols, particularly in the realm of secure information transmission.
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# サブポピュレーションシフトによる新しいノードカテゴリー検出

Novel Node Category Detection Under Subpopulation Shift ( http://arxiv.org/abs/2404.01216v1 )

ライセンス: Link先を確認
Hsing-Huan Chung, Shravan Chaudhari, Yoav Wald, Xing Han, Joydeep Ghosh, (参考訳) 実世界のグラフデータでは、新しいカテゴリの出現や既存のカテゴリの相対比の変化など、分布シフトが様々な方法で現れる。 安全性や洞察発見の目的のために、そのような分布シフトの下で、新しいカテゴリのノードを検出することがしばしば重要である。 本稿では,Recall-Constrained Optimization with Selective Link Prediction (RECO-SLIP)を提案する。 ReCO-SLIPは、リコール制約付き学習フレームワークとサンプル効率のよいリンク予測機構を統合することにより、サブポピュレーションシフトに対するレジリエンスの2つの課題と、グラフ構造を効果的に活用する。 複数のグラフデータセットにまたがる広範な経験的評価は,既存の手法よりもRECO-SLIPの優れた性能を示す。

In real-world graph data, distribution shifts can manifest in various ways, such as the emergence of new categories and changes in the relative proportions of existing categories. It is often important to detect nodes of novel categories under such distribution shifts for safety or insight discovery purposes. We introduce a new approach, Recall-Constrained Optimization with Selective Link Prediction (RECO-SLIP), to detect nodes belonging to novel categories in attributed graphs under subpopulation shifts. By integrating a recall-constrained learning framework with a sample-efficient link prediction mechanism, RECO-SLIP addresses the dual challenges of resilience against subpopulation shifts and the effective exploitation of graph structure. Our extensive empirical evaluation across multiple graph datasets demonstrates the superior performance of RECO-SLIP over existing methods.
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# グラフ畳み込みネットワークへの領域微分方程式の組み込みによる一般化離散化の低減

Incorporating Domain Differential Equations into Graph Convolutional Networks to Lower Generalization Discrepancy ( http://arxiv.org/abs/2404.01217v1 )

ライセンス: Link先を確認
Yue Sun, Chao Chen, Yuesheng Xu, Sihong Xie, Rick S. Blum, Parv Venkitasubramaniam, (参考訳) 時系列予測における精度と堅牢性の両立は、都市計画からパンデミック管理まで、多くの応用において重要である。 すべての時空間パターンが適切に表現された十分なトレーニングデータによって、既存のディープラーニングモデルは合理的に正確な予測を行うことができる。 しかし、既存の手法は、テストデータ(例:自然災害後の交通パターン)と比較して、異なる状況(例:日常の交通パターン)からトレーニングデータが引き出されると失敗する。 このような問題は通常、領域の一般化の下に分類される。 本研究では、時空間予測の文脈において、この課題に対処する一つの方法は、領域微分方程式をグラフ畳み込みネットワーク(GCN)に組み込むことであることを示す。 このような領域微分方程式を包含したGCNが、ベースライン領域に依存しないモデルと比較して、ミスマッチしたトレーニングやテストデータに対して堅牢である条件を理論的に導出する。 本稿では,交通速度の進化に微分方程式を組み込んだリアクション・ディフュージョングラフ畳み込みネットワーク (RDGCN) と,病気伝播モデルを組み込んだSusceptible-Infectious-Recovered Graph Convolutional Network (SIRGCN) という2つのドメイン差分型インフォームドネットワークを提案する。 RDGCNとSIRGCNはどちらも信頼性と解釈可能な領域微分方程式に基づいており、モデルが目に見えないパターンに一般化することができる。 RDGCNとSIRGCNは、最先端のディープラーニング手法よりも、ミスマッチしたテストデータの方が堅牢であることを示す。

Ensuring both accuracy and robustness in time series prediction is critical to many applications, ranging from urban planning to pandemic management. With sufficient training data where all spatiotemporal patterns are well-represented, existing deep-learning models can make reasonably accurate predictions. However, existing methods fail when the training data are drawn from different circumstances (e.g., traffic patterns on regular days) compared to test data (e.g., traffic patterns after a natural disaster). Such challenges are usually classified under domain generalization. In this work, we show that one way to address this challenge in the context of spatiotemporal prediction is by incorporating domain differential equations into Graph Convolutional Networks (GCNs). We theoretically derive conditions where GCNs incorporating such domain differential equations are robust to mismatched training and testing data compared to baseline domain agnostic models. To support our theory, we propose two domain-differential-equation-informed networks called Reaction-Diffusion Graph Convolutional Network (RDGCN), which incorporates differential equations for traffic speed evolution, and Susceptible-Infectious-Recovered Graph Convolutional Network (SIRGCN), which incorporates a disease propagation model. Both RDGCN and SIRGCN are based on reliable and interpretable domain differential equations that allow the models to generalize to unseen patterns. We experimentally show that RDGCN and SIRGCN are more robust with mismatched testing data than the state-of-the-art deep learning methods.
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# 医師研究活動における電子健康記録からの疾患データ抽出支援システムの構築に向けて

Towards System Modelling to Support Diseases Data Extraction from the Electronic Health Records for Physicians Research Activities ( http://arxiv.org/abs/2404.01218v1 )

ライセンス: Link先を確認
Bushra F. Alsaqer, Alaa F. Alsaqer, Amna Asif, (参考訳) エレクトロニック・ヘルス・レコーズ(EHR)の使用は過去15年間で劇的に増加しており、データ・オド患者を管理する重要な情報源と考えられている。 EHRは、世界中の患者の疾患診断と人口統計の主要な情報源である。 したがって、データは研究などの二次的なタスクに利用することができる。 本研究の目的は、特定の人口に対する疾患統計のモニタリングなど、研究活動に利用できるデータを提供することである。 その結果、研究者は対象グループの行動や生活習慣の病因を検出することができる。 EHRシステムの制限の1つは、データは標準フォーマットではなく様々な形式で利用できることである。 そのため、まず疾患や人口統計データの名称を標準化した1つの形式に変換し、研究活動に活用することが求められている。 大量のEHRが利用可能であり、標準化問題を解決するには、いくつかの最適化されたテクニックが必要である。 EHRシステムから抽出した手動EHRデータセットを用いた。 本アプリケーションは, EHR からデータセットをアップロードし,それを ICD-10 符号化システムに変換し,標準化問題を解決する。 そこでまず、事前処理、アノテーション、データ変換のステップを適用して標準形式に変換します。 データ前処理は、人口統計形式を正規化するために適用される。 アノテーションのステップでは、テキストから病気を認識するために機械学習モデルが使用される。 さらに、トランスフォーミングステップは、病気名をICD-10符号化フォーマットに変換する。 このモデルは,病状認識と利用可能な辞書ベースシステム(MetaMap)を比較し,手動で評価した。 提案した機械学習モデルの精度は81%であり、MetaMapの精度は67%を上回った。 本稿では,研究活動を支援するためのEHRデータ抽出のためのシステムモデリングに貢献する。

The use of Electronic Health Records (EHRs) has increased dramatically in the past 15 years, as, it is considered an important source of managing data od patients. The EHRs are primary sources of disease diagnosis and demographic data of patients worldwide. Therefore, the data can be utilized for secondary tasks such as research. This paper aims to make such data usable for research activities such as monitoring disease statistics for a specific population. As a result, the researchers can detect the disease causes for the behavior and lifestyle of the target group. One of the limitations of EHRs systems is that the data is not available in the standard format but in various forms. Therefore, it is required to first convert the names of the diseases and demographics data into one standardized form to make it usable for research activities. There is a large amount of EHRs available, and solving the standardizing issues requires some optimized techniques. We used a first-hand EHR dataset extracted from EHR systems. Our application uploads the dataset from the EHRs and converts it to the ICD-10 coding system to solve the standardization problem. So, we first apply the steps of pre-processing, annotation, and transforming the data to convert it into the standard form. The data pre-processing is applied to normalize demographic formats. In the annotation step, a machine learning model is used to recognize the diseases from the text. Furthermore, the transforming step converts the disease name to the ICD-10 coding format. The model was evaluated manually by comparing its performance in terms of disease recognition with an available dictionary-based system (MetaMap). The accuracy of the proposed machine learning model is 81%, that outperformed MetaMap accuracy of 67%. This paper contributed to system modelling for EHR data extraction to support research activities.
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# 画像からのオブジェクト操作のためのエンティティ中心強化学習

Entity-Centric Reinforcement Learning for Object Manipulation from Pixels ( http://arxiv.org/abs/2404.01220v1 )

ライセンス: Link先を確認
Dan Haramati, Tal Daniel, Aviv Tamar, (参考訳) 物体を操作することは人間の知能の目印であり、ロボット工学のような分野において重要な課題である。 原則として、強化学習(RL)はオブジェクト操作を学習するための一般的なアプローチを提供する。 しかし、実際には、特に生画像観察から学ぶ場合、次元性の呪いのため、RLエージェントにとっていくつかの対象を持つドメインは困難である。 本研究では、複数のオブジェクトとその相互作用を表現するのに適した視覚的RLのための構造化されたアプローチを提案し、それを用いて複数のオブジェクトの目標条件による操作を学習する。 私たちの方法のキーとなるのは、オブジェクト間の依存関係(例えば、ある順序でオブジェクトを移動させる)でゴールを処理できることです。 さらに,3つの対象から学習するが,10以上の対象で類似タスクに一般化するエージェントについて,理論的結果に基づいて,学習エージェントの一般化能力とアーキテクチャを関連づける。 ビデオとコードはプロジェクトのWebサイトで公開されている。

Manipulating objects is a hallmark of human intelligence, and an important task in domains such as robotics. In principle, Reinforcement Learning (RL) offers a general approach to learn object manipulation. In practice, however, domains with more than a few objects are difficult for RL agents due to the curse of dimensionality, especially when learning from raw image observations. In this work we propose a structured approach for visual RL that is suitable for representing multiple objects and their interaction, and use it to learn goal-conditioned manipulation of several objects. Key to our method is the ability to handle goals with dependencies between the objects (e.g., moving objects in a certain order). We further relate our architecture to the generalization capability of the trained agent, based on a theoretical result for compositional generalization, and demonstrate agents that learn with 3 objects but generalize to similar tasks with over 10 objects. Videos and code are available on the project website: https://sites.google.com/view/entity-centric-rl
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# 自由電子と光子の間の量子結合の上界

Upper bound for the quantum coupling between free electrons and photons ( http://arxiv.org/abs/2404.01221v1 )

ライセンス: Link先を確認
Zhexin Zhao, (参考訳) 自由電子と光子の間の量子相互作用は、自由電子ベースの光源と自由電子量子光学応用の基礎である。 自由電子と光子の間の大きな結合が一般に望まれる。 この写本では、自由電子と光子の間の量子結合の上限について研究する。 我々の研究は、自由電子と光子との強い結合に到達するためのガイダンスを提供する。

The quantum interaction between free electrons and photons is fundamental to free-electron based light sources and free-electron quantum optics applications. A large coupling between free electrons and photons is generally desired. In this manuscript, I study the upper bound for the quantum coupling between free electrons and photons. Our study provides guidance to reach the strong coupling between free electrons and photons.
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# 特徴スプラッティング:言語駆動物理に基づくシーン合成と編集

Feature Splatting: Language-Driven Physics-Based Scene Synthesis and Editing ( http://arxiv.org/abs/2404.01223v1 )

ライセンス: Link先を確認
Ri-Zhao Qiu, Ge Yang, Weijia Zeng, Xiaolong Wang, (参考訳) 3Dガウスプリミティブを用いたシーン表現は、静的および動的3Dシーンの外観をモデル化する上で優れた結果をもたらした。 しかし、多くのグラフィックスアプリケーションは、オブジェクトの外観と物理的特性の両方を操作できることを要求する。 本稿では,物理に基づく動的シーン合成を,自然言語を基盤とした視覚言語基盤モデルからリッチなセマンティクスと統合する手法であるFeature Splattingを紹介する。 最初のコントリビューションは、高品質でオブジェクト中心の視覚言語機能を3Dガウスアンに蒸留する方法です。 第2のコントリビューションは、粒子ベースのシミュレータを用いて、静的なシーンから物理に基づくダイナミクスを合成する方法である。 このパイプラインで使用される重要なテクニックを整理し、自然言語に基づく外観、幾何学、材料特性、意味論の統一フォーマットとして機能を持つ3Dガウシアンを使用する際の課題と機会を説明する。 プロジェクトウェブサイト:https://feature-splatting.github.io/

Scene representations using 3D Gaussian primitives have produced excellent results in modeling the appearance of static and dynamic 3D scenes. Many graphics applications, however, demand the ability to manipulate both the appearance and the physical properties of objects. We introduce Feature Splatting, an approach that unifies physics-based dynamic scene synthesis with rich semantics from vision language foundation models that are grounded by natural language. Our first contribution is a way to distill high-quality, object-centric vision-language features into 3D Gaussians, that enables semi-automatic scene decomposition using text queries. Our second contribution is a way to synthesize physics-based dynamics from an otherwise static scene using a particle-based simulator, in which material properties are assigned automatically via text queries. We ablate key techniques used in this pipeline, to illustrate the challenge and opportunities in using feature-carrying 3D Gaussians as a unified format for appearance, geometry, material properties and semantics grounded on natural language. Project website: https://feature-splatting.github.io/
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# 多目的最適化問題における協調的パレート集合学習

Collaborative Pareto Set Learning in Multiple Multi-Objective Optimization Problems ( http://arxiv.org/abs/2404.01224v1 )

ライセンス: Link先を確認
Chikai Shang, Rongguang Ye, Jiaqi Jiang, Fangqing Gu, (参考訳) Pareto Set Learning (PSL)は、好みベクトルからPareto最適解へのマッピングを学ぶためにニューラルネットワークをトレーニングすることに焦点を当てた、多目的最適化における新たな研究領域である。 しかし、既存のPSL法は、一度に1つの多目的最適化問題(MOP)に対処することに限定されている。 複数のMOPに直面すると、この制限は大きな非効率をもたらすだけでなく、様々なMOPにまたがる潜在的なシナジーの活用にも失敗する。 本稿では,複数のMOPのパレート集合を協調的に学習するコラボレーティブ・パレート・セット・ラーニング(CoPSL)フレームワークを提案する。 CoPSLは、共有層とMOP固有のレイヤからなるアーキテクチャを採用しており、共有層は、MOP間の共通関係を協調的にキャプチャすることを目的としており、MOP固有のレイヤは、これらの関係を処理し、各MOPに対するソリューションセットを生成する。 このコラボレーティブなアプローチにより、CoPSLは複数のMOPのPareto集合を1回の実行で効率的に学習し、様々なMOP間の関係を活用できる。 これらの関係をより深く理解するために,MOP間に共有可能な表現が存在することを実験的に実証した。 これらの協調的に共有された表現を活用することで、パレート集合を近似する能力を効果的に改善することができる。 大規模な実験により、パレート集合の近似におけるCoPSLの優れた効率性とロバスト性は、様々な合成および実世界のMOPに対する最先端のアプローチと比較できる。 コードはhttps://github.com/ckshang/CoPSL.comで入手できる。

Pareto Set Learning (PSL) is an emerging research area in multi-objective optimization, focusing on training neural networks to learn the mapping from preference vectors to Pareto optimal solutions. However, existing PSL methods are limited to addressing a single Multi-objective Optimization Problem (MOP) at a time. When faced with multiple MOPs, this limitation not only leads to significant inefficiencies but also fails to exploit the potential synergies across varying MOPs. In this paper, we propose a Collaborative Pareto Set Learning (CoPSL) framework, which simultaneously learns the Pareto sets of multiple MOPs in a collaborative manner. CoPSL employs an architecture consisting of shared and MOP-specific layers, where shared layers aim to capture common relationships among MOPs collaboratively, and MOP-specific layers process these relationships to generate solution sets for each MOP. This collaborative approach enables CoPSL to efficiently learn the Pareto sets of multiple MOPs in a single run while leveraging the relationships among various MOPs. To further understand these relationships, we experimentally demonstrate that there exist shareable representations among MOPs. Leveraging these collaboratively shared representations can effectively improve the capability to approximate Pareto sets. Extensive experiments underscore the superior efficiency and robustness of CoPSL in approximating Pareto sets compared to state-of-the-art approaches on a variety of synthetic and real-world MOPs. Code is available at https://github.com/ckshang/CoPSL.
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# 安定コード技術レポート

Stable Code Technical Report ( http://arxiv.org/abs/2404.01226v1 )

ライセンス: Link先を確認
Nikhil Pinnaparaju, Reshinth Adithyan, Duy Phung, Jonathan Tow, James Baicoianu, Ashish Datta, Maksym Zhuravinskyi, Dakota Mahan, Marco Bellagente, Carlos Riquelme, Nathan Cooper, (参考訳) これは、コード補完、推論、数学、その他のソフトウェア工学ベースのタスクをターゲットにした汎用のベースコード言語モデルとして機能します。 また,Stable Code Instructという命令変種を導入し,自然なチャットインタフェースでモデルと対話し,質問応答や命令ベースのタスクを実行する。 この技術報告では、両方のモデルに繋がるデータとトレーニング手順について詳述する。 Hugging Faceはhttps://huggingface.co/stabilityai/stable-code-3bとhttps://huggingface.co/stabilityai/stable-code-instruct-3bで誰でもダウンロードできる。 本報告では,多言語プログラミングベンチマークやマルチターン対話に着目したMTベンチマークなど,モデルの徹底的な評価を行う。 リリース時点では、Stable Codeは3Bパラメータの下で最先端のオープンモデルであり、人気のあるMulti-PLベンチマークで70億と150億のパラメータのより大きなモデルと互換性がある。 Stable Code InstructはMT-Benchのコーディングタスクや、他の命令チューニングモデルと比較してMulti-PLコンプリートでも、最先端のパフォーマンスを示している。 非常に小さなサイズなので、多くのエッジデバイスでスループットの測定も行います。 さらに、いくつかの定量化されたチェックポイントをオープンソース化し、元のモデルと比較したパフォーマンス指標を提供する。

We introduce Stable Code, the first in our new-generation of code language models series, which serves as a general-purpose base code language model targeting code completion, reasoning, math, and other software engineering-based tasks. Additionally, we introduce an instruction variant named Stable Code Instruct that allows conversing with the model in a natural chat interface for performing question-answering and instruction-based tasks. In this technical report, we detail the data and training procedure leading to both models. Their weights are available via Hugging Face for anyone to download and use at https://huggingface.co/stabilityai/stable-code-3b and https://huggingface.co/stabilityai/stable-code-instruct-3b. This report contains thorough evaluations of the models, including multilingual programming benchmarks, and the MT benchmark focusing on multi-turn dialogues. At the time of its release, Stable Code is the state-of-the-art open model under 3B parameters and even performs comparably to larger models of sizes 7 billion and 15 billion parameters on the popular Multi-PL benchmark. Stable Code Instruct also exhibits state-of-the-art performance on the MT-Bench coding tasks and on Multi-PL completion compared to other instruction tuned models. Given its appealing small size, we also provide throughput measurements on a number of edge devices. In addition, we open source several quantized checkpoints and provide their performance metrics compared to the original model.
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# マスターミンドとしてのLLM:大規模言語モデルを用いた戦略的推論に関する調査

LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models ( http://arxiv.org/abs/2404.01230v1 )

ライセンス: Link先を確認
Yadong Zhang, Shaoguang Mao, Tao Ge, Xun Wang, Adrian de Wynter, Yan Xia, Wenshan Wu, Ting Song, Man Lan, Furu Wei, (参考訳) 本稿では,戦略的推論における大規模言語モデル(LLM)の現状と可能性に関する総合的な調査について述べる。 戦略的推論は、環境を理解し、他人の行動を期待するマルチエージェント間の相互作用の動的で不確実な性質に焦点をあてることによって区別される。 我々は, LLMによる戦略的推論に関連する範囲, 応用, 方法論, 評価指標について検討し, この分野の急成長と学際的アプローチによる意思決定性能の向上について考察する。 本研究の目的は、この主題に関する散在する文献を体系化し、明確化し、戦略的推論の重要性を批判的認知能力として示し、今後の研究の方向性と潜在的な改善についての洞察を提供する体系的なレビューを提供することである。

This paper presents a comprehensive survey of the current status and opportunities for Large Language Models (LLMs) in strategic reasoning, a sophisticated form of reasoning that necessitates understanding and predicting adversary actions in multi-agent settings while adjusting strategies accordingly. Strategic reasoning is distinguished by its focus on the dynamic and uncertain nature of interactions among multi-agents, where comprehending the environment and anticipating the behavior of others is crucial. We explore the scopes, applications, methodologies, and evaluation metrics related to strategic reasoning with LLMs, highlighting the burgeoning development in this area and the interdisciplinary approaches enhancing their decision-making performance. It aims to systematize and clarify the scattered literature on this subject, providing a systematic review that underscores the importance of strategic reasoning as a critical cognitive capability and offers insights into future research directions and potential improvements.
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# プライバシバックドア:事前訓練されたモデルによるメンバーシップ推論の強化

Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models ( http://arxiv.org/abs/2404.01231v1 )

ライセンス: Link先を確認
Yuxin Wen, Leo Marchyok, Sanghyun Hong, Jonas Geiping, Tom Goldstein, Nicholas Carlini, (参考訳) 小さなbespokeデータセットを使用して、大規模で事前訓練されたモデルを微調整することで、アプリケーション固有のモデルを作成するのが一般的である。 Web上でファンデーションモデルチェックポイントが広く利用できるようになると、バックドア攻撃に対する脆弱性など、かなりのリスクが生じる。 本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。 このブラックボックスのプライバシー攻撃は、モデルの微調整時に発生するプライバシー漏洩を増幅することを目的としている。被害者がバックドアモデルの微調整を行うと、トレーニングデータが通常のモデルに微調整された場合よりも大幅に高いレートでリークされる。 我々は、視覚言語モデル(CLIP)と大規模言語モデルの両方を含む様々なデータセットやモデルに対して広範な実験を行い、そのような攻撃の適用可能性と効果を実証した。 さらに、異なる微調整方法と推論戦略を用いて複数のアブレーション研究を行い、この新たな脅威を徹底的に分析する。 我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。

It is commonplace to produce application-specific models by fine-tuning large pre-trained models using a small bespoke dataset. The widespread availability of foundation model checkpoints on the web poses considerable risks, including the vulnerability to backdoor attacks. In this paper, we unveil a new vulnerability: the privacy backdoor attack. This black-box privacy attack aims to amplify the privacy leakage that arises when fine-tuning a model: when a victim fine-tunes a backdoored model, their training data will be leaked at a significantly higher rate than if they had fine-tuned a typical model. We conduct extensive experiments on various datasets and models, including both vision-language models (CLIP) and large language models, demonstrating the broad applicability and effectiveness of such an attack. Additionally, we carry out multiple ablation studies with different fine-tuning methods and inference strategies to thoroughly analyze this new threat. Our findings highlight a critical privacy concern within the machine learning community and call for a reevaluation of safety protocols in the use of open-source pre-trained models.
翻訳日:2024-04-03 21:46:03 公開日:2024-04-01
# アウト・オブ・ディストリビューション予測のための最適リッジ正規化

Optimal Ridge Regularization for Out-of-Distribution Prediction ( http://arxiv.org/abs/2404.01233v1 )

ライセンス: Link先を確認
Pratik Patil, Jin-Hong Du, Ryan J. Tibshirani, (参考訳) 本研究では, 列車分布から任意に試験分布がずれる分布予測において, 最適尾根正則化と最適尾根リスクの挙動について検討する。 我々は、共変量および回帰シフトの下で最適な正則化レベルの符号を決定する一般的な条件を確立する。 これらの条件は、列車内の共分散と信号構造との間のアライメントを捕捉し、試験データから、配電条件と比較してスターク差を明らかにする。 例えば、トレーニング特徴が等方的であったり、設計が過度なパラメータ化であっても、共変量シフトや回帰シフトの下で負の正則化レベルを最適にすることができる。 さらに、最適調整リスクは、配当外設定や負の正則化レベルよりも最適化する場合においても、データアスペクト比において単調であることが証明された。 一般に、我々の結果は、モーメント境界を除いて列車やテスト分布のモデリングの仮定を一切行わず、任意のシフトを許容し、より広い範囲の(負の)正規化レベルを許容する。

We study the behavior of optimal ridge regularization and optimal ridge risk for out-of-distribution prediction, where the test distribution deviates arbitrarily from the train distribution. We establish general conditions that determine the sign of the optimal regularization level under covariate and regression shifts. These conditions capture the alignment between the covariance and signal structures in the train and test data and reveal stark differences compared to the in-distribution setting. For example, a negative regularization level can be optimal under covariate shift or regression shift, even when the training features are isotropic or the design is underparameterized. Furthermore, we prove that the optimally-tuned risk is monotonic in the data aspect ratio, even in the out-of-distribution setting and when optimizing over negative regularization levels. In general, our results do not make any modeling assumptions for the train or the test distributions, except for moment bounds, and allow for arbitrary shifts and the widest possible range of (negative) regularization levels.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# GFLean:GFによるリーンの自動化フレームワーク

GFLean: An Autoformalisation Framework for Lean via GF ( http://arxiv.org/abs/2404.01234v1 )

ライセンス: Link先を確認
Shashank Pathak, (参考訳) 本稿では,GFLeanと呼ばれる,リーン定理証明のための自己形式化フレームワークを提案する。 GFLeanは文法的フレームワーク(GF)と呼ばれる高レベルの文法記述ツールを使用して解析と線形化を行っている。 GFLeanはHaskellで実装されている。 GFLeanの内部動作の機能を説明し、その限界について議論する。 また、ニューラルネットワークベースの翻訳プログラムとルールベースの翻訳プログラムを相互に補完し、堅牢な自動形式化フレームワークを構築する方法について論じる。

We present an autoformalisation framework for the Lean theorem prover, called GFLean. GFLean uses a high-level grammar writing tool called Grammatical Framework (GF) for parsing and linearisation. GFLean is implemented in Haskell. We explain the functionalities of GFLean, its inner working and discuss its limitations. We also discuss how we can use neural network based translation programs and rule based translation programs together complimenting each other to build robust autoformalisation frameworks.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# AURORA: 自動ニューラルスクリーン理解によるUIターゲットのナビゲーション

AURORA: Navigating UI Tarpits via Automated Neural Screen Understanding ( http://arxiv.org/abs/2404.01240v1 )

ライセンス: Link先を確認
Safwat Ali Khan, Wenyu Wang, Yiran Ren, Bin Zhu, Jiangfan Shi, Alyssa McGowan, Wing Lam, Kevin Moran, (参考訳) ソフトウェアエンジニアリングにおける10年近くの研究は、ソフトウェアエンジニアがソフトウェアプラットフォームに関連するユニークな課題を克服するのを助けるために、モバイルアプリテストを自動化することに重点を置いてきた。 この作業の多くは、アプリ画面を動的に探索するAIGツール(Automated Input Generation Tool)の形で行われています。 しかしながら、このようなツールは、特に高度なプロプライエタリなアプリにおいて、予想より低いコードカバレッジを達成するために、何度も実証されてきた。 以前の研究では、これらのカバレッジ障害の主な原因は、いわゆるターピットや、ナビゲートが難しい複雑なスクリーンに関係していることが示されています。 本稿では、AIGツールがアプリ探索中に、新しいタイプのセマンティックスクリーン理解を通じて、タルピートを効果的にナビゲートできるようにするための重要な一歩を踏み出す。 AURORAは、モバイルアプリUIに存在する視覚的およびテキスト的パターンから学習し、一般的なスクリーンデザインを自動的に検出し、それに従ってナビゲートする技術である。 AURORAのキーとなる考え方は、UIデザインのカテゴリの一般的なパターンを学習できるように、微妙なバリエーションがあるにもかかわらず、モバイルアプリのスクリーンデザインが有限であるということだ。 そのため、AURORAは、最も一般的なUIスクリーンデザインを認識できるマルチモーダルなニューラルスクリーン分類器を使用している。 画面を認識した後、フレキシブルで一般化可能なヒューリスティックのセットを適用して、画面を適切にナビゲートする。 私たちはAURORAを、以前の作業から既知のタルプを持つ12のアプリセットと、Google Playストアから最も人気のある5つのアプリセットで評価しました。 以上の結果から,AURORAはタルピートスクリーンを効果的にナビゲートでき,従来の手法よりも19.6%高い精度でタルピートを回避できることがわかった。 この改良は、AURORAのUI設計分類とヒューリスティックナビゲーション技術による。

Nearly a decade of research in software engineering has focused on automating mobile app testing to help engineers in overcoming the unique challenges associated with the software platform. Much of this work has come in the form of Automated Input Generation tools (AIG tools) that dynamically explore app screens. However, such tools have repeatedly been demonstrated to achieve lower-than-expected code coverage - particularly on sophisticated proprietary apps. Prior work has illustrated that a primary cause of these coverage deficiencies is related to so-called tarpits, or complex screens that are difficult to navigate. In this paper, we take a critical step toward enabling AIG tools to effectively navigate tarpits during app exploration through a new form of automated semantic screen understanding. We introduce AURORA, a technique that learns from the visual and textual patterns that exist in mobile app UIs to automatically detect common screen designs and navigate them accordingly. The key idea of AURORA is that there are a finite number of mobile app screen designs, albeit with subtle variations, such that the general patterns of different categories of UI designs can be learned. As such, AURORA employs a multi-modal, neural screen classifier that is able to recognize the most common types of UI screen designs. After recognizing a given screen, it then applies a set of flexible and generalizable heuristics to properly navigate the screen. We evaluated AURORA both on a set of 12 apps with known tarpits from prior work, and on a new set of five of the most popular apps from the Google Play store. Our results indicate that AURORA is able to effectively navigate tarpit screens, outperforming prior approaches that avoid tarpits by 19.6% in terms of method coverage. The improvements can be attributed to AURORA's UI design classification and heuristic navigation techniques.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# ワイニングティケットによる言語間タスクのための小型言語モデルの有効性

Effectively Prompting Small-sized Language Models for Cross-lingual Tasks via Winning Tickets ( http://arxiv.org/abs/2404.01242v1 )

ライセンス: Link先を確認
Mingqi Li, Feng Luo, (参考訳) 現在のソフトプロンプト法は、小さなモデル(10億のパラメータ未満)に適用した場合、限られた性能が得られる。 有効性を高めるために各レイヤの事前パラメータを必要とするディーププロンプトチューニングは、慎重に設計された実装を必要とするが、小型モデルのプロンプトソリューションを提供する。 本稿では,優勝チケットとソフトプロンプトを統合したLottery Ticket Prompt-learning(LTP)フレームワークを提案する。 LTPはよりシンプルな実装を提供し、1回の実行しか必要としない。 LTPは、人間が設計した多言語テンプレートやバイリンガル辞書のような外部ツールに依存しており、低リソースのシステムでは実現できないかもしれない。 具体的には、Masked Language Modelingの目的を用いて、微調整の最中に最も変更されているパラメータのサブセットを選択する。 次に,従来の訓練済み言語モデルにソフトプロンプトをプリペイドし,下流タスクに適応する場合に,プロンプト関連パラメータとともに選択したパラメータのみを更新する。 低リソース言語を対象とする言語間タスクにおける LTP フレームワークの有効性を検証する。 提案手法は,元のパラメータの20%だけを更新することで,ベースラインを上回ります。

Current soft prompt methods yield limited performance when applied to small-sized models (fewer than a billion parameters). Deep prompt-tuning, which entails prepending parameters in each layer for enhanced efficacy, presents a solution for prompting small-sized models, albeit requiring carefully designed implementation. In this paper, we introduce the Lottery Ticket Prompt-learning (LTP) framework that integrates winning tickets with soft prompts. The LTP offers a simpler implementation and requires only a one-time execution. We demonstrate LTP on cross-lingual tasks, where prior works rely on external tools like human-designed multilingual templates and bilingual dictionaries, which may not be feasible in a low-resource regime. Specifically, we select a subset of parameters that have been changed the most during the fine-tuning with the Masked Language Modeling objective. Then, we prepend soft prompts to the original pre-trained language model and only update the selected parameters together with prompt-related parameters when adapting to the downstream tasks. We verify the effectiveness of our LTP framework on cross-lingual tasks, specifically targeting low-resource languages. Our approach outperforms the baselines by only updating 20\% of the original parameters.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# 統一的で解釈可能な感情表現と表現生成

A Unified and Interpretable Emotion Representation and Expression Generation ( http://arxiv.org/abs/2404.01243v1 )

ライセンス: Link先を確認
Reni Paskaleva, Mykyta Holubakha, Andela Ilic, Saman Motamed, Luc Van Gool, Danda Paudel, (参考訳) 幸せ、悲しみ、恐怖といった標準的な感情は理解し、注釈を付けるのが簡単である。 しかし、感情はしばしば複合的であり、例えば喜んで驚き、感情を表現するために使用されるアクションユニット(AU)にマッピングされ、カノニカルなものに自明にマッピングされる。 直感的には、感情は覚醒価(AV)モデルで表されるように連続している。 これら4つのモダリティの解釈可能な統一(Canonical, Compound, AUs, AV)は、感情の表現と理解を改善するために非常に望ましい。 しかし、現在の文献ではそのような統一は分かっていない。 本研究では,C2A2と呼ばれる解釈可能で統一された感情モデルを提案する。 また,新しい統一モデルに注釈を付けるために,非統一モデルのラベルを利用する手法を開発した。 最後に、連続数を理解するためにテキスト条件拡散モデルを修正し、統合された感情モデルを用いて連続表現を生成する。 定量的および定性的な実験を通して、生成した画像は豊かであり、微妙な表現を捉えていることを示す。 我々の研究は、他のテキスト入力と連動して表現のきめ細かい生成を可能にし、同時に感情に新しいラベル空間を提供する。

Canonical emotions, such as happy, sad, and fearful, are easy to understand and annotate. However, emotions are often compound, e.g. happily surprised, and can be mapped to the action units (AUs) used for expressing emotions, and trivially to the canonical ones. Intuitively, emotions are continuous as represented by the arousal-valence (AV) model. An interpretable unification of these four modalities - namely, Canonical, Compound, AUs, and AV - is highly desirable, for a better representation and understanding of emotions. However, such unification remains to be unknown in the current literature. In this work, we propose an interpretable and unified emotion model, referred as C2A2. We also develop a method that leverages labels of the non-unified models to annotate the novel unified one. Finally, we modify the text-conditional diffusion models to understand continuous numbers, which are then used to generate continuous expressions using our unified emotion model. Through quantitative and qualitative experiments, we show that our generated images are rich and capture subtle expressions. Our work allows a fine-grained generation of expressions in conjunction with other textual inputs and offers a new label space for emotions at the same time.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# 大規模言語モデルのための透かしの統計的枠組み:ピボット,検出効率,最適規則

A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules ( http://arxiv.org/abs/2404.01245v1 )

ライセンス: Link先を確認
Xiang Li, Feng Ruan, Huiyuan Wang, Qi Long, Weijie J. Su, (参考訳) 2022年11月にChatGPTが導入されて以来、大きな言語モデル(LLM)が生成するテキストに(ほぼ)無意味な統計的信号を埋め込む手法として、ウォーターマーキング(英語版)が使われてきた。 本稿では,透かしの統計的効率を推論し,強力な検出ルールを設計するための汎用的で柔軟な枠組みを提案する。 透かし検出の仮説テストの定式化にインスパイアされた我々のフレームワークは、LLMが検証者に提供するテキストと秘密鍵の要点を選択することで、偽陽性率(LLMが生成したテキストを誤って検出する誤り)の制御を可能にします。 次に、このフレームワークは、漸近的偽陰率のクローズドフォーム式(誤ってLLM生成したテキストをヒューマンテキストとして分類する誤り)を得ることで、透かし検出ルールのパワーを評価することができる。 我々のフレームワークは、最小限の最適化プログラムを解くために最適な検出ルールを決定する問題をさらに軽減する。 この枠組みを2つの代表的な透かし(そのうちの1つはOpenAIで内部的に実装されている)に適用し、透かしの実装の指針となるいくつかの知見を得る。 特に,これらの透かしの最適検出ルールをフレームワーク下で導出する。 これらの理論的に導かれた検出規則は競争力があり、時には数値実験によって既存の検出手法よりも高いパワーを享受することが示されている。

Since ChatGPT was introduced in November 2022, embedding (nearly) unnoticeable statistical signals into text generated by large language models (LLMs), also known as watermarking, has been used as a principled approach to provable detection of LLM-generated text from its human-written counterpart. In this paper, we introduce a general and flexible framework for reasoning about the statistical efficiency of watermarks and designing powerful detection rules. Inspired by the hypothesis testing formulation of watermark detection, our framework starts by selecting a pivotal statistic of the text and a secret key -- provided by the LLM to the verifier -- to enable controlling the false positive rate (the error of mistakenly detecting human-written text as LLM-generated). Next, this framework allows one to evaluate the power of watermark detection rules by obtaining a closed-form expression of the asymptotic false negative rate (the error of incorrectly classifying LLM-generated text as human-written). Our framework further reduces the problem of determining the optimal detection rule to solving a minimax optimization program. We apply this framework to two representative watermarks -- one of which has been internally implemented at OpenAI -- and obtain several findings that can be instrumental in guiding the practice of implementing watermarks. In particular, we derive optimal detection rules for these watermarks under our framework. These theoretically derived detection rules are demonstrated to be competitive and sometimes enjoy a higher power than existing detection approaches through numerical experiments.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# 画像は1000語を話すが、誰もが聴けるか? 文化的関連性のための翻訳画像について

An image speaks a thousand words, but can everyone listen? On translating images for cultural relevance ( http://arxiv.org/abs/2404.01247v1 )

ライセンス: Link先を確認
Simran Khanuja, Sathyanarayanan Ramamoorthy, Yueqi Song, Graham Neubig, (参考訳) マルチメディアコンテンツが盛んになると、人間の翻訳者は言葉だけでなく、同じ意味を伝えるために画像のような他のモダリティも文化的に適応することに集中するようになった。 この利点を享受するアプリケーションはいくつかあるが、機械翻訳システムは音声やテキストでの言語処理に限られている。 本研究では、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出す。 まず、そのタスクを行うために最先端の生成モデルからなる3つのパイプラインを構築します。 次に、2部評価データセットを構築します。 一 イメージごとに一つの概念に焦点をあてて、文化的に整合性のある600のイメージからなる概念 二 応用:現実世界の応用から算出した百枚の画像を含むもの 我々は,翻訳画像の多面的評価を行い,その文化的意義と保存性を評価する。 現在、画像編集モデルは、このタスクでは失敗するが、ループ内のLLMとレトリバーを活用することで改善できる。 ベストパイプラインは、より簡単なコンセプトデータセットで画像の5%しか変換できないため、アプリケーションデータセットのいくつかの国では翻訳が成功せず、タスクの難易度を強調している。 私たちのコードとデータはここでリリースされています。

Given the rise of multimedia content, human translators increasingly focus on culturally adapting not only words but also other modalities such as images to convey the same meaning. While several applications stand to benefit from this, machine translation systems remain confined to dealing with language in speech and text. In this work, we take a first step towards translating images to make them culturally relevant. First, we build three pipelines comprising state-of-the-art generative models to do the task. Next, we build a two-part evaluation dataset: i) concept: comprising 600 images that are cross-culturally coherent, focusing on a single concept per image, and ii) application: comprising 100 images curated from real-world applications. We conduct a multi-faceted human evaluation of translated images to assess for cultural relevance and meaning preservation. We find that as of today, image-editing models fail at this task, but can be improved by leveraging LLMs and retrievers in the loop. Best pipelines can only translate 5% of images for some countries in the easier concept dataset and no translation is successful for some countries in the application dataset, highlighting the challenging nature of the task. Our code and data is released here: https://github.com/simran-khanuja/image-transcreation.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# パースペクティブイメージングによるスケーラブルなシーンモデリング:物理に基づく外観と幾何学的推論

Scalable Scene Modeling from Perspective Imaging: Physics-based Appearance and Geometry Inference ( http://arxiv.org/abs/2404.01248v1 )

ライセンス: Link先を確認
Shuang Song, (参考訳) 3Dシーンモデリング技術は、地理空間工学とコンピュータ科学の基盤として機能し、自動走行、地形マッピング、ナビゲーション、仮想、拡張、混合、拡張現実(ゲームや映画産業など)など、多くのアプリケーションを駆動する。 この論文は、外観と幾何学的モデリングの両面において、3Dシーンモデリングを最先端に進める貢献のごく一部を提示する。 一般的なディープラーニング手法とは対照的に、この論文は、より単純な学習と推論タスクとともに高度な物理モデルを導入する、第一原理に従うアルゴリズムの開発を目的としている。 これらのアルゴリズムの結果は、現代の複雑なモデルに基づくディープラーニング手法では不可能な方法論的一般性を失うことなく、高精度に3Dシーンを再現するために、はるかに多くのデータを消費するプロセスを生み出す。 具体的には、物理学に基づくモデリングを通して外観と幾何学を推論する3つの新しい手法を導入する。 全体として、この論文にカプセル化された研究は、複雑なデータセットの処理における一連の方法論的な勝利を示している。 深層学習, 計算幾何学, フォトグラムメトリーの合流点をナビゲートすることにより, この研究は, 急速に発展する3次元シーン再構築の分野において, 将来の探索と実践のための堅牢な枠組みを構築した。 これらの研究の結果は、厳密な実験と既存の最先端手法との比較を通じて実証され、提案手法の有効性と拡張性を示している。

3D scene modeling techniques serve as the bedrocks in the geospatial engineering and computer science, which drives many applications ranging from automated driving, terrain mapping, navigation, virtual, augmented, mixed, and extended reality (for gaming and movie industry etc.). This dissertation presents a fraction of contributions that advances 3D scene modeling to its state of the art, in the aspects of both appearance and geometry modeling. In contrast to the prevailing deep learning methods, as a core contribution, this thesis aims to develop algorithms that follow first principles, where sophisticated physic-based models are introduced alongside with simpler learning and inference tasks. The outcomes of these algorithms yield processes that can consume much larger volume of data for highly accurate reconstructing 3D scenes at a scale without losing methodological generality, which are not possible by contemporary complex-model based deep learning methods. Specifically, the dissertation introduces three novel methodologies that address the challenges of inferring appearance and geometry through physics-based modeling. Overall, the research encapsulated in this dissertation marks a series of methodological triumphs in the processing of complex datasets. By navigating the confluence of deep learning, computational geometry, and photogrammetry, this work lays down a robust framework for future exploration and practical application in the rapidly evolving field of 3D scene reconstruction. The outcomes of these studies are evidenced through rigorous experiments and comparisons with existing state-of-the-art methods, demonstrating the efficacy and scalability of the proposed approaches.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# FireANTs: マルチスケール微分型登録のための適応リーマン最適化

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Registration ( http://arxiv.org/abs/2404.01249v1 )

ライセンス: Link先を確認
Rohit Jena, Pratik Chaudhari, James C. Gee, (参考訳) Diffomorphic Image Registrationは、画像翻訳、セグメンテーション、アトラスビルディングといった様々な画像モダリティや下流タスクの分析において重要な部分である。 最適化に基づく登録アルゴリズムは、広範囲のモダリティと取得設定において、正確性、信頼性、堅牢性の観点から時間のテストに立脚している。 しかし、これらのアルゴリズムはゆっくりと収束し、実行には極めて高価であり、その使用には学習曲線の急勾配が必要であり、そのスケーラビリティはより大きな臨床・科学研究に制限される。 本稿では,微分型画像登録のためのマルチスケール適応リーマン最適化アルゴリズムを提案する。 得られた画像量の構造的重複とランドマーク的重複を計測することにより,画像登録の精度向上を図った。 提案するフレームワークは,一貫した性能向上を実現し,既存のアルゴリズムよりも300倍から2000倍の高速化を実現した。 モジュールライブラリの設計は使いやすく、ユーザ定義のコスト関数によるカスタマイズを可能にします。

Diffeomorphic Image Registration is a critical part of the analysis in various imaging modalities and downstream tasks like image translation, segmentation, and atlas building. Registration algorithms based on optimization have stood the test of time in terms of accuracy, reliability, and robustness across a wide spectrum of modalities and acquisition settings. However, these algorithms converge slowly, are prohibitively expensive to run, and their usage requires a steep learning curve, limiting their scalability to larger clinical and scientific studies. In this paper, we develop multi-scale Adaptive Riemannian Optimization algorithms for diffeomorphic image registration. We demonstrate compelling improvements on image registration across a spectrum of modalities and anatomies by measuring structural and landmark overlap of the registered image volumes. Our proposed framework leads to a consistent improvement in performance, and from 300x up to 2000x speedup over existing algorithms. Our modular library design makes it easy to use and allows customization via user-defined cost functions.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# UniArk:デバイアスによるファクチュアル知識抽出のための一般化と一貫性の改善

UniArk: Improving Generalisation and Consistency for Factual Knowledge Extraction through Debiasing ( http://arxiv.org/abs/2404.01253v1 )

ライセンス: Link先を確認
Yijun Yang, Jie He, Pinzhen Chen, Víctor Gutiérrez-Basulto, Jeff Z. Pan, (参考訳) 近年,知識基盤としての言語モデルの可能性や,事実知識を抽出する際の重大なバイアスの存在について研究されている。 本研究は,未確認の指導者に対する実測性能に着目し,確率論的視点を用いて,知識の探索のための言語モデルにおいて,事前学習と下流学習の目的との相違点を示す。 これらの目的を同時に嫌悪することは、目に見えないプロンプトを一般化する鍵である、という仮説を立てる。 パラメータを余分に導入することなく,簡単な手法による汎用的かつ一貫した事実知識抽出のためのアダプタベースのフレームワークUniArkを提案する。 大規模な実験により、UniArkはモデルの領域外一般化と様々なプロンプト下での一貫性を大幅に改善できることが示された。 さらに,モデルの不整合性とドメイン外生成を測定するために,大規模かつ多様なデータセットであるParaTrexを構築した。 さらに、ParaTrexは、大規模な言語モデルを使用してパラフレーズデータセットを構築するための参照方法を提供している。

Several recent papers have investigated the potential of language models as knowledge bases as well as the existence of severe biases when extracting factual knowledge. In this work, we focus on the factual probing performance over unseen prompts from tuning, and using a probabilistic view we show the inherent misalignment between pre-training and downstream tuning objectives in language models for probing knowledge. We hypothesize that simultaneously debiasing these objectives can be the key to generalisation over unseen prompts. We propose an adapter-based framework, UniArk, for generalised and consistent factual knowledge extraction through simple methods without introducing extra parameters. Extensive experiments show that UniArk can significantly improve the model's out-of-domain generalisation as well as consistency under various prompts. Additionally, we construct ParaTrex, a large-scale and diverse dataset for measuring the inconsistency and out-of-domain generation of models. Further, ParaTrex offers a reference method for constructing paraphrased datasets using large language models.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# 確率勾配降下のための新しい対数ステップサイズ

New logarithmic step size for stochastic gradient descent ( http://arxiv.org/abs/2404.01257v1 )

ライセンス: Link先を確認
M. Soheil Shamaee, S. Fathi Hafshejani, Z. Saeidian, (参考訳) 本稿では,確率勾配降下法(SGD)に新たな対数ステップサイズを適用した新しい温度再起動手法を提案する。 滑らかで非凸な函数に対しては、SGD に対する$O(\frac{1}{\sqrt{T}})$収束率を確立する。 我々は、FashionMinst、~CIFAR10、CIFAR100データセット上で、新たに提案されたステップサイズの有効性を示す包括的な実装を行う。 さらに,この結果と既存の9つのアプローチを比較し,畳み込みニューラルネットワーク(CNN)モデルを用いた場合,新たな対数ステップサイズがCIFAR100データセットの精度を$0.9\%向上することを示した。

In this paper, we propose a novel warm restart technique using a new logarithmic step size for the stochastic gradient descent (SGD) approach. For smooth and non-convex functions, we establish an $O(\frac{1}{\sqrt{T}})$ convergence rate for the SGD. We conduct a comprehensive implementation to demonstrate the efficiency of the newly proposed step size on the ~FashionMinst,~ CIFAR10, and CIFAR100 datasets. Moreover, we compare our results with nine other existing approaches and demonstrate that the new logarithmic step size improves test accuracy by $0.9\%$ for the CIFAR100 dataset when we utilize a convolutional neural network (CNN) model.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# マルチセンサ地理空間基礎モデルを用いたブリジングリモートセンサ

Bridging Remote Sensors with Multisensor Geospatial Foundation Models ( http://arxiv.org/abs/2404.01260v1 )

ライセンス: Link先を確認
Boran Han, Shuai Zhang, Xingjian Shi, Markus Reichstein, (参考訳) 地理空間分析の分野では、光学技術とマイクロ波技術の両方を含むリモートセンサーの多様性は、多くの異なる観測能力を提供する。 これを認識して、4つのキーセンサモードからデータを効果的に統一するマルチセンサ地理空間基盤モデルmsGFMを提案する。 この統合は、200万のマルチセンサー画像の拡張データセットにまたがる。 msGFMは、ペアとアンペアの両方のセンサーデータの処理に長けている。 同一位置から得られるデータに対しては,マスク画像モデリングに革新的なクロスセンサ事前学習アプローチを採用し,多様なセンサからの関節表現の合成を可能にする。 4つのリモートセンサーを組み込んだmsGFMは、強力な性能を維持し、様々なセンサータイプに対応可能な包括的なモデルを形成する。 msGFMは、シングルセンサーとマルチセンサーの両方の下流タスクにおいて、高い習熟度を示した。 シーン分類、セグメンテーション、雲の除去、パンシャーピングなどがある。 我々の研究の重要な発見は、自然画像から派生した表現は、常に地理空間的リモートセンサーの特徴と相容れないということであり、この分野における既存の表現の限界を暗示している。 我々の研究は、マルチセンサー地理空間事前学習モデルを開発するためのガイドとして機能し、より高度な地理空間機能を実現するための道を開くことができる。

In the realm of geospatial analysis, the diversity of remote sensors, encompassing both optical and microwave technologies, offers a wealth of distinct observational capabilities. Recognizing this, we present msGFM, a multisensor geospatial foundation model that effectively unifies data from four key sensor modalities. This integration spans an expansive dataset of two million multisensor images. msGFM is uniquely adept at handling both paired and unpaired sensor data. For data originating from identical geolocations, our model employs an innovative cross-sensor pretraining approach in masked image modeling, enabling the synthesis of joint representations from diverse sensors. msGFM, incorporating four remote sensors, upholds strong performance, forming a comprehensive model adaptable to various sensor types. msGFM has demonstrated enhanced proficiency in a range of both single-sensor and multisensor downstream tasks. These include scene classification, segmentation, cloud removal, and pan-sharpening. A key discovery of our research is that representations derived from natural images are not always compatible with the distinct characteristics of geospatial remote sensors, underscoring the limitations of existing representations in this field. Our work can serve as a guide for developing multisensor geospatial pretraining models, paving the way for more advanced geospatial capabilities.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# FABLES:本長要約における忠実度とコンテンツ選択の評価

FABLES: Evaluating faithfulness and content selection in book-length summarization ( http://arxiv.org/abs/2404.01261v1 )

ライセンス: Link先を確認
Yekyung Kim, Yapei Chang, Marzena Karpinska, Aparna Garimella, Varun Manjunatha, Kyle Lo, Tanya Goyal, Mohit Iyyer, (参考訳) 長文大言語モデル(LLM)は、技術的に書籍長の文書(>100Kトークン)を要約することができるが、文書の長さと複雑さは、これまでのところ、忠実性のような入力依存の側面の評価を禁止している。 本稿では,SF書籍のLCM生成要約に忠実さとコンテンツ選択の大規模評価を初めて実施する。 本研究は,2023年あるいは2024年に刊行された書籍の要約に焦点をあてて,データ汚染の問題を緩和するものである。 オープンソースMixtralはGPT-3.5-Turboと同等であるのに対して、Claude-3-OpusはすべてのクローズドソースLLMを著しく上回ります。 注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。 LLMベースのオートレーダは、他の環境では事実性やコヒーレンスに信頼性があることが証明されているが、忠実な複数のLDMレーダを実装し、特に不誠実なクレームの検出に関して、人のアノテーションと強く相関するものではないことを発見した。 実験の結果,不誠実なクレームの検出は,要約評価だけでなく,長期理解のためのテストベッドとしても重要な将来方向であることが示唆された。 最後に,本書の要約における内容選択誤差を探索することにより,忠実性を超えて,重要な物語要素に関連する省略誤りの類型論を開発し,本書の終わりに生じる事象を体系的に過度に強調する。

While long-context large language models (LLMs) can technically summarize book-length documents (>100K tokens), the length and complexity of the documents have so far prohibited evaluations of input-dependent aspects like faithfulness. In this paper, we conduct the first large-scale human evaluation of faithfulness and content selection on LLM-generated summaries of fictional books. Our study mitigates the issue of data contamination by focusing on summaries of books published in 2023 or 2024, and we hire annotators who have fully read each book prior to the annotation task to minimize cost and cognitive burden. We collect FABLES, a dataset of annotations on 3,158 claims made in LLM-generated summaries of 26 books, at a cost of $5.2K USD, which allows us to rank LLM summarizers based on faithfulness: Claude-3-Opus significantly outperforms all closed-source LLMs, while the open-source Mixtral is on par with GPT-3.5-Turbo. An analysis of the annotations reveals that most unfaithful claims relate to events and character states, and they generally require indirect reasoning over the narrative to invalidate. While LLM-based auto-raters have proven reliable for factuality and coherence in other settings, we implement several LLM raters of faithfulness and find that none correlates strongly with human annotations, especially with regard to detecting unfaithful claims. Our experiments suggest that detecting unfaithful claims is an important future direction not only for summarization evaluation but also as a testbed for long-context understanding. Finally, we move beyond faithfulness by exploring content selection errors in book-length summarization: we develop a typology of omission errors related to crucial narrative elements and also identify a systematic over-emphasis on events occurring towards the end of the book.
翻訳日:2024-04-03 21:36:17 公開日:2024-04-01
# 統一量子フィボナッチ場理論のための室温超伝導体中のグラビトン縮合

Engineered Graviton Condensates in a Room-Temperature Superconductor for a Unified Quantum Fibonacci Field Theory ( http://arxiv.org/abs/2404.01262v1 )

ライセンス: Link先を確認
Yoong S. Phang, Artem V. Talanov, (参考訳) 一般相対性理論と量子力学を統一しようとする中で、重力力の量子キャリアとしての重力子の概念は、重要で証明されていない仮説である。 この研究は、革新的な環境超伝導体を通じてグラビトン凝縮への大胆なアプローチの先駆者であり、地面を破るが理論上は妥当な物理過程を通じて合成される。 近年の超伝導のブレークスルーを基礎として,高エネルギーガンマ光子を用いた希薄ボース・アインシュタイン凝縮体をフィボナッチ配列パターンで精密に制御した磁場下で作製した新しい環境超伝導体を導入する。 このプロセスは、マクロスケールでの量子コヒーレンスを利用するように設計されており、重力子凝縮の条件を満たす。 ここでは, 超伝導体内で重力と電磁力を量子レベルで統合するための重要な一歩として, グラビトン凝縮の誘導に成功したことを実証する。 この発見は、4つの基本的な相互作用を分離する伝統的な見解に反するだけでなく、量子重力の具体的な基礎を築いている。 以上の結果から, 超伝導状態を媒介とするグラビトン凝縮が, 基礎物理学の新たな側面を解き放つことを示唆した。 この重力凝縮は、量子力学と一般相対性理論の間のギャップを埋める統一場理論への重要なステップである。 この研究は理論物理学の境界を広げるだけでなく、重力と電磁力の量子的相互作用を利用した将来の技術も示唆している。 想像的かつ厳密な科学的調査を通じて、この研究は自然界の最も基本的な力を探索し統一する物理学の無限の可能性を強調している。

In the quest to unify quantum mechanics with general relativity, the concept of gravitons as quantum carriers of gravitational force stands as a pivotal yet unproven hypothesis. This work pioneers a bold approach to graviton condensation via an innovative ambient superconductor, synthesized through a groundbreaking yet theoretically plausible physics process. Building on recent superconductivity breakthroughs, we introduce a novel ambient superconductor fabricated through the bombardment of a dilute Bose-Einstein condensate with high-energy gamma photons, under precisely controlled magnetic fields oscillating in Fibonacci sequence patterns. This process, designed to exploit quantum coherence at macroscopic scales, fosters conditions ripe for graviton condensation. Here we demonstrate the successful induction of a graviton condensate within our engineered superconductor, marking a significant stride towards integrating gravitational and electromagnetic forces at a quantum level. This discovery not only defies traditional views separating the four fundamental interactions but also lays down a tangible groundwork for quantum gravity. Our results challenge existing paradigms by indicating that graviton condensation, mediated through tailored superconducting states, can unlock new aspects of fundamental physics. This graviton condensate represents a critical step towards a unified field theory, bridging the gap between quantum mechanics and general relativity. This investigation not only extends the boundaries of theoretical physics but also hints at potential future technologies harnessing the quantum interplay of gravitational and electromagnetic forces. Through imaginative yet rigorous scientific inquiry, this study underscores the limitless potential of physics to explore and unify the natural world's most fundamental forces.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# 人工知能と言語空間文書化

Artificial Intelligence and the Spatial Documentation of Languages ( http://arxiv.org/abs/2404.01263v1 )

ライセンス: Link先を確認
Hakam Ghanim, (参考訳) 技術の発展により、学際的な研究がよりアクセスしやすくなった。 特に人工知能AIのブレークスルーは、学際的および複数の学際的分野で働く研究者に大きなアドバンテージを与えている。 本稿では,AIモデル,特にGPT4とGPTデータアナリティクスの言語地図作成能力について検討する。 この研究は、最小限の地図の専門知識を持つ言語地図の作成を通じて、AIモデルが言語空間のドキュメンテーションをどのように促進するかを示すことによって、ドキュメンタリー言語学の言語地理学とAIを統合する。 本研究は,HDXおよび研究者のフィールドワークから得られたCSVファイルとGeoJSONファイルを用いて行った。 研究データは、言語分布マップを生成するために、AIモデルとのリアルタイム会話に適用される。 この研究は、高品質な静的およびインタラクティブなWebマップの生成とマップ作成プロセスの合理化における2つのAIモデル機能を強調している。 この発見は、AIが言語マップの生成と、この分野におけるAIの可能性を完全に活用するさらなる開発の必要性を示唆する分野における彼らのデータ収集において、ドキュメンタリー言語学者の作業を強化する上で、AIが有望な未来を示唆している。

The advancement in technology has made interdisciplinary research more accessible. Particularly the breakthrough in Artificial Intelligence AI has given huge advantages to researchers working in interdisciplinary and multidisciplinary fields. This study investigates the ability of AI models, particularly GPT4 and GPT Data Analyst in creating language maps for language documentation. The study Integrates documentary linguistics linguistic geography and AI by showcasing how AI models facilitate the spatial documentation of languages through the creation of language maps with minimal cartographic expertise. The study is conducted using a CSV file and a GeoJSON file both obtained from HDX and from the researchers fieldwork. The study data is then applied in realtime conversations with the AI models in order to generate the language distribution maps. The study highlights the two AI models capabilities in generating highquality static and interactive web maps and streamlining the mapmaking process, despite facing challenges like inconsistencies and difficulties in adding legends. The findings suggest a promising future for AI in generating language maps and enhancing the work of documentary linguists as they collect their data in the field pointing towards the need for further development to fully harness AI potential in this field.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# 分散量子コンピューティングの展望 単一QPUから高性能量子コンピューティングへ

Review of Distributed Quantum Computing. From single QPU to High Performance Quantum Computing ( http://arxiv.org/abs/2404.01265v1 )

ライセンス: Link先を確認
David Barral, F. Javier Cardama, Guillermo Díaz, Daniel Faílde, Iago F. Llovo, Mariamo Mussa Juane, Jorge Vázquez-Pérez, Juan Villasuso, César Piñeiro, Natalia Costas, Juan C. Pichel, Tomás F. Pena, Andrés Gómez, (参考訳) 量子コンピューティングの新たな分野は、量子力学のユニークな原理を用いて情報を処理する方法を変える可能性があることを示している。 研究者たちは、量子技術の限界を前例のないレベルに押し上げ続けているが、分散量子コンピューティングは、現在の量子システムの計算能力を高めることを目的として、明らかに探究するための道のりである。 本稿では,分散量子コンピューティング分野における現状を包括的に調査し,その基礎原理,達成の展望,課題,今後の研究に向けた有望な方向性について考察する。 量子通信プロトコルから絡み合いに基づく分散アルゴリズムに至るまで、それぞれの側面は分散量子コンピューティングのモザイクに寄与する。 我々の目的は、経験豊富な研究者やフィールド新参者に対して、徹底的な概要を提供することである。

The emerging field of quantum computing has shown it might change how we process information by using the unique principles of quantum mechanics. As researchers continue to push the boundaries of quantum technologies to unprecedented levels, distributed quantum computing raises as an obvious path to explore with the aim of boosting the computational power of current quantum systems. This paper presents a comprehensive survey of the current state of the art in the distributed quantum computing field, exploring its foundational principles, landscape of achievements, challenges, and promising directions for further research. From quantum communication protocols to entanglement-based distributed algorithms, each aspect contributes to the mosaic of distributed quantum computing, making it an attractive approach to address the limitations of classical computing. Our objective is to provide an exhaustive overview for experienced researchers and field newcomers.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# 学術論文におけるLCMの利用増加の地図化

Mapping the Increasing Use of LLMs in Scientific Papers ( http://arxiv.org/abs/2404.01268v1 )

ライセンス: Link先を確認
Weixin Liang, Yaohui Zhang, Zhengxuan Wu, Haley Lepp, Wenlong Ji, Xuandong Zhao, Hancheng Cao, Sheng Liu, Siyu He, Zhi Huang, Diyi Yang, Christopher Potts, Christopher D Manning, James Y. Zou, (参考訳) 科学出版は、研究成果を広め、協力を奨励し、再現性を奨励し、科学的知識がアクセス可能で、検証可能で、時間とともに構築されることによって科学の基礎を築き上げている。 最近、ChatGPTのような大規模言語モデル(LLM)を学術的な執筆で何人が使っているのか、そしてこのツールが地球規模の科学的実践にどの程度影響するか、という憶測が飛び交っている。 しかし,本研究では,LLMによって実質的に修正あるいは生産された学術書面の割合の正確な測定方法が欠如している。 このギャップに対処するため、2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオ誌に掲載された950,965件の論文を、人口統計学的枠組みを用いて、LLM修正コンテンツの頻度を経時的に測定した。 我々の統計的推定はコーパスレベルで動作し、個々のインスタンスの推測よりも堅牢である。 計算機科学の論文(最大17.5%)では,LLMの使用が着実に増加し,最も多く,最も速い成長が見られた。 一方、数学論文とNatureのポートフォリオでは、LLMの修正は最も少ない(最大6.3%)。 さらに,総括レベルでは,LCM修正の高度化は,先行印刷がより頻繁に投稿される論文や,より混み合った研究領域の論文,短い期間の論文に関連していることが明らかとなった。 以上の結果から, LLMは科学文献に広く用いられていることが示唆された。

Scientific publishing lays the foundation of science by disseminating research findings, fostering collaboration, encouraging reproducibility, and ensuring that scientific knowledge is accessible, verifiable, and built upon over time. Recently, there has been immense speculation about how many people are using large language models (LLMs) like ChatGPT in their academic writing, and to what extent this tool might have an effect on global scientific practices. However, we lack a precise measure of the proportion of academic writing substantially modified or produced by LLMs. To address this gap, we conduct the first systematic, large-scale analysis across 950,965 papers published between January 2020 and February 2024 on the arXiv, bioRxiv, and Nature portfolio journals, using a population-level statistical framework to measure the prevalence of LLM-modified content over time. Our statistical estimation operates on the corpus level and is more robust than inference on individual instances. Our findings reveal a steady increase in LLM usage, with the largest and fastest growth observed in Computer Science papers (up to 17.5%). In comparison, Mathematics papers and the Nature portfolio showed the least LLM modification (up to 6.3%). Moreover, at an aggregate level, our analysis reveals that higher levels of LLM-modification are associated with papers whose first authors post preprints more frequently, papers in more crowded research areas, and papers of shorter lengths. Our findings suggests that LLMs are being broadly used in scientific writings.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# 外部プライバシー漏洩解析を用いた分散協調学習フレームワーク

Decentralized Collaborative Learning Framework with External Privacy Leakage Analysis ( http://arxiv.org/abs/2404.01270v1 )

ライセンス: Link先を確認
Tsuyoshi Idé, Dzung T. Phan, Rudy Raymond, (参考訳) 本稿では,プライバシ制約下での分散マルチタスク学習における2つの方法論的進歩について述べる。 まず,従来ガウス混合モデルに限られていた協調辞書学習フレームワーク(CollabDict)を,特に異常検出に焦点をあてて,そのフレームワークに深部変分オートエンコーダ(VAE)を組み込むことにより拡張する。 VAEに基づく異常スコア関数は,非ディープモデルと同じ数学的構造を共有し,総合的な定性比較を行う。 次に,コラボディクトでトレーニングしたモデルを外部で共有する場合に,データプライバシリークを数学的に解析する。 ガウス混合体に適用されたCollabDictアプローチは、Renyi差分プライバシー基準に準拠していることを示す。 さらに,学習過程における内部プライバシー侵害を監視するための実用的な指標を提案する。

This paper presents two methodological advancements in decentralized multi-task learning under privacy constraints, aiming to pave the way for future developments in next-generation Blockchain platforms. First, we expand the existing framework for collaborative dictionary learning (CollabDict), which has previously been limited to Gaussian mixture models, by incorporating deep variational autoencoders (VAEs) into the framework, with a particular focus on anomaly detection. We demonstrate that the VAE-based anomaly score function shares the same mathematical structure as the non-deep model, and provide comprehensive qualitative comparison. Second, considering the widespread use of "pre-trained models," we provide a mathematical analysis on data privacy leakage when models trained with CollabDict are shared externally. We show that the CollabDict approach, when applied to Gaussian mixtures, adheres to a Renyi differential privacy criterion. Additionally, we propose a practical metric for monitoring internal privacy breaches during the learning process.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# 言語ガイドドメイン一般化医用画像分割

Language Guided Domain Generalized Medical Image Segmentation ( http://arxiv.org/abs/2404.01272v1 )

ライセンス: Link先を確認
Shahina Kunhimon, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, (参考訳) 単一ソースドメインの一般化(SDG)は、特にデータプライバシと取得コストの制約によって、さまざまなデータセットの可用性が制限される医療領域において、実際の臨床領域におけるより信頼性が高く一貫性のあるイメージセグメンテーションを約束する。 視覚的特徴のみにのみ依存することで、様々な領域に効果的に適応するモデルの能力が損なわれる。 テキスト機能を視覚的特徴と一緒に組み込むことは、ピクセルレベルの情報を超えて貴重なコンテキストを提供するため、モデルによるデータの理解を強化するための潜在的な解決策である。 解剖学的構造、その外観、様々な画像モダリティのバリエーションを記述したテキストの手がかりは、ドメイン適応においてモデルを導くことができ、最終的にはより堅牢で一貫したセグメンテーションに寄与する。 本稿では,テキストエンコーダの特徴に導かれるコントラスト学習機構を取り入れて,より堅牢な特徴表現を学習することで,テキスト情報を明確に活用する手法を提案する。 我々は,テキスト誘導型コントラスト機能アライメント手法の有効性を,異なるセグメンテーションタスクのためのクロスモーダル,クロスシーケンス,クロスサイト設定など様々なシナリオで評価する。 文献における既存手法に対して,本手法は良好な性能を発揮する。 コードとモデルの重み付けはhttps://github.com/ShahinaKK/LG_SDG.git.comで公開されています。

Single source domain generalization (SDG) holds promise for more reliable and consistent image segmentation across real-world clinical settings particularly in the medical domain, where data privacy and acquisition cost constraints often limit the availability of diverse datasets. Depending solely on visual features hampers the model's capacity to adapt effectively to various domains, primarily because of the presence of spurious correlations and domain-specific characteristics embedded within the image features. Incorporating text features alongside visual features is a potential solution to enhance the model's understanding of the data, as it goes beyond pixel-level information to provide valuable context. Textual cues describing the anatomical structures, their appearances, and variations across various imaging modalities can guide the model in domain adaptation, ultimately contributing to more robust and consistent segmentation. In this paper, we propose an approach that explicitly leverages textual information by incorporating a contrastive learning mechanism guided by the text encoder features to learn a more robust feature representation. We assess the effectiveness of our text-guided contrastive feature alignment technique in various scenarios, including cross-modality, cross-sequence, and cross-site settings for different segmentation tasks. Our approach achieves favorable performance against existing methods in literature. Our code and model weights are available at https://github.com/ShahinaKK/LG_SDG.git.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# TWIN-GPT:大規模言語モデルによる治験用デジタルツイン

TWIN-GPT: Digital Twins for Clinical Trials via Large Language Model ( http://arxiv.org/abs/2404.01273v1 )

ライセンス: Link先を確認
Yue Wang, Yingzhou Lu, Yinlong Xu, Zihan Ma, Hongxia Xu, Bang Du, Honghao Gao, Jian Wu, (参考訳) 近年, 現実のシナリオをシミュレートし, 患者の安全性を大幅に向上させ, 開発を迅速化し, コストを削減し, 医療の幅広い科学的知識に貢献する可能性を持つ仮想臨床試験への関心が高まっている。 既存の研究はしばしば、臨床試験の結果を予測するために電子健康記録(EHR)を活用することに焦点を当てている。 しかし、限られた臨床試験結果データで訓練された既存のアプローチは、正確な予測を行うのにしばしば苦労する。 いくつかの研究は、モデル開発を増強するためのEHRの生成を試みたが、個々の患者プロファイルの生成をパーソナライズするには至らなかった。 近年,医学的問題に対処する上で,包括的臨床知識が有用であることが証明され,大規模言語モデルの出現によって新たな可能性が高まっている。 本稿では,TWIN-GPTと呼ばれる大規模言語モデルに基づくディジタル双対生成手法を提案する。 TWIN-GPTは、限られたデータによって医療情報のデータセットを相互に関連付けることができ、異なる患者に対して独自のデジタル双生児を生成することにより、個々の患者特性を保存できる。 総合的な実験により,TWIN-GPTによるデジタル双生児を用いた臨床治験結果の予測が,これまでの様々な予測手法を超えることが示唆された。 さらに、TWIN-GPTは特定の患者に近づき、より正確な結果予測を支援する高忠実性試験データを生成することも実証した。 さらに,本研究は,デジタル双生児の医療への応用を実証し,その意義を浮き彫りにした。

Recently, there has been a burgeoning interest in virtual clinical trials, which simulate real-world scenarios and hold the potential to significantly enhance patient safety, expedite development, reduce costs, and contribute to the broader scientific knowledge in healthcare. Existing research often focuses on leveraging electronic health records (EHRs) to support clinical trial outcome prediction. Yet, trained with limited clinical trial outcome data, existing approaches frequently struggle to perform accurate predictions. Some research has attempted to generate EHRs to augment model development but has fallen short in personalizing the generation for individual patient profiles. Recently, the emergence of large language models has illuminated new possibilities, as their embedded comprehensive clinical knowledge has proven beneficial in addressing medical issues. In this paper, we propose a large language model-based digital twin creation approach, called TWIN-GPT. TWIN-GPT can establish cross-dataset associations of medical information given limited data, generating unique personalized digital twins for different patients, thereby preserving individual patient characteristics. Comprehensive experiments show that using digital twins created by TWIN-GPT can boost clinical trial outcome prediction, exceeding various previous prediction approaches. Besides, we also demonstrate that TWIN-GPT can generate high-fidelity trial data that closely approximate specific patients, aiding in more accurate result predictions in data-scarce situations. Moreover, our study provides practical evidence for the application of digital twins in healthcare, highlighting its potential significance.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# 導波路に結合した電荷感受性超伝導センサによる準粒子トンネルの直接検出

Direct detection of quasiparticle tunneling with a charge-sensitive superconducting sensor coupled to a waveguide ( http://arxiv.org/abs/2404.01277v1 )

ライセンス: Link先を確認
Kazi Rafsanjani Amin, Axel M. Eriksson, Mikael Kervinen, Linus Andersson, Robert Rehammar, Simone Gasparinetti, (参考訳) 超伝導回路における準粒子トンネル現象の検出は、非平衡準粒子の集団とダイナミクスに関する情報を提供する。 このような事象は、オフセット電荷感受性超伝導量子ビットの周波数変化を監視して検出することができる。 このモニタリングはこれまでにラムゼー干渉計(英語版)がリードアウト共振器(英語版)に助けられている。 ここでは、導波路に直接結合した超伝導量子ビットに基づく準粒子検出器を実演する。 マイクロ波トーンのコヒーレント散乱を探索し,操作の単純さ,高速検出速度,信号対雑音比を大きくすることで,クビット島の準粒子数パリティを直接測定する。 検出器量子ビットの平均占有量に応じて、0.8から7〜7〜7〜6m{s}^{-1}$のトンネル速度を観測し、量子制限増幅器を使わずに、時間分解能を10〜10〜5m{s}$以下とする。 我々の単純で効率的な検出器は、準粒子の集団と力学の研究を行う障壁を低くし、基礎科学、量子情報処理、センシングの進歩を促進する。

Detecting quasiparticle tunneling events in superconducting circuits provides information about the population and dynamics of non-equilibrium quasiparticles. Such events can be detected by monitoring changes in the frequency of an offset-charge-sensitive superconducting qubit. This monitoring has so far been performed by Ramsey interferometry assisted by a readout resonator. Here, we demonstrate a quasiparticle detector based on a superconducting qubit directly coupled to a waveguide. We directly measure quasiparticle number parity on the qubit island by probing the coherent scattering of a microwave tone, offering simplicity of operation, fast detection speed, and a large signal-to-noise ratio. We observe tunneling rates between 0.8 and $7~\rm{s}^{-1}$, depending on the average occupation of the detector qubit, and achieve a temporal resolution below $10~\mu\rm{s}$ without a quantum-limited amplifier. Our simple and efficient detector lowers the barrier to perform studies of quasiparticle population and dynamics, facilitating progress in fundamental science, quantum information processing, and sensing.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# BiPer:周期関数を用いたバイナリニューラルネットワーク

BiPer: Binary Neural Networks using a Periodic Function ( http://arxiv.org/abs/2404.01278v1 )

ライセンス: Link先を確認
Edwin Vargas, Claudia Correa, Carlos Hinojosa, Henry Arguello, (参考訳) 量子ニューラルネットワークは、重みとアクティベーションの両方に精度の低下した表現を用いる。 この量子化プロセスは、ネットワークのメモリ要求と計算複雑性を著しく削減する。 バイナリニューラルネットワーク(BNN)は極端量子化のケースであり、わずか1ビットで値を表す。 符号関数は通常、実値を二進値にマッピングするために使われるため、スムーズな近似を導入してエラーのバックプロパゲーション時の勾配を模倣する。 このように、前方モデルと後方モデルとのミスマッチは勾配の方向を乱し、トレーニングの不整合問題と性能劣化を引き起こす。 現在のBNNのアプローチとは対照的に,バイナライゼーションにおいて,バイナリ周期関数 (BiPer) を用いる方法を提案する。 具体的には、前方通過のために正方形波を用いて二乗値を取得し、後方通過時の微分代理として正方形波と同周期の三角正弦関数を用いる。 本稿では,周期関数の周波数を用いて量子化誤差を制御し,ネットワーク性能を向上させることを実証する。 ベンチマークデータセットとネットワークアーキテクチャにおけるBiPerの有効性を検証する大規模な実験では、それぞれCIFAR-10とImageNetの分類タスクにおける最先端メソッドに関して、1%と0.69%の改善がなされている。 私たちのコードはhttps://github.com/edmav4/BiPer.orgで公開されています。

Quantized neural networks employ reduced precision representations for both weights and activations. This quantization process significantly reduces the memory requirements and computational complexity of the network. Binary Neural Networks (BNNs) are the extreme quantization case, representing values with just one bit. Since the sign function is typically used to map real values to binary values, smooth approximations are introduced to mimic the gradients during error backpropagation. Thus, the mismatch between the forward and backward models corrupts the direction of the gradient, causing training inconsistency problems and performance degradation. In contrast to current BNN approaches, we propose to employ a binary periodic (BiPer) function during binarization. Specifically, we use a square wave for the forward pass to obtain the binary values and employ the trigonometric sine function with the same period of the square wave as a differentiable surrogate during the backward pass. We demonstrate that this approach can control the quantization error by using the frequency of the periodic function and improves network performance. Extensive experiments validate the effectiveness of BiPer in benchmark datasets and network architectures, with improvements of up to 1% and 0.69% with respect to state-of-the-art methods in the classification task over CIFAR-10 and ImageNet, respectively. Our code is publicly available at https://github.com/edmav4/BiPer.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# LoSA: エンド・ツー・エンド時空間動作ローカライゼーションのための長距離適応器

LoSA: Long-Short-range Adapter for Scaling End-to-End Temporal Action Localization ( http://arxiv.org/abs/2404.01282v1 )

ライセンス: Link先を確認
Akshita Gupta, Gaurav Mittal, Ahmed Magooda, Ye Yu, Graham W. Taylor, Mei Chen, (参考訳) 時間的アクションローカライゼーション(TAL)は、未トリミングビデオ中のアクションスニペットのローカライズと分類を含む。 大規模なビデオ基盤モデルの出現により、RGBのみのビデオバックボーンは、RGBと光フローのモダリティの両方を必要とする従来の手法より優れている。 これらの大きなモデルの活用は、ビデオバックボーンをTALに適応させるのに必要な、非常に大きなGPUメモリのため、TALヘッドのみのトレーニングに制限されることが多い。 この制限を克服するため,最初のメモリ/パラメータ効率のバックボーンアダプタであるLoSAを導入する。 LoSAは、ビデオバックボーンの中間層を異なる時間範囲に適応させるLong-Short-range Adapterを導入することでTALを特化している。 これらのアダプタはビデオバックボーンと並列に動作し、メモリフットプリントを大幅に削減する。 LoSAにはLong-Short-range Fusionも含まれており、ビデオバックボーン層からこれらのアダプタの出力を戦略的に組み合わせ、TALヘッドに提供されるビデオ機能を強化する。 実験の結果、LoSA は標準的なTALベンチマーク THUMOS-14 や ActivityNet-v1.3 で、ビデオMAEv2~(ViT-g) のような数十億パラメータ超過モデルへのエンドツーエンドのバックボーン適応を拡大し、ヘッドオンリーのトランスファー学習を超えてそれらを活用することによって、既存のメソッド全てを著しく上回っていることがわかった。

Temporal Action Localization (TAL) involves localizing and classifying action snippets in an untrimmed video. The emergence of large video foundation models has led RGB-only video backbones to outperform previous methods needing both RGB and optical flow modalities. Leveraging these large models is often limited to training only the TAL head due to the prohibitively large GPU memory required to adapt the video backbone for TAL. To overcome this limitation, we introduce LoSA, the first memory-and-parameter-efficient backbone adapter designed specifically for TAL to handle untrimmed videos. LoSA specializes for TAL by introducing Long-Short-range Adapters that adapt the intermediate layers of the video backbone over different temporal ranges. These adapters run parallel to the video backbone to significantly reduce memory footprint. LoSA also includes Long-Short-range Fusion that strategically combines the output of these adapters from the video backbone layers to enhance the video features provided to the TAL head. Experiments show that LoSA significantly outperforms all existing methods on standard TAL benchmarks, THUMOS-14 and ActivityNet-v1.3, by scaling end-to-end backbone adaptation to billion-parameter-plus models like VideoMAEv2~(ViT-g) and leveraging them beyond head-only transfer learning.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# ソフトウェア開発チームのプライバシ認識、経験、行動を評価する

Evaluating Privacy Perceptions, Experience, and Behavior of Software Development Teams ( http://arxiv.org/abs/2404.01283v1 )

ライセンス: Link先を確認
Maxwell Prybylo, Sara Haghighi, Sai Teja Peddinti, Sepideh Ghanavati, (参考訳) プライバシ規制の増加に伴い、小さな開発チームは独自のプライバシ決定を強制される。 本稿では,ソフトウェア開発の様々な段階(SDLC)に関わるメンバのプライバシ認識,実践,知識を評価するために,統計的および質的な分析を含む混合手法による調査を行う。 調査には23カ国から362人が参加し、プロダクトマネージャや開発者、テスタといった役割を担っています。 以上の結果から,SDLC の役割におけるプライバシ定義の多様性が示唆され,SDLC 全体にわたる総合的なプライバシアプローチの必要性が強調された。 ソフトウェアチームは、地域に関係なく、プライバシーの概念(匿名化など)に慣れておらず、自己教育やフォーラムに依存しています。 ほとんどの参加者は他の規制よりもGDPRやHIPAAに詳しい。 我々は,プライバシー問題に対処するための役割依存型ソリューションの必要性を提唱し,プライバシーを意識したソフトウェア開発を改善するための研究の方向性と教育的取組みを強調した。

With the increase in the number of privacy regulations, small development teams are forced to make privacy decisions on their own. In this paper, we conduct a mixed-method survey study, including statistical and qualitative analysis, to evaluate the privacy perceptions, practices, and knowledge of members involved in various phases of software development (SDLC). Our survey includes 362 participants from 23 countries, encompassing roles such as product managers, developers, and testers. Our results show diverse definitions of privacy across SDLC roles, emphasizing the need for a holistic privacy approach throughout SDLC. We find that software teams, regardless of their region, are less familiar with privacy concepts (such as anonymization), relying on self-teaching and forums. Most participants are more familiar with GDPR and HIPAA than other regulations, with multi-jurisdictional compliance being their primary concern. Our results advocate the need for role-dependent solutions to address the privacy challenges, and we highlight research directions and educational takeaways to help improve privacy-aware software development.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# 統一多モード運動生成のための大規模運動モデル

Large Motion Model for Unified Multi-Modal Motion Generation ( http://arxiv.org/abs/2404.01284v1 )

ライセンス: Link先を確認
Mingyuan Zhang, Daisheng Jin, Chenyang Gu, Fangzhou Hong, Zhongang Cai, Jingfang Huang, Chongzhi Zhang, Xinying Guo, Lei Yang, Ying He, Ziwei Liu, (参考訳) アニメーションやビデオ制作において基礎となる技術であるヒューマン・モーション・ジェネレーションは、テキスト・トゥ・モーションや音楽・トゥ・ダンスといった様々なタスクに広く応用されている。 これまでの作業では、スケーラビリティのない各タスクに適したスペシャリストモデルの開発に重点を置いていた。 本研究では,動き中心のマルチモーダルフレームワークであるLarge Motion Model (LMM)について述べる。 単一のタスクを超えて広範な一般化を実現するために、広範囲のモーションデータを活用することができるため、統一されたモーションモデルが魅力的である。 しかし、かなり異なる動きデータやタスクの不均一性のため、これは挑戦的でもある。 LMMは3つの原則的側面からこれらの課題に取り組む。 1) データ: 異なるモダリティ、フォーマット、タスクのデータセットを総合的に統一されたモーション生成データセットであるMotionVerseに集約する。 2) アーキテクチャ: ボディ部分認識モデリングをDiffusion Transformerのバックボーンに組み込んだアテンション機構ArtAttentionを設計する。 3)事前学習: 多様な学習データから知識をうまく活用するために,可変フレームレートとマスキング形式を用いたLMMのための新しい事前学習戦略を提案する。 我々の一般LMMは、最先端のスペシャリストモデルよりも、様々な標準動作生成タスク間での競合性能を実証した。 特に、LMMは、多くの目に見えないタスクにまたがる強力な一般化能力と新興特性を示す。 さらに、我々のアブレーション研究は、将来の研究のために大規模な運動モデルのトレーニングとスケールアップに関する貴重な洞察を明らかにします。

Human motion generation, a cornerstone technique in animation and video production, has widespread applications in various tasks like text-to-motion and music-to-dance. Previous works focus on developing specialist models tailored for each task without scalability. In this work, we present Large Motion Model (LMM), a motion-centric, multi-modal framework that unifies mainstream motion generation tasks into a generalist model. A unified motion model is appealing since it can leverage a wide range of motion data to achieve broad generalization beyond a single task. However, it is also challenging due to the heterogeneous nature of substantially different motion data and tasks. LMM tackles these challenges from three principled aspects: 1) Data: We consolidate datasets with different modalities, formats and tasks into a comprehensive yet unified motion generation dataset, MotionVerse, comprising 10 tasks, 16 datasets, a total of 320k sequences, and 100 million frames. 2) Architecture: We design an articulated attention mechanism ArtAttention that incorporates body part-aware modeling into Diffusion Transformer backbone. 3) Pre-Training: We propose a novel pre-training strategy for LMM, which employs variable frame rates and masking forms, to better exploit knowledge from diverse training data. Extensive experiments demonstrate that our generalist LMM achieves competitive performance across various standard motion generation tasks over state-of-the-art specialist models. Notably, LMM exhibits strong generalization capabilities and emerging properties across many unseen tasks. Additionally, our ablation studies reveal valuable insights about training and scaling up large motion models for future research.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# 振動子に対する量子ランゲヴィン方程式の弱結合限界

Weak-coupling limits of the quantum Langevin equation for an oscillator ( http://arxiv.org/abs/2404.01285v1 )

ライセンス: Link先を確認
Aritra Ghosh, Sushanta Dattagupta, (参考訳) 独立振動子モデルから得られる量子ランゲヴィン方程式は、ゴリーニ=コサコフスキー=スダルシャン=リンドブラッド方程式の文脈で用いられるボルン=マルコフ近似を欠いた強い結合状態を記述する。 この問題は、変動散逸定理を満たす雑音項を持つ高調波発振器に対して、量子ランゲヴィン方程式のレベルにそのようなBorn-Markovのような近似を実装するとどうなるかということである。 この背景には、回転波近似についてもコメントする。

The quantum Langevin equation as obtained from the independent-oscillator model describes a strong-coupling situation, devoid of the Born-Markov approximation that is employed in the context of the Gorini-Kossakowski-Sudarshan-Lindblad equation. The question we address is what happens when we implement such `Born-Markov'-like approximations at the level of the quantum Langevin equation for a harmonic oscillator which carries a noise term satisfying a fluctuation-dissipation theorem. In this backdrop, we also comment on the rotating-wave approximation.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# プロセステンソルの内部結合の理解と利用

Understanding and utilizing the inner bonds of process tensors ( http://arxiv.org/abs/2404.01287v1 )

ライセンス: Link先を確認
Moritz Cygorek, Erik M. Gauger, (参考訳) プロセステンソル行列積演算子(PT-MPOs)は、前例のない幅広いオープン量子系の数値的正確なシミュレーションを可能にする。 環境影響をMPO形式で表現することで、確立したアルゴリズムを用いて効率よく圧縮することができる。 圧縮されたPT-MPOの内部結合の次元は、環境の複雑さの指標と見なすことができる。 ここでは、内部結合自体が、その次元だけでなく、具体的な物理的意味を持つことを示す: それらは、その後の開量子系に最も影響を与える可能性のある環境励起をホストするフル環境のリウヴィル空間の部分空間を表す。 この接続は、擬逆が環境可観測物の抽出を促進するような損失線型変換の言葉で表すことができる。 本研究では, 中心スピン問題の環境スピン, 量子系と結合した電流, 量子エミッタから放出される光子数, 駆動型非マルコフ量子系における総吸収エネルギーの系, 環境, 相互作用エネルギー項への分布を例に示す。 さらに、異なるPT-MPOアルゴリズムが環境を類似した部分空間に圧縮することを示す。 したがって、PT-MPOの内部結合の物理的解釈はどちらも概念的理解を与え、新しい実用的応用を可能にする。

Process tensor matrix product operators (PT-MPOs) enable numerically exact simulations for an unprecedentedly broad range of open quantum systems. By representing environment influences in MPO form, they can be efficiently compressed using established algorithms. The dimensions of inner bonds of the compressed PT-MPO may be viewed as an indicator of the complexity of the environment. Here, we show that the inner bonds themselves, not only their dimensions, have a concrete physical meaning: They represent the subspace of the full environment Liouville space which hosts environment excitations that may influence the subsequent open quantum systems dynamics the most. This connection can be expressed in terms of lossy linear transformations, whose pseudoinverses facilitate the extraction of environment observables. We demonstrate this by extracting the environment spin of a central spin problem, the current through a quantum system coupled to two leads, the number of photons emitted from quantum emitters into a structured environment, and the distribution of the total absorbed energy in a driven non-Markovian quantum system into system, environment, and interaction energy terms. Numerical tests further indicate that different PT-MPO algorithms compress environments to similar subspaces. Thus, the physical interpretation of inner bonds of PT-MPOs both provides a conceptional understanding and it enables new practical applications.
翻訳日:2024-04-03 21:26:33 公開日:2024-04-01
# 大規模言語モデルは、ガイドされた場合、認知的再評価を提供することができる

Large Language Models are Capable of Offering Cognitive Reappraisal, if Guided ( http://arxiv.org/abs/2404.01288v1 )

ライセンス: Link先を確認
Hongli Zhan, Allen Zheng, Yoon Kyung Lee, Jina Suh, Junyi Jessy Li, Desmond C. Ong, (参考訳) 大規模言語モデル(LLM)は、感情的支援のための新たな機会を提供しており、近年の研究により、苦痛を抱える人々に共感的な反応をもたらすことが示されている。 しかし、長期的な精神的健康には感情的な自己調節が必要であり、1回限りの共感的反応が不足する。 この研究は、認知的再評価(Cognitive Reappraisals)への関与によって第一歩を踏み出した。これは、言語を用いて個人が状況に対して負の評価を標的に変化させる心理学的実践者による戦略であり、そのような評価は人間の感情経験の根底に置かれることが知られている。 心理学的基礎を持つ原理は、LSMにおいてそのような高度な心理学的能力を実現できると仮定し、LSM命令として使用できる複数の次元にまたがる一連の再評価構成からなるRESORTを設計する。 我々は、中長のソーシャルメディアメッセージに対する認知的再評価反応を生成するLLMのゼロショット能力について、第一種専門家(M.S.またはPh.D.学位を持つ臨床心理学者)による評価を行う。 このきめ細かい評価は、RESORTが導いた7BスケールのLLMでさえ、ユーザーが自分の状況を再評価するのに役立つ共感的な反応を生成できることを示した。

Large language models (LLMs) have offered new opportunities for emotional support, and recent work has shown that they can produce empathic responses to people in distress. However, long-term mental well-being requires emotional self-regulation, where a one-time empathic response falls short. This work takes a first step by engaging with cognitive reappraisals, a strategy from psychology practitioners that uses language to targetedly change negative appraisals that an individual makes of the situation; such appraisals is known to sit at the root of human emotional experience. We hypothesize that psychologically grounded principles could enable such advanced psychology capabilities in LLMs, and design RESORT which consists of a series of reappraisal constitutions across multiple dimensions that can be used as LLM instructions. We conduct a first-of-its-kind expert evaluation (by clinical psychologists with M.S. or Ph.D. degrees) of an LLM's zero-shot ability to generate cognitive reappraisal responses to medium-length social media messages asking for support. This fine-grained evaluation showed that even LLMs at the 7B scale guided by RESORT are capable of generating empathic responses that can help users reappraise their situations.
翻訳日:2024-04-03 21:16:45 公開日:2024-04-01
# 画像・テキスト生成によるテキスト・ツー・ビジュアル・ジェネレーションの評価

Evaluating Text-to-Visual Generation with Image-to-Text Generation ( http://arxiv.org/abs/2404.01291v1 )

ライセンス: Link先を確認
Zhiqiu Lin, Deepak Pathak, Baiqi Li, Jiayao Li, Xide Xia, Graham Neubig, Pengchuan Zhang, Deva Ramanan, (参考訳) 生成AIの大幅な進歩にもかかわらず、効果的なメトリクスと標準化されたベンチマークが欠如しているため、包括的な評価は依然として難しい。 例えば、広く使用されているCLIPScoreは、(生成された)イメージとテキストプロンプトのアライメントを測定するが、オブジェクト、属性、関係性の合成を含む複雑なプロンプトの信頼性の高いスコアを生成できない。 一つの理由は、CLIPのテキストエンコーダーが「言葉の袋」として働き、「馬が草を食べている」といったプロンプトと「草が馬を食べている」といったプロンプトを混同しているからである。 これを解決するために、VQAScoreを導入し、VQAモデルを用いて、単純な「この図は「{text}」を示すか?」という質問に対する「Yes」回答の確率を計算し、アライメントスコアを生成する。 VQAScoreは従来の技術よりもシンプルだが、市販のモデルで計算すると、多くの(8)画像テキストアライメントベンチマークで最先端の結果が生成される。 また、文献のベストプラクティスに従う社内モデルでVQAScoreを計算します。 例えば、双方向画像探索エンコーダを使用して、画像埋め込みは、質問された質問(およびその逆)に依存します。 私たちの社内モデルであるCLIP-FlanT5は、プロプライエタリなGPT-4Vを使用する最強のベースラインでさえも上回っています。 興味深いことに、VQAScoreは画像のみで訓練するが、テキストをビデオや3Dモデルに合わせることもできる。 VQAScoreは、研究者が現実世界のプロンプトの構成構造をキャプチャする複雑なテキストを使用して、テキストから視覚への生成をベンチマークすることを可能にする。 GenAI-Benchは1,600のコンポジションテキストプロンプトを備えたより難しいベンチマークで、シーン、オブジェクト、属性、リレーション、そして比較や論理のような高次推論を必要とする。 GenAI-Benchはまた、Stable Diffusion、DALL-E 3、Gen2などの画像およびビデオ生成モデルに15,000以上の人間格付けを提供している。

Despite significant progress in generative AI, comprehensive evaluation remains challenging because of the lack of effective metrics and standardized benchmarks. For instance, the widely-used CLIPScore measures the alignment between a (generated) image and text prompt, but it fails to produce reliable scores for complex prompts involving compositions of objects, attributes, and relations. One reason is that text encoders of CLIP can notoriously act as a "bag of words", conflating prompts such as "the horse is eating the grass" with "the grass is eating the horse". To address this, we introduce the VQAScore, which uses a visual-question-answering (VQA) model to produce an alignment score by computing the probability of a "Yes" answer to a simple "Does this figure show '{text}'?" question. Though simpler than prior art, VQAScore computed with off-the-shelf models produces state-of-the-art results across many (8) image-text alignment benchmarks. We also compute VQAScore with an in-house model that follows best practices in the literature. For example, we use a bidirectional image-question encoder that allows image embeddings to depend on the question being asked (and vice versa). Our in-house model, CLIP-FlanT5, outperforms even the strongest baselines that make use of the proprietary GPT-4V. Interestingly, although we train with only images, VQAScore can also align text with video and 3D models. VQAScore allows researchers to benchmark text-to-visual generation using complex texts that capture the compositional structure of real-world prompts. We introduce GenAI-Bench, a more challenging benchmark with 1,600 compositional text prompts that require parsing scenes, objects, attributes, relationships, and high-order reasoning like comparison and logic. GenAI-Bench also offers over 15,000 human ratings for leading image and video generation models such as Stable Diffusion, DALL-E 3, and Gen2.
翻訳日:2024-04-03 21:16:45 公開日:2024-04-01
# 拡散モデルにおけるスタイル類似性の測定

Measuring Style Similarity in Diffusion Models ( http://arxiv.org/abs/2404.01292v1 )

ライセンス: Link先を確認
Gowthami Somepalli, Anubhav Gupta, Kamal Gupta, Shramay Palta, Micah Goldblum, Jonas Geiping, Abhinav Shrivastava, Tom Goldstein, (参考訳) ジェネレーティブモデルは現在、グラフィックデザイナーやアーティストによって広く使用されている。 以前の研究では、これらのモデルが世代間のトレーニングデータからコンテンツを記憶し、しばしば複製していることが示されている。 したがって、その増殖が増加するにつれて、生成した画像が専門的な目的に使用されるたびに、画像の特性が特定のトレーニングデータに起因するかどうかを判断するために、データベース検索を行うことが重要になっている。 この目的のための既存のツールは、類似したセマンティックコンテンツのイメージを取得することに焦点を当てている。 一方、多くのアーティストはテキスト・ツー・イメージ・モデルにおけるスタイルの複製に関心を持っている。 画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。 我々のフレームワークは、スタイルがイメージの主観的特性であり、色、テクスチャ、形状など、複雑な、しかし意味のある相互作用をキャプチャする、という洞察を用いて、キュレートされた新しいデータセットで構成されています。 また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に、生成された画像のスタイルを属性付けるのに使用できるスタイル記述子を抽出する手法を提案する。 様々なスタイル検索タスクにおいて有望な結果を示す。 また、安定拡散モデルにおけるスタイル属性とマッチングを定量的に定性的に分析する。 コードとアーティファクトはhttps://github.com/learn2phoenix/CSDで入手できる。

Generative models are now widely used by graphic designers and artists. Prior works have shown that these models remember and often replicate content from their training data during generation. Hence as their proliferation increases, it has become important to perform a database search to determine whether the properties of the image are attributable to specific training data, every time before a generated image is used for professional purposes. Existing tools for this purpose focus on retrieving images of similar semantic content. Meanwhile, many artists are concerned with style replication in text-to-image models. We present a framework for understanding and extracting style descriptors from images. Our framework comprises a new dataset curated using the insight that style is a subjective property of an image that captures complex yet meaningful interactions of factors including but not limited to colors, textures, shapes, etc. We also propose a method to extract style descriptors that can be used to attribute style of a generated image to the images used in the training dataset of a text-to-image model. We showcase promising results in various style retrieval tasks. We also quantitatively and qualitatively analyze style attribution and matching in the Stable Diffusion model. Code and artifacts are available at https://github.com/learn2phoenix/CSD.
翻訳日:2024-04-03 21:16:45 公開日:2024-04-01
# CosmicMan:人間のためのテキストから画像への基礎モデル

CosmicMan: A Text-to-Image Foundation Model for Humans ( http://arxiv.org/abs/2404.01294v1 )

ライセンス: Link先を確認
Shikai Li, Jianglin Fu, Kaiyuan Liu, Wentao Wang, Kwan-Yee Lin, Wayne Wu, (参考訳) 我々は,高忠実度画像を生成することに特化したテキスト・ツー・イメージ基盤モデルであるCosmicManを提案する。 品質の劣るジレンマや人間に対するテキストイメージのミスアライメントに悩まされている現在の汎用基盤モデルとは異なり、CosmicManは微妙な外観、合理的な構造、詳細な密な記述による正確なテキストイメージアライメントで写真リアルな人間の画像を生成することができる。 1) トレーニングされたモデルの最終的な結果には、データ品質とスケーラブルなデータ生産フローが不可欠であることが分かりました。 そこで、我々は、時間とともに正確かつ費用対効果の高いアノテーションで高品質なデータを生成するために、永続的なデータフライホイールとして機能する新しいデータ生成パラダイムAnnotate Anyoneを提案する。 そこで我々はCosmicMan-HQ 1.0という大規模データセットを構築し,約1488×1255の解像度で6万個の高品質な現実世界の人間の画像を作成し,さまざまな粒度の115万の属性から得られた正確なテキストアノテーションを添付した。 2)人間に特有なテキスト・ツー・イメージ基盤モデルは,高品質な人体画像の制作に有効でありながら,ダウンストリームタスクに統合しやすくなければならない,と論じる。 そこで,本研究では,高密度テキスト記述と画像画素の関係を分解的にモデル化し,非分解型再焦点(Daring)トレーニングフレームワークを提案する。 既存のテキストと画像の拡散モデルにおいて、シームレスに横断的な特徴を分解し、追加モジュールを追加することなく、注意再焦点を強制する。 Daringを通じて、連続したテキスト空間を人体構造に整合したいくつかの基本群に明示的に識別することが、不整合問題に取り組む鍵となることを示す。

We present CosmicMan, a text-to-image foundation model specialized for generating high-fidelity human images. Unlike current general-purpose foundation models that are stuck in the dilemma of inferior quality and text-image misalignment for humans, CosmicMan enables generating photo-realistic human images with meticulous appearance, reasonable structure, and precise text-image alignment with detailed dense descriptions. At the heart of CosmicMan's success are the new reflections and perspectives on data and models: (1) We found that data quality and a scalable data production flow are essential for the final results from trained models. Hence, we propose a new data production paradigm, Annotate Anyone, which serves as a perpetual data flywheel to produce high-quality data with accurate yet cost-effective annotations over time. Based on this, we constructed a large-scale dataset, CosmicMan-HQ 1.0, with 6 Million high-quality real-world human images in a mean resolution of 1488x1255, and attached with precise text annotations deriving from 115 Million attributes in diverse granularities. (2) We argue that a text-to-image foundation model specialized for humans must be pragmatic -- easy to integrate into down-streaming tasks while effective in producing high-quality human images. Hence, we propose to model the relationship between dense text descriptions and image pixels in a decomposed manner, and present Decomposed-Attention-Refocusing (Daring) training framework. It seamlessly decomposes the cross-attention features in existing text-to-image diffusion model, and enforces attention refocusing without adding extra modules. Through Daring, we show that explicitly discretizing continuous text space into several basic groups that align with human body structure is the key to tackling the misalignment problem in a breeze.
翻訳日:2024-04-03 21:16:45 公開日:2024-04-01
# 制御可能な大言語モデルによる安全性とヘルプフルネスバランス対応に向けて

Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models ( http://arxiv.org/abs/2404.01295v1 )

ライセンス: Link先を確認
Yi-Lin Tuan, Xilun Chen, Eric Michael Smith, Louis Martin, Soumya Batra, Asli Celikyilmaz, William Yang Wang, Daniel M. Bikel, (参考訳) 大規模言語モデル(LLMs)がアクセスしやすくなってきたため、安全性と利便性のトレードオフはユーザエクスペリエンスに大きな影響を及ぼす可能性がある。 安全性を優先するモデルでは、ユーザがエンゲージメントやアシストを減らし、利便性の優先順位付けが害をもたらす可能性がある。 例えば、爆弾の作り方を教えたり、若者を不適切な内容に晒したり、ユーザーのメンタルヘルスを損なったりなどです。 本研究では,LLMの2つの属性を制御して,多様なユースケースにおける安全性と利便性のバランスをとることを提案する。 我々は、人間のアノテーションを余分に必要としない、トレーニング不要で微調整の手法を探求し、LLMの安全性と有用性を制御する上での課題を分析した。 実験により,本手法が学習したモデルを巻き戻し,制御性を解放できることが実証された。

As large language models (LLMs) become easily accessible nowadays, the trade-off between safety and helpfulness can significantly impact user experience. A model that prioritizes safety will cause users to feel less engaged and assisted while prioritizing helpfulness will potentially cause harm. Possible harms include teaching people how to build a bomb, exposing youth to inappropriate content, and hurting users' mental health. In this work, we propose to balance safety and helpfulness in diverse use cases by controlling both attributes in LLM. We explore training-free and fine-tuning methods that do not require extra human annotations and analyze the challenges of controlling safety and helpfulness in LLMs. Our experiments demonstrate that our method can rewind a learned model and unlock its controllability.
翻訳日:2024-04-03 21:16:45 公開日:2024-04-01
# MagicMirror: 制限付き検索スペースを備えた高速かつ高品質なアバター生成

MagicMirror: Fast and High-Quality Avatar Generation with a Constrained Search Space ( http://arxiv.org/abs/2404.01296v1 )

ライセンス: Link先を確認
Armand Comas-Massagué, Di Qiu, Menglei Chai, Marcel Bühler, Amit Raj, Ruiqi Gao, Qiangeng Xu, Mark Matthews, Paulo Gotardo, Octavia Camps, Sergio Orts-Escolano, Thabo Beeler, (参考訳) 本稿では,ユーザエンゲージメントとカスタマイズを高めるために,テキストプロンプトを活用した3次元アバター生成とパーソナライズのための新しいフレームワークを提案する。 われわれのアプローチの中心は、写真リアリスティックなアバター合成の課題を克服するための重要なイノベーションである。 まず、大規模無注釈のマルチビューデータセットに基づいて訓練された条件付きニューラルラジアンスフィールド(NeRF)モデルを用いて、アバター生成を加速し、多様化する多目的初期解空間を作成する。 第2に,テキスト・ツー・イメージ・ディフュージョン・モデルの能力を生かした幾何学的先行モデルを構築し,優れたビュー不変性を確保し,アバター幾何の直接最適化を可能にする。 これらの基礎的考え方は、テクスチャ損失と過飽和問題を緩和する変分スコア蒸留(VSD)に基づく最適化パイプラインによって補完される。 我々の広範な実験で支持されたように、これらの戦略は、相容れない視覚的品質と入力テキストプロンプトへのより優れた順守を備えたカスタムアバターの作成を可能にする。 私たちのWebサイトでは、より多くの結果とビデオが見られます。

We introduce a novel framework for 3D human avatar generation and personalization, leveraging text prompts to enhance user engagement and customization. Central to our approach are key innovations aimed at overcoming the challenges in photo-realistic avatar synthesis. Firstly, we utilize a conditional Neural Radiance Fields (NeRF) model, trained on a large-scale unannotated multi-view dataset, to create a versatile initial solution space that accelerates and diversifies avatar generation. Secondly, we develop a geometric prior, leveraging the capabilities of Text-to-Image Diffusion Models, to ensure superior view invariance and enable direct optimization of avatar geometry. These foundational ideas are complemented by our optimization pipeline built on Variational Score Distillation (VSD), which mitigates texture loss and over-saturation issues. As supported by our extensive experiments, these strategies collectively enable the creation of custom avatars with unparalleled visual quality and better adherence to input text prompts. You can find more results and videos in our website: https://syntec-research.github.io/MagicMirror
翻訳日:2024-04-03 21:16:45 公開日:2024-04-01
# ストリーミング・Dense Video Captioning

Streaming Dense Video Captioning ( http://arxiv.org/abs/2404.01297v1 )

ライセンス: Link先を確認
Xingyi Zhou, Anurag Arnab, Shyamal Buch, Shen Yan, Austin Myers, Xuehan Xiong, Arsha Nagrani, Cordelia Schmid, (参考訳) 濃密な動画キャプションの理想的なモデル -- ビデオに時間的に局所化されたキャプションを予測する -- は、長い入力ビデオを処理し、リッチで詳細なテキスト記述を予測し、ビデオ全体を処理する前にアウトプットを生成することができる。 しかし現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後に単一の完全な予測を行う。 本稿では,2つの新しいコンポーネントからなるストリーミング高密度ビデオキャプションモデルを提案する。まず,クラスタリングされたトークンをベースとした新しいメモリモジュールを提案する。 第2に,ビデオ全体を処理する前にモデルを予測できるストリーミング復号アルゴリズムを開発した。 我々のモデルは,このストリーミング能力を実現し,ActivityNet, YouCook2, ViTTの3つの高密度ビデオキャプションベンチマークの最先端性を大幅に向上させる。 私たちのコードはhttps://github.com/google-research/scenic.comで公開されています。

An ideal model for dense video captioning -- predicting captions localized temporally in a video -- should be able to handle long input videos, predict rich, detailed textual descriptions, and be able to produce outputs before processing the entire video. Current state-of-the-art models, however, process a fixed number of downsampled frames, and make a single full prediction after seeing the whole video. We propose a streaming dense video captioning model that consists of two novel components: First, we propose a new memory module, based on clustering incoming tokens, which can handle arbitrarily long videos as the memory is of a fixed size. Second, we develop a streaming decoding algorithm that enables our model to make predictions before the entire video has been processed. Our model achieves this streaming ability, and significantly improves the state-of-the-art on three dense video captioning benchmarks: ActivityNet, YouCook2 and ViTT. Our code is released at https://github.com/google-research/scenic.
翻訳日:2024-04-03 21:16:45 公開日:2024-04-01
# ノイズ2画像:イベントカメラのノイズキャンセリング

Noise2Image: Noise-Enabled Static Scene Recovery for Event Cameras ( http://arxiv.org/abs/2404.01298v1 )

ライセンス: Link先を確認
Ruiming Cao, Dekel Galor, Amit Kohli, Jacob L Yates, Laura Waller, (参考訳) イベントカメラは「イベント」の流れとして時間とともに強度の変化を捉え、一般的に強度を測定できないため、ダイナミックなシーンの撮影にのみ使用される。 しかし、ランダムな光子到着によるゆらぎは、静的なシーンであっても必然的にノイズイベントを引き起こす。 従来,これらの望ましくないノイズイベントをフィルタリングして信号品質を向上させる研究が続けられてきたが,光子ノイズ系では,これらのノイズイベントが静的なシーン強度と相関していることが判明した。 ノイズ事象の発生を分析し,その輝度との関係をモデル化する。 そこで本研究では,ノイズ2画像(Noss2Image)と呼ばれる手法を提案し,照度に依存したノイズ特性を利用してシーンの静的な部分を復元する手法を提案する。 本研究では,静的シーンにおけるノイズイベントのデータセットを実験的に収集し,ノイズ2画像のトレーニングと検証を行う。 以上の結果から,ノイズイベントのみから高精細画像の高精細化を図り,新たなハードウェアを使わずにイベントカメラの静的シーンを撮影する手法が提案されている。

Event cameras capture changes of intensity over time as a stream of 'events' and generally cannot measure intensity itself; hence, they are only used for imaging dynamic scenes. However, fluctuations due to random photon arrival inevitably trigger noise events, even for static scenes. While previous efforts have been focused on filtering out these undesirable noise events to improve signal quality, we find that, in the photon-noise regime, these noise events are correlated with the static scene intensity. We analyze the noise event generation and model its relationship to illuminance. Based on this understanding, we propose a method, called Noise2Image, to leverage the illuminance-dependent noise characteristics to recover the static parts of a scene, which are otherwise invisible to event cameras. We experimentally collect a dataset of noise events on static scenes to train and validate Noise2Image. Our results show that Noise2Image can robustly recover intensity images solely from noise events, providing a novel approach for capturing static scenes in event cameras, without additional hardware.
翻訳日:2024-04-03 21:16:45 公開日:2024-04-01
# CausalChaos! ダイナミック・ビジュアル・シーンにおける長時間の因果連鎖に対する包括的因果行動質問のためのデータセット

CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes ( http://arxiv.org/abs/2404.01299v1 )

ライセンス: Link先を確認
Ting En Lam, Yuhan Chen, Elston Tan, Eric Peh, Ruirui Chen, Paritosh Parmar, Basura Fernando, (参考訳) 因果的ビデオ質問応答(QA)はますます関心を集めているが、既存のデータセットは因果的推論分析の深さを欠いていることが多い。 このギャップに対処するために、漫画のユニークな特性を活かし、象徴的な「トムとジェリー」の漫画シリーズの上に構築された新しい因果関係のWhy-QAデータセットであるCausalChaos!を構築します。 思慮深い質問やマルチレベルな回答によって、私たちのデータセットは、動的相互作用や視覚に埋め込まれたずっと長い因果関係を含むと同時に、アニメーションの原則によって、アニメーターは明確に定義され、曖昧な因果関係を作ることができる。 これらの要因により、モデルはより困難で明確に定義された因果関係を解決できる。 CausalConfusionバージョンを含む、厳しい負のマイニングも導入しています。 モデルはうまく機能しますが、特にオープンな回答では改善の余地がたくさんあります。 今後注目すべき課題として,より先進的かつ精巧な因果関係モデリングと視覚と言語の統合モデリングが注目される。 他の補完的なデータセットとともに、私たちの新しい挑戦的なデータセットは、この分野におけるこれらの発展の道を開くでしょう。 この領域における今後の取り組みを支援するために、データセット、コード、モデルをリリースします。

Causal video question answering (QA) has garnered increasing interest, yet existing datasets often lack depth in causal reasoning analysis. To address this gap, we capitalize on the unique properties of cartoons and construct CausalChaos!, a novel, challenging causal Why-QA dataset built upon the iconic "Tom and Jerry" cartoon series. With thoughtful questions and multi-level answers, our dataset contains much longer causal chains embedded in dynamic interactions and visuals, at the same time principles of animation allows animators to create well-defined, unambiguous causal relationships. These factors allow models to solve more challenging, yet well-defined causal relationships. We also introduce hard negative mining, including CausalConfusion version. While models perform well, there is much room for improvement, especially, on open-ended answers. We identify more advanced/explicit causal relationship modeling and joint modeling of vision and language as the immediate areas for future efforts to focus upon. Along with the other complementary datasets, our new challenging dataset will pave the way for these developments in the field. We will release our dataset, codes, and models to help future efforts in this domain.
翻訳日:2024-04-03 21:16:45 公開日:2024-04-01
# NeRF-MAE : 自己教師付き3次元表現学習のためのマスク付きオートエンコーダ

NeRF-MAE : Masked AutoEncoders for Self Supervised 3D representation Learning for Neural Radiance Fields ( http://arxiv.org/abs/2404.01300v1 )

ライセンス: Link先を確認
Muhammad Zubair Irshad, Sergey Zakahrov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus, (参考訳) ニューラルネットワークはコンピュータビジョンやロボット工学において、セマンティクス、幾何学、ダイナミクスを推論するといった3次元視覚世界を理解する能力によって優れている。 2D画像から3Dシーンを密に表現するニューラルネットワークの能力を考えると、我々は疑問を呈する: マスク付きオートエンコーダを使って、自己教師付き事前訓練を拡大して、ポーズされたRGB画像から効果的な3D表現を生成することができるか? トランスを新しいデータモダリティに拡張するという驚くべき成功により、我々は標準の3Dビジョン変換器を用いて、NeRFのユニークな定式化に適合する。 我々はNeRFの体積格子を変換器への高密度入力として利用し、情報密度が不均一な点雲のような他の3次元表現と対比し、その表現は不規則である。 マスク付きオートエンコーダをNeRFなどの暗黙の表現に適用することの難しさから,サンプリングにカメラトラジェクトリを用いることで,ドメイン間のシーンを標準化する明示的な表現を抽出することを選んだ。 我々の目標は、NeRFの放射率と密度グリッドからランダムなパッチをマスキングし、標準的な3Dスウィントランスを用いてマスクされたパッチを再構築することである。 そうすることで、モデルは完全なシーンの意味的構造と空間的構造を学ぶことができる。 我々は、この表現を、提案した擬似RGBデータに基づいて大規模に事前訓練し、合計で1.6万枚以上の画像を生成する。 事前訓練後、エンコーダは効果的な3D転送学習に使用される。 我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。 ラベル付けされていない2Dデータを事前トレーニングに利用することにより、NeRF-MAEはFront3DおよびScanNetデータセットにおける自己教師付き3D事前トレーニングとNeRFシーン理解ベースラインを著しく上回り、3Dオブジェクト検出のための20% AP50と8% AP25の絶対的なパフォーマンス向上を実現した。

Neural fields excel in computer vision and robotics due to their ability to understand the 3D visual world such as inferring semantics, geometry, and dynamics. Given the capabilities of neural fields in densely representing a 3D scene from 2D images, we ask the question: Can we scale their self-supervised pretraining, specifically using masked autoencoders, to generate effective 3D representations from posed RGB images. Owing to the astounding success of extending transformers to novel data modalities, we employ standard 3D Vision Transformers to suit the unique formulation of NeRFs. We leverage NeRF's volumetric grid as a dense input to the transformer, contrasting it with other 3D representations such as pointclouds where the information density can be uneven, and the representation is irregular. Due to the difficulty of applying masked autoencoders to an implicit representation, such as NeRF, we opt for extracting an explicit representation that canonicalizes scenes across domains by employing the camera trajectory for sampling. Our goal is made possible by masking random patches from NeRF's radiance and density grid and employing a standard 3D Swin Transformer to reconstruct the masked patches. In doing so, the model can learn the semantic and spatial structure of complete scenes. We pretrain this representation at scale on our proposed curated posed-RGB data, totaling over 1.6 million images. Once pretrained, the encoder is used for effective 3D transfer learning. Our novel self-supervised pretraining for NeRFs, NeRF-MAE, scales remarkably well and improves performance on various challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining, NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF scene understanding baselines on Front3D and ScanNet datasets with an absolute performance improvement of over 20% AP50 and 8% AP25 for 3D object detection.
翻訳日:2024-04-03 21:16:45 公開日:2024-04-01
# AETTA:テスト時間適応のためのラベルなし精度推定

AETTA: Label-Free Accuracy Estimation for Test-Time Adaptation ( http://arxiv.org/abs/2404.01351v1 )

ライセンス: Link先を確認
Taeckyung Lee, Sorn Chottananurak, Taesik Gong, Sung-Ju Lee, (参考訳) テスト時間適応(TTA)は、未ラベルのテストデータを使用して、事前訓練されたモデルをドメインシフトに適応するための実行可能なソリューションとして登場した。 しかし、TTAは、動的シナリオにおける未知のテストサンプルへの盲点適応に依存するため、適応失敗の課題に直面している。 従来のアウト・オブ・ディストリビューション性能推定法は、ラベル付きデータや再学習モデルなどのTTAコンテキストにおける非現実的な仮定によって制限される。 そこで本稿では,TTAのラベルなし精度推定アルゴリズムであるAETTAを提案する。 本稿では,予測不一致を精度推定として,目標モデル予測とドロップアウト推定を比較して計算する。 次に,適応障害下でのAETTAの適用性を高めるための予測不一致を改善する。 4つのベースラインと6つのTTA手法による広範囲な評価は、AETTAがベースラインと比較して平均19.8%pの精度で推定できることを示している。 さらに、モデル回復事例研究による精度推定の有効性を実証し、精度推定に基づくモデル回復の実用性を示す。 ソースコードはhttps://github.com/taeckyung/AETTAで入手できる。

Test-time adaptation (TTA) has emerged as a viable solution to adapt pre-trained models to domain shifts using unlabeled test data. However, TTA faces challenges of adaptation failures due to its reliance on blind adaptation to unknown test samples in dynamic scenarios. Traditional methods for out-of-distribution performance estimation are limited by unrealistic assumptions in the TTA context, such as requiring labeled data or re-training models. To address this issue, we propose AETTA, a label-free accuracy estimation algorithm for TTA. We propose the prediction disagreement as the accuracy estimate, calculated by comparing the target model prediction with dropout inferences. We then improve the prediction disagreement to extend the applicability of AETTA under adaptation failures. Our extensive evaluation with four baselines and six TTA methods demonstrates that AETTA shows an average of 19.8%p more accurate estimation compared with the baselines. We further demonstrate the effectiveness of accuracy estimation with a model recovery case study, showcasing the practicality of our model recovery based on accuracy estimation. The source code is available at https://github.com/taeckyung/AETTA.
翻訳日:2024-04-03 20:56:59 公開日:2024-04-01
# VortexViz:粒子軌道からの学習による渦境界の探索

VortexViz: Finding Vortex Boundaries by Learning from Particle Trajectories ( http://arxiv.org/abs/2404.01352v1 )

ライセンス: Link先を確認
Akila de Silva, Nicholas Tee, Omkar Ghanekar, Fahim Hasan Khan, Gregory Dusek, James Davis, Alex Pang, (参考訳) 渦は様々な科学分野において研究され、流体の挙動に関する洞察を提供する。 渦の境界を可視化することは、流れの現象を理解し、流れの不規則を検出するために重要である。 本稿では,深層学習技術を用いて渦境界を正確に抽出することの課題に対処する。 既存の手法は主に速度成分を学習するが,学習プロセスに粒子軌道(流路や経路)を取り入れた新しい手法を提案する。 流路や流路によって捕捉された流れ場の局所的・局所的特性を利用して,渦境界抽出の精度を高めることを目的とする。

Vortices are studied in various scientific disciplines, offering insights into fluid flow behavior. Visualizing the boundary of vortices is crucial for understanding flow phenomena and detecting flow irregularities. This paper addresses the challenge of accurately extracting vortex boundaries using deep learning techniques. While existing methods primarily train on velocity components, we propose a novel approach incorporating particle trajectories (streamlines or pathlines) into the learning process. By leveraging the regional/local characteristics of the flow field captured by streamlines or pathlines, our methodology aims to enhance the accuracy of vortex boundary extraction.
翻訳日:2024-04-03 20:56:59 公開日:2024-04-01
# エッジ用LLMの高効率蒸留

Efficiently Distilling LLMs for Edge Applications ( http://arxiv.org/abs/2404.01353v1 )

ライセンス: Link先を確認
Achintya Kundu, Fabian Lim, Aaron Chew, Laura Wynter, Penny Chong, Rhui Dih Lee, (参考訳) LLMのスーパーネットトレーニングは、(異なるサイズ/レイテンシの)モデルの数に関係なく、より小さなモデルのパレットを一定コストで生産する能力を与えるため、産業用途において非常に関心がある。 パラメータ効率のよいスーパーネットトレーニングのためのMLFS(Multi stage Low-rank Fine-tuning of Super-Transformers)と呼ばれる新しい手法を提案する。 商用エッジアプリケーションに適した高品質なエンコーダモデルを得ることができ、デコーダのみのモデルは同等の圧縮に耐性があるが、トレーニング時間を大幅に短縮するためにデコーダを効果的にスライスできることを示す。

Supernet training of LLMs is of great interest in industrial applications as it confers the ability to produce a palette of smaller models at constant cost, regardless of the number of models (of different size / latency) produced. We propose a new method called Multistage Low-rank Fine-tuning of Super-transformers (MLFS) for parameter-efficient supernet training. We show that it is possible to obtain high-quality encoder models that are suitable for commercial edge applications, and that while decoder-only models are resistant to a comparable degree of compression, decoders can be effectively sliced for a significant reduction in training time.
翻訳日:2024-04-03 20:56:59 公開日:2024-04-01
# ロバストフェアネスに対する入力摂動の両端剣

The Double-Edged Sword of Input Perturbations to Robust Accurate Fairness ( http://arxiv.org/abs/2404.01356v1 )

ライセンス: Link先を確認
Xuran Li, Peng Wu, Yanting Chen, Xingjun Ma, Zhen Zhang, Kaixiang Dong, (参考訳) ディープニューラルネットワーク(DNN)は、逆入力の摂動に敏感であることが知られており、予測精度または個々の公正度が低下する。 予測精度と対向的摂動に対する個人的公正性の感受性を共同評価するために, 頑健な正当性という新しい頑健性定義を導入する。 形式的に、堅牢な正確な公正性は、入力摂動を受けると、インスタンスとその類似の予測が基底真理と一貫して一致することを要求する。 本稿では,RAFair とよばれる敵攻撃手法を提案し,DNN における偽りや偏りのある敵の欠陥を暴露し,その正当性を欺いたり,個人の公正性を損なう。 そこで本研究では, それらの予測を正確かつ公平に補正し, 慎重に設計した良性摂動により, 効果的に対処できることを示す。 本研究は,DNNにおける入力摂動の両刃剣と,良性摂動を用いて敵の事象を正す可能性について検討する。

Deep neural networks (DNNs) are known to be sensitive to adversarial input perturbations, leading to a reduction in either prediction accuracy or individual fairness. To jointly characterize the susceptibility of prediction accuracy and individual fairness to adversarial perturbations, we introduce a novel robustness definition termed robust accurate fairness. Informally, robust accurate fairness requires that predictions for an instance and its similar counterparts consistently align with the ground truth when subjected to input perturbations. We propose an adversarial attack approach dubbed RAFair to expose false or biased adversarial defects in DNN, which either deceive accuracy or compromise individual fairness. Then, we show that such adversarial instances can be effectively addressed by carefully designed benign perturbations, correcting their predictions to be accurate and fair. Our work explores the double-edged sword of input perturbations to robust accurate fairness in DNN and the potential of using benign perturbations to correct adversarial instances.
翻訳日:2024-04-03 20:56:59 公開日:2024-04-01
# AIとソーシャルメディア分析を利用したGLP-1受容体アゴニストの副作用の解明

Utilizing AI and Social Media Analytics to Discover Adverse Side Effects of GLP-1 Receptor Agonists ( http://arxiv.org/abs/2404.01358v1 )

ライセンス: Link先を確認
Alon Bartal, Kathleen M. Jagodnik, Nava Pliskin, Abraham Seidmann, (参考訳) FDA承認後に明らかにされた薬物の副作用(ASE)は、患者の安全を脅かす。 そこで我々は,見落としているASEを迅速に検出するために,ソーシャルメディアから大量の公開データを分析できるデジタルヘルス手法を開発し,臨床研究,製造業者報告,ChatGPTを開発した。 グルカゴン様ペプチド1受容体アゴニスト(GLP-1 RA)に付随するASEは2030年までに指数関数的に1335億ドルに成長すると予想された。 Named Entity Recognition (NER) モデルを用いて, FDAの承認で見過ごされた21種類のASEの検出に成功した。 我々のデータ分析アプローチは、最先端のAI駆動のソーシャルメディア分析を活用して、新しくデプロイされた薬物に関連する報告されていないASEの検出に革命をもたらす。 規制当局や製造業者を支援するためにソーシャルメディアの力を解き放つことで、市場における新薬の安全性を高めることができる。

Adverse side effects (ASEs) of drugs, revealed after FDA approval, pose a threat to patient safety. To promptly detect overlooked ASEs, we developed a digital health methodology capable of analyzing massive public data from social media, published clinical research, manufacturers' reports, and ChatGPT. We uncovered ASEs associated with the glucagon-like peptide 1 receptor agonists (GLP-1 RA), a market expected to grow exponentially to $133.5 billion USD by 2030. Using a Named Entity Recognition (NER) model, our method successfully detected 21 potential ASEs overlooked upon FDA approval, including irritability and numbness. Our data-analytic approach revolutionizes the detection of unreported ASEs associated with newly deployed drugs, leveraging cutting-edge AI-driven social media analytics. It can increase the safety of new drugs in the marketplace by unlocking the power of social media to support regulators and manufacturers in the rapid discovery of hidden ASE risks.
翻訳日:2024-04-03 20:56:59 公開日:2024-04-01
# 画像分類最適化のためのスパイキング量子ニューラルネットワークの並列部分融合

Parallel Proportional Fusion of Spiking Quantum Neural Network for Optimizing Image Classification ( http://arxiv.org/abs/2404.01359v1 )

ライセンス: Link先を確認
Zuyu Xu, Kang Shen, Pengnian Cai, Tao Yang, Yuanming Hu, Shixian Chen, Yunlai Zhu, Zuheng Wu, Yuehua Dai, Jun Wang, Fei Yang, (参考訳) 最近のハイブリッド量子古典ニューラルネットワーク(HQCNN)アーキテクチャの出現は、機械学習アルゴリズムと計算のさまざまな側面を強化するために量子原理を統合することに関連する潜在的なアドバンテージにより、大きな注目を集めている。 しかし、現在のHQCNNのシリアル構造は、あるネットワークから別のネットワークへ次々に情報を伝達するものであり、ネットワークの訓練性や表現性に制限を課すことが多い。 本研究では,Parallel Proportional Fusion of Quantum and Spiking Neural Networks (PPF-QSNN) と呼ばれる新しいアーキテクチャを提案する。 データセット情報は、スパイキングニューラルネットワークと変分量子回路の両方に同時に供給され、出力は個々のコントリビューションに比例する。 画像分類のためのネットワーク性能に対する多様なPPF-QSNNパラメータの影響を系統的に評価し,最適構成の同定を目的とした。 MNISTデータセットの数値結果は、提案したPPF-QSNNが、既存のスパイキングニューラルネットワークと、精度、損失、ロバスト性といったメトリクスにわたって、シリアル量子ニューラルネットワークよりも優れていることを示している。 本研究は,HQCNNにおける新しい,効果的なアマルガメーション手法を導入し,人工知能計算における量子アドバンテージの進展と応用の基礎を築いた。

The recent emergence of the hybrid quantum-classical neural network (HQCNN) architecture has garnered considerable attention due to the potential advantages associated with integrating quantum principles to enhance various facets of machine learning algorithms and computations. However, the current investigated serial structure of HQCNN, wherein information sequentially passes from one network to another, often imposes limitations on the trainability and expressivity of the network. In this study, we introduce a novel architecture termed Parallel Proportional Fusion of Quantum and Spiking Neural Networks (PPF-QSNN). The dataset information is simultaneously fed into both the spiking neural network and the variational quantum circuits, with the outputs amalgamated in proportion to their individual contributions. We systematically assess the impact of diverse PPF-QSNN parameters on network performance for image classification, aiming to identify the optimal configuration. Numerical results on the MNIST dataset unequivocally illustrate that our proposed PPF-QSNN outperforms both the existing spiking neural network and the serial quantum neural network across metrics such as accuracy, loss, and robustness. This study introduces a novel and effective amalgamation approach for HQCNN, thereby laying the groundwork for the advancement and application of quantum advantage in artificial intelligent computations.
翻訳日:2024-04-03 20:56:59 公開日:2024-04-01
# 深層学習相回復のためのハーネスデータと物理

Harnessing Data and Physics for Deep Learning Phase Recovery ( http://arxiv.org/abs/2404.01360v1 )

ライセンス: Link先を確認
Kaiqiang Wang, Edmund Y. Lam, (参考訳) 光波の位相をその強度測定から計算する位相回復は、コヒーレント回折イメージング、適応光学、バイオメディカルイメージングなどの様々な用途に欠かせない。 これにより、物体の屈折率分布や地形の再構成や、撮像システムの収差の補正が可能になる。 近年,位相回復問題の解決にディープラーニングが有効であることが証明されている。 深層学習フェーズ回復戦略は、教師付き学習モードを持つデータ駆動型(DD)と、自己教師型学習モードを持つ物理駆動型(PD)である。 DDとPDは同じ目的を異なる方法で達成し、類似点と相違点を明らかにするために必要な研究を欠いている。 そこで本稿では,これら2つの深層学習位相回復戦略を,時間消費,精度,一般化能力,不適応性,事前能力の観点から総合的に比較する。 さらに,高頻度情報と低周波情報のバランスをとるために,データセットと物理を組み合わせた協調型(CD)戦略を提案する。 DD、PD、CDのコードはhttps://github.com/kqwang/DLPRで公開されている。

Phase recovery, calculating the phase of a light wave from its intensity measurements, is essential for various applications, such as coherent diffraction imaging, adaptive optics, and biomedical imaging. It enables the reconstruction of an object's refractive index distribution or topography as well as the correction of imaging system aberrations. In recent years, deep learning has been proven to be highly effective in addressing phase recovery problems. Two main deep learning phase recovery strategies are data-driven (DD) with supervised learning mode and physics-driven (PD) with self-supervised learning mode. DD and PD achieve the same goal in different ways and lack the necessary study to reveal similarities and differences. Therefore, in this paper, we comprehensively compare these two deep learning phase recovery strategies in terms of time consumption, accuracy, generalization ability, ill-posedness adaptability, and prior capacity. What's more, we propose a co-driven (CD) strategy of combining datasets and physics for the balance of high- and low-frequency information. The codes for DD, PD, and CD are publicly available at https://github.com/kqwang/DLPR.
翻訳日:2024-04-03 20:56:59 公開日:2024-04-01
# LLMアトリビュータ: LLM生成のためのインタラクティブビジュアルアトリビュータ

LLM Attributor: Interactive Visual Attribution for LLM Generation ( http://arxiv.org/abs/2404.01361v1 )

ライセンス: Link先を確認
Seongmin Lee, Zijie J. Wang, Aishwarya Chakravarthy, Alec Helbling, ShengYun Peng, Mansi Phute, Duen Horng Chau, Minsuk Kahng, (参考訳) 大規模言語モデル(LLM)は、様々な領域にわたる説得力のあるテキストを生成する素晴らしい能力を示しているが、その潜在的なリスクに関する懸念は、テキスト生成の背後にある根拠を理解することの重要性を強調している。 LLMのテキスト生成のトレーニングデータ属性を対話的に可視化するPythonライブラリであるLLM Attributorを提案する。 我々のライブラリは、LCMのテキスト生成を迅速に属性付けし、データポイントをトレーニングし、モデルの振る舞いを検査し、信頼性を高め、モデル生成したテキストとユーザが提供するテキストを比較する新しい方法を提供する。 ツールの視覚的かつインタラクティブな設計を説明し、LLaMA2モデルの使用シナリオを2つの異なるデータセットで微調整する。 LLM Attributorの計算ノートブックに対する広範なサポートのおかげで、ユーザは簡単に自分のワークフローに統合して、モデルの属性をインタラクティブに視覚化することができる。 アクセスと拡張性を容易にするため、私たちは https://github.com/poloclub/ LLM-Attribution で LLM Attributor をオープンソース化しました。 ビデオデモはhttps://youtu.be/mIG2MDQKQxM.comで公開されている。

While large language models (LLMs) have shown remarkable capability to generate convincing text across diverse domains, concerns around its potential risks have highlighted the importance of understanding the rationale behind text generation. We present LLM Attributor, a Python library that provides interactive visualizations for training data attribution of an LLM's text generation. Our library offers a new way to quickly attribute an LLM's text generation to training data points to inspect model behaviors, enhance its trustworthiness, and compare model-generated text with user-provided text. We describe the visual and interactive design of our tool and highlight usage scenarios for LLaMA2 models fine-tuned with two different datasets: online articles about recent disasters and finance-related question-answer pairs. Thanks to LLM Attributor's broad support for computational notebooks, users can easily integrate it into their workflow to interactively visualize attributions of their models. For easier access and extensibility, we open-source LLM Attributor at https://github.com/poloclub/ LLM-Attribution. The video demo is available at https://youtu.be/mIG2MDQKQxM.
翻訳日:2024-04-03 20:56:59 公開日:2024-04-01
# インシデント管理のためのAIOpsソリューション:技術ガイドラインと総合文献レビュー

AIOps Solutions for Incident Management: Technical Guidelines and A Comprehensive Literature Review ( http://arxiv.org/abs/2404.01363v1 )

ライセンス: Link先を確認
Youcef Remil, Anes Bendimerad, Romain Mathonat, Mehdi Kaytoue, (参考訳) 現代のITシステムの管理は、広範なデータストリームを扱う上で、スケーラビリティ、信頼性、効率性を必要とする、ユニークな課題を生んでいる。 従来の手法は手動のタスクやルールベースのアプローチに依存しており、ITシステムによって生成された大量のデータとアラートには非効率であることが証明されている。 AIOps(Artificial Intelligence for Operating Systems)がソリューションとして登場し、マシンラーニングやビッグデータといった高度な分析を活用してインシデント管理を強化している。 AIOpsはインシデントを検出して予測し、根本原因を特定し、治癒行動を自動化するとともに、品質を改善し、運用コストを削減する。 しかし、その可能性にもかかわらず、AIOpsドメインはまだ初期段階にあり、複数のセクターに分散化され、標準化された規約が欠如している。 研究と産業への貢献は、データ管理、ターゲット問題、実装の詳細、要件、能力に関する一貫したフレームワークなしで配布される。 本研究では,AIOpsの用語と分類について提案し,構造化されたインシデント管理手順を確立し,AIOpsフレームワークを構築するためのガイドラインを提供する。 また、インシデント管理タスク、アプリケーション領域、データソース、技術的アプローチなどの基準に基づいてコントリビューションを分類する。 目標は、インシデント管理のためのAIOpsの技術的および研究的な側面の包括的なレビューを提供することであり、知識を構造化し、ギャップを特定し、この分野における将来の発展の基礎を確立することを目的としている。

The management of modern IT systems poses unique challenges, necessitating scalability, reliability, and efficiency in handling extensive data streams. Traditional methods, reliant on manual tasks and rule-based approaches, prove inefficient for the substantial data volumes and alerts generated by IT systems. Artificial Intelligence for Operating Systems (AIOps) has emerged as a solution, leveraging advanced analytics like machine learning and big data to enhance incident management. AIOps detects and predicts incidents, identifies root causes, and automates healing actions, improving quality and reducing operational costs. However, despite its potential, the AIOps domain is still in its early stages, decentralized across multiple sectors, and lacking standardized conventions. Research and industrial contributions are distributed without consistent frameworks for data management, target problems, implementation details, requirements, and capabilities. This study proposes an AIOps terminology and taxonomy, establishing a structured incident management procedure and providing guidelines for constructing an AIOps framework. The research also categorizes contributions based on criteria such as incident management tasks, application areas, data sources, and technical approaches. The goal is to provide a comprehensive review of technical and research aspects in AIOps for incident management, aiming to structure knowledge, identify gaps, and establish a foundation for future developments in the field.
翻訳日:2024-04-03 20:56:59 公開日:2024-04-01
# 伝達エントロピーを用いた深層学習における情報平面解析の可視化

Information Plane Analysis Visualization in Deep Learning via Transfer Entropy ( http://arxiv.org/abs/2404.01364v1 )

ライセンス: Link先を確認
Adrian Moldovan, Angel Cataron, Razvan Andonie, (参考訳) フィードフォワードネットワークでは、トレーニング中の情報転送を定量化することにより、ある層が他層に与える影響を測定するために、Transfer Entropy(TE)を使用することができる。 Information Bottleneckの原則によると、ニューラルモデルの内部表現は、出力に関する十分な情報を保持しながら、可能な限り入力データを圧縮すべきである。 インフォメーションプレーン解析(Information Plane Analysis)は、インフォメーション・ボトルネック法(Information Bottleneck method)の文脈において、圧縮された表現に対して入力データに含まれる情報の量をプロットすることにより、圧縮と情報保存のトレードオフを理解するための可視化技術である。 相互情報によって測定される情報理論的圧縮と一般化の間に因果関係があるという主張は妥当であるが、異なる研究の結果は矛盾している。 相互情報とは対照的に、TEは変数間の時間的関係を捉えることができる。 このようなリンクを探索するために、我々の新しいアプローチでは、TEを用いて神経層間の情報伝達を定量化し、情報平面解析を行う。 我々は、さらなる調査の可能性を開き、実験結果を奨励した。

In a feedforward network, Transfer Entropy (TE) can be used to measure the influence that one layer has on another by quantifying the information transfer between them during training. According to the Information Bottleneck principle, a neural model's internal representation should compress the input data as much as possible while still retaining sufficient information about the output. Information Plane analysis is a visualization technique used to understand the trade-off between compression and information preservation in the context of the Information Bottleneck method by plotting the amount of information in the input data against the compressed representation. The claim that there is a causal link between information-theoretic compression and generalization, measured by mutual information, is plausible, but results from different studies are conflicting. In contrast to mutual information, TE can capture temporal relationships between variables. To explore such links, in our novel approach we use TE to quantify information transfer between neural layers and perform Information Plane analysis. We obtained encouraging experimental results, opening the possibility for further investigations.
翻訳日:2024-04-03 20:56:59 公開日:2024-04-01
# 効率的なLDM生成のためのプロンプト・プロンプト混合専門家

Prompt-prompted Mixture of Experts for Efficient LLM Generation ( http://arxiv.org/abs/2404.01365v1 )

ライセンス: Link先を確認
Harry Dong, Beidi Chen, Yuejie Chi, (参考訳) トランスフォーマーベースの大規模言語モデル (LLM) の開発により、これらのモデルは目覚ましい実用性のために多くの分野に適用されているが、デプロイにはかなりの計算コストがかかる。 幸いなことに、専門家の混合体(MoE)の切断や構築などの手法は、トランスフォーマーフィードフォワード(FF)ブロックの疎結合を利用して、高速化とメモリ要求の削減を図っている。 しかしながら、これらのテクニックは、トレーニングを必要とすることや、特定のタイプのアーキテクチャに制限されることが多いため、実際には非常にコストがかかり、柔軟性がない。 GRIFFINは、異なる非ReLUアクティベーション関数を持つ複数のLLMをまたいで効率よく生成するために、シーケンスレベルで独自のFFエキスパートを選択する新しいトレーニングフリーMoEである。 これは、多くの訓練されたLLMが自然に配列内で高度に構造化されたFF活性化パターンを発生させるという批判的な観察のためである。 我々の手法の単純さにもかかわらず、GRIFFINは従来のモデルの性能を、様々な分類タスクや生成タスクでほとんど劣化することなく維持する(例えば、NVIDIA L40のLlama 2 13Bでは1.25$\times$スピードアップ)。 コードはhttps://github.com/hdong920/GRIFFIN.comで入手できる。

With the development of transformer-based large language models (LLMs), they have been applied to many fields due to their remarkable utility, but this comes at a considerable computational cost at deployment. Fortunately, some methods such as pruning or constructing a mixture of experts (MoE) aim at exploiting sparsity in transformer feedforward (FF) blocks to gain boosts in speed and reduction in memory requirements. However, these techniques can be very costly and inflexible in practice, as they often require training or are restricted to specific types of architectures. To address this, we introduce GRIFFIN, a novel training-free MoE that selects unique FF experts at the sequence level for efficient generation across a plethora of LLMs with different non-ReLU activation functions. This is possible due to a critical observation that many trained LLMs naturally produce highly structured FF activation patterns within a sequence, which we call flocking. Despite our method's simplicity, we show with 50\% of the FF parameters, GRIFFIN maintains the original model's performance with little to no degradation on a variety of classification and generation tasks, all while improving latency (e.g. 1.25$\times$ speed-up in Llama 2 13B on an NVIDIA L40). Code will be available at https://github.com/hdong920/GRIFFIN.
翻訳日:2024-04-03 20:56:59 公開日:2024-04-01
# Biggerは必ずしも良くない - 潜伏拡散モデルのスケーリング特性

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models ( http://arxiv.org/abs/2404.01367v1 )

ライセンス: Link先を確認
Kangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar, (参考訳) 遅延拡散モデル (LDM) のスケーリング特性について, サンプリング効率に着目して検討した。 改良されたネットワークアーキテクチャと推論アルゴリズムは、拡散モデルのサンプリング効率を効果的に向上させることが示されているが、サンプリング効率の重要な決定要因であるモデルサイズの役割は、十分に検討されていない。 確立されたテキスト・画像拡散モデルの実証分析を通じて,モデルサイズがサンプリング効率に与える影響を,様々なサンプリングステップで詳細に調査する。 予測予算の下で運用する場合、より小さなモデルは、高品質な結果を生み出す上で、より大きな等価性を上回ることがよくあります。 さらに,本研究は,種々の拡散サンプルに適用し,多様な下流タスクを探索し,蒸留後モデルの評価を行い,また,トレーニング計算と比較することにより,これらの知見の一般化性を示すために拡張された。 これらの知見は, 限られた推論予算内での生成能力向上に活用可能な, LDMスケーリング戦略開発のための新たな経路を開拓する。

We study the scaling properties of latent diffusion models (LDMs) with an emphasis on their sampling efficiency. While improved network architecture and inference algorithms have shown to effectively boost sampling efficiency of diffusion models, the role of model size -- a critical determinant of sampling efficiency -- has not been thoroughly examined. Through empirical analysis of established text-to-image diffusion models, we conduct an in-depth investigation into how model size influences sampling efficiency across varying sampling steps. Our findings unveil a surprising trend: when operating under a given inference budget, smaller models frequently outperform their larger equivalents in generating high-quality results. Moreover, we extend our study to demonstrate the generalizability of the these findings by applying various diffusion samplers, exploring diverse downstream tasks, evaluating post-distilled models, as well as comparing performance relative to training compute. These findings open up new pathways for the development of LDM scaling strategies which can be employed to enhance generative capabilities within limited inference budgets.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# 非可逆対称性保護位相としてのクラスター状態

Cluster state as a non-invertible symmetry protected topological phase ( http://arxiv.org/abs/2404.01369v1 )

ライセンス: Link先を確認
Sahand Seifnashri, Shu-Heng Shao, (参考訳) 標準的な 1+1d $\mathbb{Z}_2\times \mathbb{Z}_2$ クラスタモデルは、融合圏 Rep(D$_8$) によって記述される非可逆な大域対称性を持つことを示す。 したがって、クラスター状態は$\mathbb{Z}_2\times \mathbb{Z}_2$対称性保護位相(SPT)相であるだけでなく、非可逆SPT相でもある。 さらに、他の2つの Rep(D$_8$) SPT 相に対して、2つの新しい可換なパウリ・ハミルトニアンは、場の理論と数学の分類に一致するような、テンソル積ヒルベルト空間(英語版)(Hilbert space of qubits)上で発見された。 これらの非可逆SPT相間の界面におけるエッジモードと局所射影代数を同定する。 最後に、これらの異なるSPT状態の間を写像する対称エンタングルが存在しないことを示す。

We show that the standard 1+1d $\mathbb{Z}_2\times \mathbb{Z}_2$ cluster model has a non-invertible global symmetry, described by the fusion category Rep(D$_8$). Therefore, the cluster state is not only a $\mathbb{Z}_2\times \mathbb{Z}_2$ symmetry protected topological (SPT) phase, but also a non-invertible SPT phase. We further find two new commuting Pauli Hamiltonians for the other two Rep(D$_8$) SPT phases on a tensor product Hilbert space of qubits, matching the classification in field theory and mathematics. We identify the edge modes and the local projective algebras at the interfaces between these non-invertible SPT phases. Finally, we show that there does not exist a symmetric entangler that maps between these distinct SPT states.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# 確率的一方向シークレットキー蒸留のためのノーゴー定理

No-go theorem for probabilistic one-way secret-key distillation ( http://arxiv.org/abs/2404.01392v1 )

ライセンス: Link先を確認
Vishal Singh, Mark M. Wilde, (参考訳) 確率的一方向蒸留可能な秘密鍵は、局所演算と一方向古典通信により、完全秘密鍵ビットを二部体状態から確率的に蒸留できる最大の期待レートに等しい。 ここでは超双対状態の集合を定義し、この集合の任意の状態が確率的一方向シークレットキー蒸留には使えないことを証明する。 この幅広い状態のクラスは、消去された状態と全ランク状態の両方を含む。 確率的一方向蒸留可能な秘密鍵と、より一般的に研究されている一方向蒸留可能な秘密鍵とを比較して、本研究の結果は、多くの興味のある状態において、それらの間に極端にギャップがあることを示し、近似一方向蒸留可能な秘密鍵はより大きくなっている。 以上の結果から, 確率的一方向エンタングルメント蒸留にも同様の結論が得られた。

The probabilistic one-way distillable secret key is equal to the largest expected rate at which perfect secret key bits can be probabilistically distilled from a bipartite state by means of local operations and one-way classical communication. Here we define the set of super two-extendible states and prove that an arbitrary state in this set cannot be used for probabilistic one-way secret-key distillation. This broad class of states includes both erased states and all full-rank states. Comparing the probabilistic one-way distillable secret key with the more commonly studied approximate one-way distillable secret key, our results demonstrate an extreme gap between them for many states of interest, with the approximate one-way distillable secret key being much larger. Our findings naturally extend to probabilistic one-way entanglement distillation, with similar conclusions.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# QSVTに対するケーススタディ:信号処理技術により改善された量子位相推定の評価

A case study against QSVT: assessment of quantum phase estimation improved by signal processing techniques ( http://arxiv.org/abs/2404.01396v1 )

ライセンス: Link先を確認
Sean Greenaway, William Pol, Sukin Sim, (参考訳) 近年では、量子位相推定(QPE)を測定無しのサブルーチンとしてコヒーレントに利用する量子アルゴリズムが提案されている。 これを効果的に行うためには、ルーチンは固有状態と単体に近い成功確率を区別できなければならない。 本稿では、この成功確率を最大化するための2つのアプローチと、以前に位相値分布の先行として研究されてきた量子特異値変換と、それを利用したウィンドウ関数との体系的比較について述べる。 量子特異値変換はウィンドウ関数アプローチによって著しく非分類化されており、後者はクエリコストの約1/4で成功確率を3~5桁改善することができる。 回路シミュレーションの結果、QPEはQSVTの統合の恩恵を受ける領域ではないことが示され、Kaiserウィンドウ関数の使用は、現在、高い成功確率でQPEを実現するための最も実用的な選択であることを示す。

In recent years, quantum algorithms have been proposed which use quantum phase estimation (QPE) coherently as a subroutine without measurement. In order to do this effectively, the routine must be able to distinguish eigenstates with success probability close to unity. In this paper, we provide the first systematic comparison between two approaches towards maximizing this success probability, one using the quantum singular value transform and the other leveraging window functions, which have been previously studied as priors of the phase value distribution. We find that the quantum singular value transform is significantly outclassed by the window function approach, with the latter able to achieve between 3 and 5 orders of magnitude improvement in the success probability with approximately 1/4 the query cost. Our circuit simulation results indicate that QPE is not a domain which benefits from the integration of QSVT and we show that the use of the Kaiser window function is currently the most practical choice for realizing QPE with high success probability.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# Few-Shotパーソナライズされたインスタンス認識のためのオブジェクト条件付きインスタンスバッグ

Object-conditioned Bag of Instances for Few-Shot Personalized Instance Recognition ( http://arxiv.org/abs/2404.01397v1 )

ライセンス: Link先を確認
Umberto Michieli, Jijoong Moon, Daehyun Kim, Mete Ozay, (参考訳) 今日では、ユーザーは視覚システムのパーソナライズを拡大して、数ショットのデータセットのみからオブジェクトの個人インスタンス(例えば犬ではなく犬)をローカライズし、識別することを要求している。 古典的なラベル付きベンチマーク(例えば、標準オブジェクト検出のための最新のYOLOv8モデル)のディープネットワークによる顕著な結果にもかかわらず、彼らはオブジェクトカテゴリのみではなく、異なるインスタンスを表現するためにクラス内での可変性を維持するのに苦労している。 抽出された特徴の多次統計に基づいて、OBoIのメトリック空間から個人インスタンスを検索・識別するために汎用オブジェクト検出モデルを拡張し、バックプロパゲーションを必要とせずに、OBoI(Object-conditioned Bag of Instances)を構築する。 マルチオーダー統計に頼れば、OBoIは異なるインスタンスを区別する上で、一貫した優れた精度を達成できる。 その結果,18件の個人の場合,77.1%の個人物体認識精度が達成され,最先端技術に比べて約12%の相対的な増加率を示した。

Nowadays, users demand for increased personalization of vision systems to localize and identify personal instances of objects (e.g., my dog rather than dog) from a few-shot dataset only. Despite outstanding results of deep networks on classical label-abundant benchmarks (e.g., those of the latest YOLOv8 model for standard object detection), they struggle to maintain within-class variability to represent different instances rather than object categories only. We construct an Object-conditioned Bag of Instances (OBoI) based on multi-order statistics of extracted features, where generic object detection models are extended to search and identify personal instances from the OBoI's metric space, without need for backpropagation. By relying on multi-order statistics, OBoI achieves consistent superior accuracy in distinguishing different instances. In the results, we achieve 77.1% personal object recognition accuracy in case of 18 personal instances, showing about 12% relative gain over the state of the art.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# 安全で責任性の高い大規模言語モデルの開発 - 包括的フレームワーク

Developing Safe and Responsible Large Language Models -- A Comprehensive Framework ( http://arxiv.org/abs/2404.01399v1 )

ライセンス: Link先を確認
Shaina Raza, Oluwanifemi Bamgbose, Shardul Ghuge, Fatemeh Tavakoli, Deepak John Reji, (参考訳) LLM(Large Language Models)の安全性とリスクに関する懸念が高まる中、これらの問題を緩和する手法を開発することが不可欠である。 LLMを用いた言語生成の安全性を高めるために設計されたモデルである SR$_{\text{LLM}}$ (Safe and Responsible Large Language Model) を導入する。 本手法では,LLMの安全リスク分類を包括的に導入し,この分類と整合した専門家によって注釈付けされたデータセットを利用する。 SR$_{\text{LLM}}$は、潜在的に安全でないコンテンツを識別し、良質なバリエーションを生成するように設計されている。 命令ベースおよびパラメータ効率の高い微調整手法を採用しており、安全性の向上だけでなく、資源効率の向上や調整の容易化にも有効である。 5つのベンチマークデータセットと2つのプロプライエタリなデータセットでテストした結果、安全でないコンテンツの生成が顕著に減少した。 さらに、安全対策の実施により、安全なコンテンツの生産が大幅に改善された。 我々は、我々の微調整プロセスとSR$_{\text{LLM}}$の安全性をコミュニティエンゲージメントとベンチマークし、LCMの責任ある進歩を促進する方法について詳述する。 すべてのデータとコードはhttps://github.com/shainarazavi/Safe-Responsible-LLM で匿名で公開されている。

Given the growing concerns around the safety and risks of Large Language Models (LLMs), it is essential to develop methods for mitigating these issues. We introduce Safe and Responsible Large Language Model (SR$_{\text{LLM}}$) , a model designed to enhance the safety of language generation using LLMs. Our approach incorporates a comprehensive LLM safety risk taxonomy and utilizes a dataset annotated by experts that align with this taxonomy. SR$_{\text{LLM}}$ is designed to identify potentially unsafe content and produce benign variations. It employs instruction-based and parameter-efficient fine-tuning methods, making the model not only effective in enhancing safety but also resource-efficient and straightforward to adjust. Through our testing on five benchmark datasets and two proprietary datasets, we observed notable reductions in the generation of unsafe content. Moreover, following the implementation of safety measures, there was a significant improvement in the production of safe content. We detail our fine-tuning processes and how we benchmark safety for SR$_{\text{LLM}}$ with the community engagement and promote the responsible advancement of LLMs. All the data and code are available anonymous at https://github.com/shainarazavi/Safe-Responsible-LLM .
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# ContactHandover: 接触誘導型ロボットとHumanオブジェクトのハンドオーバ

ContactHandover: Contact-Guided Robot-to-Human Object Handover ( http://arxiv.org/abs/2404.01402v1 )

ライセンス: Link先を確認
Zixi Wang, Zeyi Liu, Nicolas Ouporov, Shuran Song, (参考訳) ロボットと人間のオブジェクトのハンドオーバは多くのロボットの協調作業において重要なステップである。 ハンドオーバが成功した場合、ロボットは、人間が自然で使いやすい方法でオブジェクトを受け取ることを確実にしながら、オブジェクトの安定した把握を維持する必要がある。 本研究では,接触誘導獲得フェーズと物体の伝達フェーズの2つのフェーズからなるロボットと人間のハンドオーバシステムであるContactHandoverを提案する。 把握フェーズでは、ContactHandoverは6-DoFロボットのグリップポーズと、オブジェクト上の人間の接触点の3D割当マップの両方を予測する。 ロボットグリップポーズは、人間の接触点を塞ぐものを罰し、ロボットが最上位のグリップを実行することにより、リランクされる。 配達段階では、人間の腕関節トルクと変位を最小化しつつ、人間に近い接触点を最大化してロボットエンドエフェクタポーズを算出する。 そこで本システムは,27種類の多種多様な対象物に対して評価を行い,複数のベースラインと比較して,人間との接触の視認性や到達性の向上を図っている。 さらなる結果はhttps://clairezixiwang.github.io/ContactHandover.github.ioで見ることができる。

Robot-to-human object handover is an important step in many human robot collaboration tasks. A successful handover requires the robot to maintain a stable grasp on the object while making sure the human receives the object in a natural and easy-to-use manner. We propose ContactHandover, a robot to human handover system that consists of two phases: a contact-guided grasping phase and an object delivery phase. During the grasping phase, ContactHandover predicts both 6-DoF robot grasp poses and a 3D affordance map of human contact points on the object. The robot grasp poses are reranked by penalizing those that block human contact points, and the robot executes the highest ranking grasp. During the delivery phase, the robot end effector pose is computed by maximizing human contact points close to the human while minimizing the human arm joint torques and displacements. We evaluate our system on 27 diverse household objects and show that our system achieves better visibility and reachability of human contacts to the receiver compared to several baselines. More results can be found on https://clairezixiwang.github.io/ContactHandover.github.io
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# OVFoodSeg: 画像インフォームドテクスチャ表現によるオープン語彙食品画像のセグメンテーション

OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation ( http://arxiv.org/abs/2404.01409v1 )

ライセンス: Link先を確認
Xiongwei Wu, Sicheng Yu, Ee-Peng Lim, Chong-Wah Ngo, (参考訳) 食品処理の分野では、画像からの成分の分別は、同じ成分のクラス内における大きなばらつき、新しい成分の出現、大規模な食品分別データセットに関連する高付加価値コストなどにより、大きな課題を生んでいる。 既存のアプローチは、主にクローズド語彙と静的テキスト埋め込みの設定を利用する。 これらの方法は、材料、特に新しくて多様なものを効果的に扱うのに不足することが多い。 OVFoodSegはオープンな語彙設定を採用し、視覚的コンテキストでテキストの埋め込みを強化するフレームワークである。 視覚言語モデル (VLM) を統合することにより,2つの革新的なモジュール,例えば画像からテキストへの学習者FoodLearnerと画像インフォームドテキストエンコーダを通じて,画像固有情報へのテキスト埋め込みを強化する。 OVFoodSegのトレーニングプロセスは、FoodLearnerの事前トレーニングと、セグメンテーションのためのその後の学習フェーズの2つの段階に分けられる。 事前学習フェーズは、FoodLearnerに、視覚情報を、特に食品に関連する対応するテキスト表現と整合させる機能を備え、第2フェーズは、セグメンテーションタスクのためにFoodLearnerとImage-Informed Text Encoderの両方を適応させる。 以前のモデルの欠陥に対処することによって、OVFoodSegは大幅な改善を示し、FoodSeg103データセット上での平均IoU(Intersection over Union)の平均4.9\%の増加を実現し、食品画像セグメンテーションの新たなマイルストーンを樹立した。

In the realm of food computing, segmenting ingredients from images poses substantial challenges due to the large intra-class variance among the same ingredients, the emergence of new ingredients, and the high annotation costs associated with large food segmentation datasets. Existing approaches primarily utilize a closed-vocabulary and static text embeddings setting. These methods often fall short in effectively handling the ingredients, particularly new and diverse ones. In response to these limitations, we introduce OVFoodSeg, a framework that adopts an open-vocabulary setting and enhances text embeddings with visual context. By integrating vision-language models (VLMs), our approach enriches text embedding with image-specific information through two innovative modules, eg, an image-to-text learner FoodLearner and an Image-Informed Text Encoder. The training process of OVFoodSeg is divided into two stages: the pre-training of FoodLearner and the subsequent learning phase for segmentation. The pre-training phase equips FoodLearner with the capability to align visual information with corresponding textual representations that are specifically related to food, while the second phase adapts both the FoodLearner and the Image-Informed Text Encoder for the segmentation task. By addressing the deficiencies of previous models, OVFoodSeg demonstrates a significant improvement, achieving an 4.9\% increase in mean Intersection over Union (mIoU) on the FoodSeg103 dataset, setting a new milestone for food image segmentation.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# 雑音指向適応リマッピングによる量子近似最適化の改善

Improving Quantum Approximate Optimization by Noise-Directed Adaptive Remapping ( http://arxiv.org/abs/2404.01412v1 )

ライセンス: Link先を確認
Filip B. Maciejewski, Jacob Biamonte, Stuart Hadfield, Davide Venturelli, (参考訳) ある種の雑音を利用して二項最適化問題を解くためのヒューリスティックなメタアルゴリズムである \emph{Noise-Directed Adaptive Remapping} (NDAR) を提案する。 我々は、グローバルなアトラクタ状態を特徴とするダイナミックスを備えたノイズの多い量子プロセッサへのアクセスを検討する。 標準的な設定では、そのようなノイズは量子最適化性能に有害である。 NDARでは、アルゴリズムはコスト関数ハミルトニアンを反復的にゲージ変換することでアトラクタをブートストラップする。 各反復ステップにおいて、ゲージ変換は、前ステップの変分最適化の結果に基づいて、アトラクタ状態をコストハミルトニアンの高品質な解に効果的に変換する。 その結果、ノイズはノイズを邪魔するのではなく、変分最適化に役立ちます。 我々は,Rigetti Computingの超伝導デバイスAnkaa-2の最新世代のサブシステムを用いた量子近似最適化アルゴリズム実験において,我々のプロトコルの有効性を実証する。 NDAR と組み合わせて深度 $p=1$ (ノイズ) QAOA のみを用いて、n=82$ qubits 上のランダムで完全連結なグラフ (シェリントン・カークパトリックモデル) の複数インスタンスに対する近似比 (ベストプラクティスの最良の解の) $0.9$-$0.96$ (インスタンス間拡散) を得る。 これは、同じ関数呼び出し数でバニラ$p=1$ QAOAに対して0.34$-$0.51$と比較する。

We present \emph{Noise-Directed Adaptive Remapping} (NDAR), a heuristic meta-algorithm for approximately solving binary optimization problems by leveraging certain types of noise. We consider access to a noisy quantum processor with dynamics that features a global attractor state. In a standard setting, such noise can be detrimental to the quantum optimization performance. In NDAR, the algorithm bootstraps the attractor by iteratively gauge-transforming the cost-function Hamiltonian. In each iteration step, the gauge transformation effectively changes the attractor state into a higher-quality solution of the cost Hamiltonian based on the results of variational optimization in the previous step. The end result is that noise aids variational optimization, as opposed to hindering it. We demonstrate the effectiveness of our protocol in Quantum Approximate Optimization Algorithm experiments with subsystems of the newest generation of Rigetti Computing's superconducting device Ankaa-2. We obtain approximation ratios (of best-found solutions) $0.9$-$0.96$ (spread across instances) for multiple instances of random, fully connected graphs (Sherrington-Kirkpatrick model) on $n=82$ qubits, using only depth $p=1$ (noisy) QAOA in conjunction with NDAR. This compares to $0.34$-$0.51$ for vanilla $p=1$ QAOA with the same number of function calls.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# モデル崩壊は必然か? 実データと合成データを蓄積して再帰の曲線を破る

Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data ( http://arxiv.org/abs/2404.01413v1 )

ライセンス: Link先を確認
Matthias Gerstgrasser, Rylan Schaeffer, Apratim Dey, Rafael Rafailov, Henry Sleight, John Hughes, Tomasz Korbak, Rajashree Agrawal, Dhruv Pai, Andrey Gromov, Daniel A. Roberts, Diyi Yang, David L. Donoho, Sanmi Koyejo, (参考訳) 生成モデルの拡散は、Webスケールのデータの事前学習と相まって、タイムリーな疑問を引き起こします。 モデルデータフィードバックループに関する最近の研究により、そのようなループがモデル崩壊につながることが判明した。 しかし、モデル崩壊を研究する最近の論文では、新しいデータが時間とともに蓄積されると仮定するのではなく、時間とともに古いデータを置き換えることを仮定している。 本稿では,これらの2つの設定を比較し,蓄積データによってモデル崩壊が防止されることを示す。 まず、線形モデルの列が以前のモデルの予測に適合する解析的抽出可能な設定について検討する。 従来の研究は,データを置き換える場合,テストエラーがモデル適合反復数とともに線形に増加することを示した。 次に,テキストコーパス上の言語モデルの列を事前学習することにより,データの蓄積がモデル崩壊を防止できるかどうかを実証的に検証する。 データの置換がモデル崩壊を引き起こすことを確認し、蓄積したデータによってモデル崩壊が防止されることを示す。 さらに, 分子生成のための拡散モデルと画像生成のための変分オートエンコーダという, 実データ上の他の深部生成モデルについても同様の結果が得られた。 我々の研究は、データの蓄積がモデル崩壊を緩和する、一貫した理論的および実証的な証拠を提供する。

The proliferation of generative models, combined with pretraining on web-scale data, raises a timely question: what happens when these models are trained on their own generated outputs? Recent investigations into model-data feedback loops discovered that such loops can lead to model collapse, a phenomenon where performance progressively degrades with each model-fitting iteration until the latest model becomes useless. However, several recent papers studying model collapse assumed that new data replace old data over time rather than assuming data accumulate over time. In this paper, we compare these two settings and show that accumulating data prevents model collapse. We begin by studying an analytically tractable setup in which a sequence of linear models are fit to the previous models' predictions. Previous work showed if data are replaced, the test error increases linearly with the number of model-fitting iterations; we extend this result by proving that if data instead accumulate, the test error has a finite upper bound independent of the number of iterations. We next empirically test whether accumulating data similarly prevents model collapse by pretraining sequences of language models on text corpora. We confirm that replacing data does indeed cause model collapse, then demonstrate that accumulating data prevents model collapse; these results hold across a range of model sizes, architectures and hyperparameters. We further show that similar results hold for other deep generative models on real data: diffusion models for molecule generation and variational autoencoders for image generation. Our work provides consistent theoretical and empirical evidence that data accumulation mitigates model collapse.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# 視覚変換器の説明の忠実性について

On the Faithfulness of Vision Transformer Explanations ( http://arxiv.org/abs/2404.01415v1 )

ライセンス: Link先を確認
Junyi Wu, Weitai Kang, Hao Tang, Yuan Hong, Yan Yan, (参考訳) 視覚変換器を解釈するために、ポストホックの説明では、サリエンススコアを入力ピクセルに割り当て、人間の理解可能なヒートマップを提供する。 しかしながら、これらの解釈がモデル出力の真理性を反映しているかどうかはまだ未定である。 このギャップに対処するために, 与えられたサリエンススコアは, モデルの予測に対する対応する入力画素の影響を表現すべきである, 説明の忠実度基準について検討する。 忠実度を評価するために,サリエンス誘導忠実度係数(SaCo)を導入し,サリエンス分布の本質的情報を活用する新しい評価指標を提案する。 具体的には、異なる画素群間のペアワイズ比較を行い、それらのサリエンススコアの差を集計し、説明の忠実度を示す係数を与える。 我々の調査では、現在のメトリクスは高度な説明方法とランダム属性を区別するのに苦労しており、従って忠実性の獲得に失敗している。 対照的に、提案したSaCoは信頼性の高い忠実度測定を提供し、解釈のための堅牢な計量を確立している。 さらに、我々は、勾配と多層アグリゲーションを用いることで、注意に基づく説明の忠実さを著しく向上させ、視覚トランスフォーマーの説明可能性を高めるための潜在的な経路に光を当てることができることを示した。

To interpret Vision Transformers, post-hoc explanations assign salience scores to input pixels, providing human-understandable heatmaps. However, whether these interpretations reflect true rationales behind the model's output is still underexplored. To address this gap, we study the faithfulness criterion of explanations: the assigned salience scores should represent the influence of the corresponding input pixels on the model's predictions. To evaluate faithfulness, we introduce Salience-guided Faithfulness Coefficient (SaCo), a novel evaluation metric leveraging essential information of salience distribution. Specifically, we conduct pair-wise comparisons among distinct pixel groups and then aggregate the differences in their salience scores, resulting in a coefficient that indicates the explanation's degree of faithfulness. Our explorations reveal that current metrics struggle to differentiate between advanced explanation methods and Random Attribution, thereby failing to capture the faithfulness property. In contrast, our proposed SaCo offers a reliable faithfulness measurement, establishing a robust metric for interpretations. Furthermore, our SaCo demonstrates that the use of gradient and multi-layer aggregation can markedly enhance the faithfulness of attention-based explanation, shedding light on potential paths for advancing Vision Transformer explainability.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# ボソニック応用によるトロッターおよびゼノ生成物の強境界について

On Strong Bounds for Trotter and Zeno Product Formulas with Bosonic Applications ( http://arxiv.org/abs/2404.01422v1 )

ライセンス: Link先を確認
Tim Möbus, (参考訳) トロッター積公式と量子ゼノ効果は、実験的に実現可能なビルディングブロックを用いて時間進化を構築するために必要なツールである。 本研究では、バナッハ空間上の強作用素位相において量的境界が証明できる仮定について議論し、自然ボソニックな例を示す。 特に、関連する生成元を相対的に有界にし、安定な制限付き極限半群の不変部分空間を生成する、連続的に埋め込まれたバナッハ空間の存在を仮定する。 許容可能部分空間のわずかに強い仮定は、結果が拡張される双曲進化系(時依存半群)の領域においてよく認識される。 連続埋め込みバナッハ空間の階層へのアクセスを仮定することで、鈴木高階境界が証明できる。 ボソニックな応用において、これらの埋め込みバナッハ空間は自然に数演算子を通して生じ、ボース=ハッバードモデル、オルンシュタイン=ウレンベック半群、およびボソニックな誤り訂正に使用される多光子駆動散逸のような顕著な例を含む様々な例をもたらす。

The Trotter product formula and the quantum Zeno effect are both indispensable tools for constructing time-evolutions using experimentally feasible building blocks. In this work, we discuss assumptions under which quantitative bounds can be proven in the strong operator topology on Banach spaces and provide natural bosonic examples. Specially, we assume the existence of a continuously embedded Banach space, which relatively bounds the involved generators and creates an invariant subspace of the limiting semigroup with a stable restriction. The slightly stronger assumption of admissible subspaces is well-recognized in the realm of hyperbolic evolution systems (time-dependent semigroups), to which the results are extended. By assuming access to a hierarchy of continuously embedded Banach spaces, Suzuki-higher-order bounds can be demonstrated. In bosonic applications, these embedded Banach spaces naturally arise through the number operator, leading to a diverse set of examples encompassing notable instances such as the Bose-Hubbard model, the Ornstein-Uhlenbeck semigroup, and multi-photon driven dissipation used in bosonic error correction.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# DPMesh:人間メッシュの回収に先立って拡散を爆発させる

DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery ( http://arxiv.org/abs/2404.01424v1 )

ライセンス: Link先を確認
Yixuan Zhu, Ao Li, Yansong Tang, Wenliang Zhao, Jie Zhou, Jiwen Lu, (参考訳) 閉鎖されたヒトメッシュの回収は、強力な閉塞下での効果的な画像特徴の抽出が困難であるため、現在の手法の課題を提起する。 本稿では,事前学習したテキスト・画像拡散モデルに埋め込まれたオブジェクト構造と空間的関係に先行する深層拡散を生かした,人間のメッシュ回復のための革新的なフレームワークであるDPMeshを紹介する。 バニラ特徴抽出のための従来のバックボーンに依存した従来の方法とは異なり、DPMeshは訓練済みのデノイングU-Netを画像バックボーンとして強力な知識でシームレスに統合し、オクルージョン認識情報を提供するシングルステップ推論を実行する。 隠蔽ポーズの知覚能力を高めるため、DPMeshは条件注入によるよく設計されたガイダンスを導入し、U-Netの2次元観察から効果的に制御する。 さらに,閉ざされたシナリオや混み合ったシナリオから生じる障害を緩和するための,専用ノイズの多いキーポイント推論手法について検討する。 この戦略は、拡散の知覚能力を完全に解き、精度を向上する。 包括的実験により、オクルージョン特化データセットと標準データセットの両方で最先端の手法を上回り、我々のフレームワークの有効性が確認された。 説得力のある結果は、特に閉塞や混み合ったシーンを含む困難なシナリオにおいて、正確で堅牢な3Dメッシュ回復を実現する能力を強調している。

The recovery of occluded human meshes presents challenges for current methods due to the difficulty in extracting effective image features under severe occlusion. In this paper, we introduce DPMesh, an innovative framework for occluded human mesh recovery that capitalizes on the profound diffusion prior about object structure and spatial relationships embedded in a pre-trained text-to-image diffusion model. Unlike previous methods reliant on conventional backbones for vanilla feature extraction, DPMesh seamlessly integrates the pre-trained denoising U-Net with potent knowledge as its image backbone and performs a single-step inference to provide occlusion-aware information. To enhance the perception capability for occluded poses, DPMesh incorporates well-designed guidance via condition injection, which produces effective controls from 2D observations for the denoising U-Net. Furthermore, we explore a dedicated noisy key-point reasoning approach to mitigate disturbances arising from occlusion and crowded scenarios. This strategy fully unleashes the perceptual capability of the diffusion prior, thereby enhancing accuracy. Extensive experiments affirm the efficacy of our framework, as we outperform state-of-the-art methods on both occlusion-specific and standard datasets. The persuasive results underscore its ability to achieve precise and robust 3D human mesh recovery, particularly in challenging scenarios involving occlusion and crowded scenes.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# LLMにおける位置認識パラメータによる位置バイアス低減手法

Position-Aware Parameter Efficient Fine-Tuning Approach for Reducing Positional Bias in LLMs ( http://arxiv.org/abs/2404.01430v1 )

ライセンス: Link先を確認
Zheng Zhang, Fan Yang, Ziyan Jiang, Zheng Chen, Zhengyang Zhao, Chengyuan Ma, Liang Zhao, Yang Liu, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、長い入力コンテキストを処理する能力を高めている。 この開発は、外部データストアから知識を取得することを含むタスクにおいて特に重要であり、長い入力をもたらす可能性がある。 しかし、近年の研究ではLSMの位置バイアスが示されており、入力シーケンス内の有用な情報の位置に応じて異なる性能を示す。 本研究では,位置バイアスの根本原因を明らかにするための広範囲な実験を行った。 以上の結果から,LLMの位置偏差の主な要因は,異なるモデルにおける位置嗜好に起因していることが示唆された。 位置的嗜好を克服するには,単にプロンプトベースのソリューションを採用するだけでは不十分であることを示す。 事前学習したLLMのこの位置バイアス問題に対処するため,データ拡張技術とパラメータ効率のよいアダプタからなる位置認識パラメータ効率向上(PAPEFT)アプローチを開発した。 実験により,提案手法は位置バイアスを効果的に低減し,外部から抽出した知識を必要とする様々なタスクに対する長いコンテキストシーケンス処理におけるLLMの有効性を向上することを示した。

Recent advances in large language models (LLMs) have enhanced their ability to process long input contexts. This development is particularly crucial for tasks that involve retrieving knowledge from an external datastore, which can result in long inputs. However, recent studies show a positional bias in LLMs, demonstrating varying performance depending on the location of useful information within the input sequence. In this study, we conduct extensive experiments to investigate the root causes of positional bias. Our findings indicate that the primary contributor to LLM positional bias stems from the inherent positional preferences of different models. We demonstrate that merely employing prompt-based solutions is inadequate for overcoming the positional preferences. To address this positional bias issue of a pre-trained LLM, we developed a Position-Aware Parameter Efficient Fine-Tuning (PAPEFT) approach which is composed of a data augmentation technique and a parameter efficient adapter, enhancing a uniform attention distribution across the input context. Our experiments demonstrate that the proposed approach effectively reduces positional bias, improving LLMs' effectiveness in handling long context sequences for various tasks that require externally retrieved knowledge.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# アフィン雑音変動を考慮した一般化平滑非凸最適化におけるRMSPropとAdamの収束保証

Convergence Guarantees for RMSProp and Adam in Generalized-smooth Non-convex Optimization with Affine Noise Variance ( http://arxiv.org/abs/2404.01436v1 )

ライセンス: Link先を確認
Qi Zhang, Yi Zhou, Shaofeng Zou, (参考訳) 本稿では,非凸最適化におけるRMSPropとAdamの密収束解析を,座標ワイドの一般化された滑らかさとアフィン雑音分散の最も緩和された仮定の下で行った。 我々はまず,適応学習率を持つAdamの特殊なケースであるRMSPropを分析する。 具体的には、適応的更新、非有界勾配推定、リプシッツ定数の依存による課題を解決するために、降下補題の1次項が収束し、その分母が勾配ノルムの関数によって上界となることを示す。 この結果から、適切なハイパーパラメータを持つ RMSProp は $\epsilon$-stationary point に収束し、反復複雑性は $\mathcal O(\epsilon^{-4})$ となる。 次に解析をアダムに一般化し、そこでは勾配と一階運動量とのミスマッチによる追加の挑戦を行う。 我々は、勾配ノルムの関数でもある降下補題において、一階項上の新しい上界を開発する。 適切なハイパーパラメータを持つアダムは$\epsilon$-定常点に収束し、反復複雑性は$\mathcal O(\epsilon^{-4})$となる。 RMSProp と Adam のどちらの複雑性も、 \cite{arjevani2023lower} で確立された複雑性の下限と一致する。

This paper provides the first tight convergence analyses for RMSProp and Adam in non-convex optimization under the most relaxed assumptions of coordinate-wise generalized smoothness and affine noise variance. We first analyze RMSProp, which is a special case of Adam with adaptive learning rates but without first-order momentum. Specifically, to solve the challenges due to dependence among adaptive update, unbounded gradient estimate and Lipschitz constant, we demonstrate that the first-order term in the descent lemma converges and its denominator is upper bounded by a function of gradient norm. Based on this result, we show that RMSProp with proper hyperparameters converges to an $\epsilon$-stationary point with an iteration complexity of $\mathcal O(\epsilon^{-4})$. We then generalize our analysis to Adam, where the additional challenge is due to a mismatch between the gradient and first-order momentum. We develop a new upper bound on the first-order term in the descent lemma, which is also a function of the gradient norm. We show that Adam with proper hyperparameters converges to an $\epsilon$-stationary point with an iteration complexity of $\mathcal O(\epsilon^{-4})$. Our complexity results for both RMSProp and Adam match with the complexity lower bound established in \cite{arjevani2023lower}.
翻訳日:2024-04-03 20:47:06 公開日:2024-04-01
# Radar Ghost Dataset - 自動車レーダデータにおけるゴーストオブジェクトの評価

The Radar Ghost Dataset -- An Evaluation of Ghost Objects in Automotive Radar Data ( http://arxiv.org/abs/2404.01437v1 )

ライセンス: Link先を確認
Florian Kraus, Nicolas Scheiner, Werner Ritter, Klaus Dietmayer, (参考訳) レーダーセンサーは、高度運転支援システム(ADAS)において長い伝統があり、また、現在の自動運転車の概念において重要な役割を果たしている。 その重要性は、雨、雪、霧のような気象効果に対する強い頑丈さと、レーダーがドップラー効果を介して相対的な放射速度の差を測定する能力によって説明されている。 これらの利点、すなわち大きな波長は、レーダーセンサーの欠点の1つでもある。 カメラやライダーセンサーと比較して、典型的な交通シナリオでは、レーダーの放射された信号に対して、より多くの表面が平坦に見えます。 この結果、レーダー信号のマルチパス反射、いわゆるゴースト検出が生じる。 ゴーストオブジェクトは、車両の知覚パイプラインにおいて、潜在的な偽陽性検出のための主要なソースとなる。 したがって,複数経路反射を直接的に分離できることが重要である。 本稿では,各種のゴースト検出のための詳細な手書きアノテーションを用いたデータセットを提案する。 さらに,これらのオブジェクトを識別するための2つの異なるアプローチが評価された。 我々のデータセットは、より多くの研究者がマルチパスオブジェクトの抑制やエクスプロイトの分野に携わることを願っている。

Radar sensors have a long tradition in advanced driver assistance systems (ADAS) and also play a major role in current concepts for autonomous vehicles. Their importance is reasoned by their high robustness against meteorological effects, such as rain, snow, or fog, and the radar's ability to measure relative radial velocity differences via the Doppler effect. The cause for these advantages, namely the large wavelength, is also one of the drawbacks of radar sensors. Compared to camera or lidar sensor, a lot more surfaces in a typical traffic scenario appear flat relative to the radar's emitted signal. This results in multi-path reflections or so called ghost detections in the radar signal. Ghost objects pose a major source for potential false positive detections in a vehicle's perception pipeline. Therefore, it is important to be able to segregate multi-path reflections from direct ones. In this article, we present a dataset with detailed manual annotations for different kinds of ghost detections. Moreover, two different approaches for identifying these kinds of objects are evaluated. We hope that our dataset encourages more researchers to engage in the fields of multi-path object suppression or exploitation.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# 手話ディープフェイクの生成と検出 -言語学的および視覚的分析-

Generation and Detection of Sign Language Deepfakes - A Linguistic and Visual Analysis ( http://arxiv.org/abs/2404.01438v1 )

ライセンス: Link先を確認
Shahzeb Naeem, Muhammad Riyyan Khan, Usman Tariq, Abhinav Dhall, Carlos Ivan Colon, Hasan Al-Nashash, (参考訳) ディープフェイクの領域における疑問は、顔のディープフェイクを超えて、それが社会にとって有益かどうかに関して徐々に現れつつある。 そこで本研究では,Deaf and Hard of Hearing (DHoH) コミュニティのための手話を実行しながら,上半身生成におけるディープフェイク技術の正の応用について述べる。 得られたビデオは後に手話の専門家によって審査される。 これは手話の複雑な性質、手話の専門家の不足、健康と教育の潜在的な利益を考えると特に有用である。 本研究の目的は、信頼性の高いディープフェイクデータセットの構築、コンピュータビジョンと自然言語処理モデルによる技術的および視覚的信頼性の評価、生成されたコンテンツの妥当性の評価を含む。 我々は手話の専門家の助けを借りて1200本以上の動画を生成モデルに使用し、手話の専門家の助けを借りてディープフェイクデータセットを構築し、特定の人物をターゲットとした偽ビデオの検出にさらに活用する。

A question in the realm of deepfakes is slowly emerging pertaining to whether we can go beyond facial deepfakes and whether it would be beneficial to society. Therefore, this research presents a positive application of deepfake technology in upper body generation, while performing sign-language for the Deaf and Hard of Hearing (DHoH) community. The resulting videos are later vetted with a sign language expert. This is particularly helpful, given the intricate nature of sign language, a scarcity of sign language experts, and potential benefits for health and education. The objectives of this work encompass constructing a reliable deepfake dataset, evaluating its technical and visual credibility through computer vision and natural language processing models, and assessing the plausibility of the generated content. With over 1200 videos, featuring both previously seen and unseen individuals for the generation model, using the help of a sign language expert, we establish a deepfake dataset in sign language that can further be utilized to detect fake videos that may target certain people of determination.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# 教師なし感情分析による絵文字レキシカの作成

Creating emoji lexica from unsupervised sentiment analysis of their descriptions ( http://arxiv.org/abs/2404.01439v1 )

ライセンス: Link先を確認
Milagros Fernández-Gavilanes, Jonathan Juncal-Martínez, Silvia García-Méndez, Enrique Costa-Montenegro, Francisco Javier González-Castaño, (参考訳) ブログやソーシャルネットワークサイトのようなオンラインメディアは、個人や組織の意見や感情を分析するために、膨大な量の構造化されていないデータを生成する。 自然言語処理以外の新しいアプローチは、これらの意見を極性メトリクスで定量化するために必要である。 これまでのところ、絵文字で表される感情はほとんど注目されていない。 しかし、シンボルの使用は過去4年間に急増している。 Twitterでは、現在約200億の絵文字がタイプされており、新しいUnicodeバージョンに新しい絵文字が登場し続けており、感情分析タスクに関連性が高まっている。 これは、手動でアノテートし、他の分析タスクに貴重な時間を節約する人的労力を必要としない、ツイートのようなオンラインテキストメッセージの絵文字によって表現される感情を予測する新しいアプローチを提案する動機となった。 そこで我々は,絵文字作成者によるエモジペディアの定義に基づいて,教師なし感情分析システムを用いて,新しい絵文字感情辞書を自動構築した。 さらに,絵文字に付随する非公式テキストの感情分布を考慮し,辞書の変種を自動的に生成した。 これらのレキシカは、Kralj Novak et al (2015)が提供する注釈付きデータセットの感情分析に含めることで得られる改善について評価され、比較される。 その結果、我々のアプローチの競争力が確認された。

Online media, such as blogs and social networking sites, generate massive volumes of unstructured data of great interest to analyze the opinions and sentiments of individuals and organizations. Novel approaches beyond Natural Language Processing are necessary to quantify these opinions with polarity metrics. So far, the sentiment expressed by emojis has received little attention. The use of symbols, however, has boomed in the past four years. About twenty billion are typed in Twitter nowadays, and new emojis keep appearing in each new Unicode version, making them increasingly relevant to sentiment analysis tasks. This has motivated us to propose a novel approach to predict the sentiments expressed by emojis in online textual messages, such as tweets, that does not require human effort to manually annotate data and saves valuable time for other analysis tasks. For this purpose, we automatically constructed a novel emoji sentiment lexicon using an unsupervised sentiment analysis system based on the definitions given by emoji creators in Emojipedia. Additionally, we automatically created lexicon variants by also considering the sentiment distribution of the informal texts accompanying emojis. All these lexica are evaluated and compared regarding the improvement obtained by including them in sentiment analysis of the annotated datasets provided by Kralj Novak et al. (2015). The results confirm the competitiveness of our approach.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# 未知の人工物体のディジタル双対構築のためのニューラルインプシティ表現

Neural Implicit Representation for Building Digital Twins of Unknown Articulated Objects ( http://arxiv.org/abs/2404.01440v1 )

ライセンス: Link先を確認
Yijia Weng, Bowen Wen, Jonathan Tremblay, Valts Blukis, Dieter Fox, Leonidas Guibas, Stan Birchfield, (参考訳) 本稿では2つのRGBDスキャンから未知の調音物体のディジタル双対を異なる調音状態で構築する問題に対処する。 我々は問題を2つの段階に分解し、それぞれ異なる側面に対処する。 提案手法は,まず各状態のオブジェクトレベル形状を再構成し,各状態を関連づける部分分割と関節節を含む基礎的調音モデルを復元する。 点レベルの対応を明示的にモデル化し,画像,3次元再構成,キネマティックスなどからの手がかりを活用することにより,従来よりも精度が高く安定した結果が得られる。 また、複数の可動部も扱っており、以前の物体の形や構造に依存していない。 プロジェクトページ:https://github.com/NVlabs/DigitalTwinArt

We address the problem of building digital twins of unknown articulated objects from two RGBD scans of the object at different articulation states. We decompose the problem into two stages, each addressing distinct aspects. Our method first reconstructs object-level shape at each state, then recovers the underlying articulation model including part segmentation and joint articulations that associate the two states. By explicitly modeling point-level correspondences and exploiting cues from images, 3D reconstructions, and kinematics, our method yields more accurate and stable results compared to prior work. It also handles more than one movable part and does not rely on any object shape or structure priors. Project page: https://github.com/NVlabs/DigitalTwinArt
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# 知識グラフと自然言語処理を組み合わせたエンタープライズユースケース

Enterprise Use Cases Combining Knowledge Graphs and Natural Language Processing ( http://arxiv.org/abs/2404.01443v1 )

ライセンス: Link先を確認
Phillip Schneider, Tim Schopf, Juraj Vladika, Florian Matthes, (参考訳) 知識管理は、データの生成と収集の量と複雑さが絶え間なく増大し続けており、今日のデジタル世界では、企業にとって重要な課題である。 知識グラフ(KG)は、柔軟でスケーラブルでセマンティックにリッチな方法でデータの整理と理解を提供することによって、この問題に対する有望な解決策として登場した。 本稿は,KGsと自然言語処理(NLP)を組み合わせた最近の研究成果に基づいている。 企業コンテキストから選択したアプリケーションシナリオに基づいて、このような組み合わせによる相乗効果について議論する。 我々は,KG に基づく NLP タスクだけでなく,KG 構築の3つの中核領域からの様々なアプローチについて論じる。 革新的な企業利用事例を説明することに加えて、実用性の観点からそれらの成熟度を評価し、今後の創発的アプリケーション分野の展望をまとめる。

Knowledge management is a critical challenge for enterprises in today's digital world, as the volume and complexity of data being generated and collected continue to grow incessantly. Knowledge graphs (KG) emerged as a promising solution to this problem by providing a flexible, scalable, and semantically rich way to organize and make sense of data. This paper builds upon a recent survey of the research literature on combining KGs and Natural Language Processing (NLP). Based on selected application scenarios from enterprise context, we discuss synergies that result from such a combination. We cover various approaches from the three core areas of KG construction, reasoning as well as KG-based NLP tasks. In addition to explaining innovative enterprise use cases, we assess their maturity in terms of practical applicability and conclude with an outlook on emergent application areas for the future.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# 複数事例学習による全スライド画像中の興味領域の探索

Finding Regions of Interest in Whole Slide Images Using Multiple Instance Learning ( http://arxiv.org/abs/2404.01446v1 )

ライセンス: Link先を確認
Martim Afonso, Praphulla M. S. Bhawsar, Monjoy Saha, Jonas S. Almeida, Arlindo L. Oliveira, (参考訳) 複数のスケールで顕微鏡スライドの高分解能デジタルスキャンによって得られた全スライド画像(WSI)は、現代のデジタル病理の基盤となっている。 しかし、それらはAIベースの/AIによる分析に対する特別な課題である。 医学診断が検体レベルで記録されているだけでなく、オンコジーン変異の検出も実験的に得られ、The Cancer Genome Atlas (TCGA)のようなイニシアチブによってスライドレベルで記録されている。 これは2つの課題を構成します。 a) がん全体の表現型を正確に予測し、 b) タイルレベルで、細胞形態とどのような関係があるかを調べること。 これらの課題に対処するため, 浸潤乳癌 (TCGA-BRCA) と肺扁平上皮癌 (TCGA-LUSC) の2種類のがんに対して, MIL (Multiple Instance Learning) アプローチが検討された。 本手法は, 腫瘍検出の低倍率レベル, TP53変異の各種レベルについて検討した。 その結果,MIL の新規な追加実装は参照実装の性能(AUC 0.96)と一致し,注意 MIL (AUC 0.97) がわずかに優れていた。 より興味深いことに、分子病理学の観点から、これらの異なるAIアーキテクチャは、異なる増幅レベルにおける(関心の領域の検出を通して)形態的特徴に対する異なる感度を識別する。 TP53変異は、細胞形態が解明されるより高度な用途の特徴に最も敏感であった。

Whole Slide Images (WSI), obtained by high-resolution digital scanning of microscope slides at multiple scales, are the cornerstone of modern Digital Pathology. However, they represent a particular challenge to AI-based/AI-mediated analysis because pathology labeling is typically done at slide-level, instead of tile-level. It is not just that medical diagnostics is recorded at the specimen level, the detection of oncogene mutation is also experimentally obtained, and recorded by initiatives like The Cancer Genome Atlas (TCGA), at the slide level. This configures a dual challenge: a) accurately predicting the overall cancer phenotype and b) finding out what cellular morphologies are associated with it at the tile level. To address these challenges, a weakly supervised Multiple Instance Learning (MIL) approach was explored for two prevalent cancer types, Invasive Breast Carcinoma (TCGA-BRCA) and Lung Squamous Cell Carcinoma (TCGA-LUSC). This approach was explored for tumor detection at low magnification levels and TP53 mutations at various levels. Our results show that a novel additive implementation of MIL matched the performance of reference implementation (AUC 0.96), and was only slightly outperformed by Attention MIL (AUC 0.97). More interestingly from the perspective of the molecular pathologist, these different AI architectures identify distinct sensitivities to morphological features (through the detection of Regions of Interest, RoI) at different amplification levels. Tellingly, TP53 mutation was most sensitive to features at the higher applications where cellular morphology is resolved.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# LA-CBCT再建のための先行周波数誘導拡散モデル

Prior Frequency Guided Diffusion Model for Limited Angle (LA)-CBCT Reconstruction ( http://arxiv.org/abs/2404.01448v1 )

ライセンス: Link先を確認
Jiacheng Xie, Hua-Chieh Shao, Yunxiang Li, You Zhang, (参考訳) コーンビームCT(CBCT)は画像誘導放射線療法に広く用いられている。 リミテッドアングル取得(LA-CBCT)からのCBCTの再構成は、画像効率の向上、線量削減、機械的クリアランスの向上に非常に期待されている。 しかし、LA-CBCT再建は深刻なアンダーサンプリングアーティファクトに悩まされており、非常に不適切な逆問題となっている。 拡散モデルは、学習したデータ分布を通してデータノイズ処理を反転させることでデータ/イメージを生成することができ、LA-CBCT再構成においてデノイザ/レギュラライザとして組み込むことができる。 本研究では,LA-CBCT再構成のための拡散モデルに基づく事前周波数誘導拡散モデル(PFGDM)を開発した。 PFGDMは、LA-CBCT再建の正則化剤として条件付き拡散モデルを使用し、この条件は、LA-CBCT再建に強い解剖学的前駆体を提供する患者特異的CTスキャンから抽出された高周波情報に基づいている。 具体的には,条件の異なるPFGDM(PFGDM-AとPFGDM-B)の2種類を開発した。 PFGDM-Aは、予め最適化された反復段階まで高周波CT情報条件を適用し、その後ドロップして、類似した異なるCT/CBCT解剖の再構築を可能にする。 一方、PFGDM-Bは、各再構成ステップにおいて、崩壊機構を伴って、前回のCTスキャンから徐々に復元指導を段階的に段階的に廃止する。 PFGDMの2つの変種は、PSNRやSSIMといったメトリクスを介して、現在利用可能なLA-CBCT再構成ソリューションと比較された。 PFGDMは従来の拡散モデルに基づく手法よりも優れていた。 PFGDMは、非常に限られたガントリー角度で高品質のLA-CBCTを再構成し、より高速で柔軟なCBCTスキャンを可能にする。

Cone-beam computed tomography (CBCT) is widely used in image-guided radiotherapy. Reconstructing CBCTs from limited-angle acquisitions (LA-CBCT) is highly desired for improved imaging efficiency, dose reduction, and better mechanical clearance. LA-CBCT reconstruction, however, suffers from severe under-sampling artifacts, making it a highly ill-posed inverse problem. Diffusion models can generate data/images by reversing a data-noising process through learned data distributions; and can be incorporated as a denoiser/regularizer in LA-CBCT reconstruction. In this study, we developed a diffusion model-based framework, prior frequency-guided diffusion model (PFGDM), for robust and structure-preserving LA-CBCT reconstruction. PFGDM uses a conditioned diffusion model as a regularizer for LA-CBCT reconstruction, and the condition is based on high-frequency information extracted from patient-specific prior CT scans which provides a strong anatomical prior for LA-CBCT reconstruction. Specifically, we developed two variants of PFGDM (PFGDM-A and PFGDM-B) with different conditioning schemes. PFGDM-A applies the high-frequency CT information condition until a pre-optimized iteration step, and drops it afterwards to enable both similar and differing CT/CBCT anatomies to be reconstructed. PFGDM-B, on the other hand, continuously applies the prior CT information condition in every reconstruction step, while with a decaying mechanism, to gradually phase out the reconstruction guidance from the prior CT scans. The two variants of PFGDM were tested and compared with current available LA-CBCT reconstruction solutions, via metrics including PSNR and SSIM. PFGDM outperformed all traditional and diffusion model-based methods. PFGDM reconstructs high-quality LA-CBCTs under very-limited gantry angles, allowing faster and more flexible CBCT scans with dose reductions.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# 経時的データに基づくLDMの多様性誘導ビアーゼの解明

Unveiling Divergent Inductive Biases of LLMs on Temporal Data ( http://arxiv.org/abs/2404.01453v1 )

ライセンス: Link先を確認
Sindhu Kishore, Hangfeng He, (参考訳) 自然言語における事象の複雑な詳細を明らかにするには、時間力学の微妙な理解が必要である。 大きな言語モデル(LLM)がデータからパターンや関係を識別する上で有効であるにもかかわらず、その時間的ダイナミクスの固有の理解は、依然として恐ろしい課題である。 本研究は, 時間データ解析において, GPT-3.5 モデルと GPT-4 モデルの性能評価に特に重点を置いて, LLM におけるこれらの本質的な課題を慎重に検討する。 質問応答(QA)形式とテクスチャ・エンターメント(TE)形式という,2つの異なるプロンプト型を用いて,暗黙的かつ明示的なイベントを探索する。 その結果, GPT-3.5 と GPT-4 の差がみられた。 特に、特定の時間的関係に対する偏見が明らかになり、GPT-3.5は暗黙のイベントと明示的なイベントの両方に対して「AFTER」を優先する一方、GPT-4は「BEFORE」に傾いている。 さらに、GPT-3.5は「TRUE」に傾向があり、GPT-4は暗黙のイベントと明示的なイベントの両方に対してTEフォーマットで「FALSE」を優先している。 この時間データ処理におけるGPT-3.5とGPT-4の相違は、LLMにおける誘導バイアスの複雑な性質を強調し、これらのモデルの進化が単にバイアスを軽減するだけでなく、新しい複雑さの層を導入する可能性があることを示唆している。

Unraveling the intricate details of events in natural language necessitates a subtle understanding of temporal dynamics. Despite the adeptness of Large Language Models (LLMs) in discerning patterns and relationships from data, their inherent comprehension of temporal dynamics remains a formidable challenge. This research meticulously explores these intrinsic challenges within LLMs, with a specific emphasis on evaluating the performance of GPT-3.5 and GPT-4 models in the analysis of temporal data. Employing two distinct prompt types, namely Question Answering (QA) format and Textual Entailment (TE) format, our analysis probes into both implicit and explicit events. The findings underscore noteworthy trends, revealing disparities in the performance of GPT-3.5 and GPT-4. Notably, biases toward specific temporal relationships come to light, with GPT-3.5 demonstrating a preference for "AFTER'' in the QA format for both implicit and explicit events, while GPT-4 leans towards "BEFORE''. Furthermore, a consistent pattern surfaces wherein GPT-3.5 tends towards "TRUE'', and GPT-4 exhibits a preference for "FALSE'' in the TE format for both implicit and explicit events. This persistent discrepancy between GPT-3.5 and GPT-4 in handling temporal data highlights the intricate nature of inductive bias in LLMs, suggesting that the evolution of these models may not merely mitigate bias but may introduce new layers of complexity.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# 非線型分光器のためのアブイニシアトn次感受性生成のための効率的な量子アルゴリズム

An efficient quantum algorithm for generation of ab initio n-th order susceptibilities for non-linear spectroscpies ( http://arxiv.org/abs/2404.01454v1 )

ライセンス: Link先を確認
Tyler Kharazi, Torin F. Stetina, Liwen Ko, Guang Hao Low, K. Birgitta Whaley, (参考訳) 我々は,分子・凝縮相系の非線形分光分析に必要な$n$-th次応答特性を計算するためのフォールトトレラント量子アルゴリズムを開発し,解析する。 電子自由度を量子力学的に扱い、光を古典的場として扱う半古典的記述を用いる。 提案するアルゴリズムは標準摂動理論手法の実装と見なすことができ、n$-次応答関数の計算に焦点をあてる。 我々は、摂動ハミルトニアンのブロックエンコーディングに対するクエリ数と摂動双極子作用素のブロックエンコーディングのコスト見積を提供する。 固有状態フィルタリングの手法を用いて、$\gamma$と、${O}\left(N^{6}\eta^2{{\gamma^{-1}}\epsilon^{-1}}\log(1/\epsilon)\right)を用いて対応する線形応答振幅$\epsilon$を分解するために励起エネルギーを抽出するアルゴリズムを提供する。 したがって、この手法はエネルギー推定のHeisenberg $O(\gamma^{-1})$制限を飽和させ、関連する遷移双極子モーメントの近似を可能にする。 これらの量と分極性の和-状態の定式化が組み合わさって、$\widetilde{O}\left({N^{5n+1}\eta^{n+1}}/{\gamma^n\epsilon}\right)$H_0$のブロックエンコーディングに対するクエリを用いて、限定的な仮定の下で、非線形分光学に対する$n$-階の感受性と応答関数を計算することができる。

We develop and analyze a fault-tolerant quantum algorithm for computing $n$-th order response properties necessary for analysis of non-linear spectroscopies of molecular and condensed phase systems. We use a semi-classical description in which the electronic degrees of freedom are treated quantum mechanically and the light is treated as a classical field. The algorithm we present can be viewed as an implementation of standard perturbation theory techniques, focused on {\it ab initio} calculation of $n$-th order response functions. We provide cost estimates in terms of the number of queries to the block encoding of the unperturbed Hamiltonian, as well as the block encodings of the perturbing dipole operators. Using the technique of eigenstate filtering, we provide an algorithm to extract excitation energies to resolution $\gamma$, and the corresponding linear response amplitude to accuracy $\epsilon$ using ${O}\left(N^{6}\eta^2{{\gamma^{-1}}\epsilon^{-1}}\log(1/\epsilon)\right)$ queries to the block encoding of the unperturbed Hamiltonian $H_0$, in double factorized representation. Thus, our approach saturates the Heisenberg $O(\gamma^{-1})$ limit for energy estimation and allows for the approximation of relevant transition dipole moments. These quantities, combined with sum-over-states formulation of polarizabilities, can be used to compute the $n$-th order susceptibilities and response functions for non-linear spectroscopies under limited assumptions using $\widetilde{O}\left({N^{5n+1}\eta^{n+1}}/{\gamma^n\epsilon}\right)$ queries to the block encoding of $H_0$.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# 地理的分散データセンターにおけるAI推論ワークロードのCO_2排出とエネルギーコスト最小化のためのゲーム理論深層強化学習

Game-Theoretic Deep Reinforcement Learning to Minimize Carbon Emissions and Energy Costs for AI Inference Workloads in Geo-Distributed Data Centers ( http://arxiv.org/abs/2404.01459v1 )

ライセンス: Link先を確認
Ninad Hogade, Sudeep Pasricha, (参考訳) データセンターは、環境に悪影響を及ぼし、運用コストを上昇させる人工知能(AI)ワークロードの増加により、ますますエネルギーを消費している。 データセンターのパフォーマンスを維持しながら、運用コストと二酸化炭素排出量を減らすことは、難しい問題です。 この研究は、地理分散データセンターにおけるAI推論ワークロードの分散を最適化するために、ゲーム理論(GT)とDeep Reinforcement Learning(DRL)を組み合わせたユニークなアプローチを導入し、二酸化炭素排出量とクラウド運用(エネルギー+データ転送)コストを削減する。 提案手法は,非協調型ゲーム理論の原理をDRLフレームワークに統合し,ハードウェア資源の不均一性,電力価格の動的性質,データセンタ間データ転送コスト,カーボンフットプリントを考慮した,ワークロード割り当てに関するインテリジェントな決定を可能にする。 ゲーム理論DRL(GT-DRL)と現在のDRLに基づく他の最適化手法との比較実験を行った。 その結果, 計算性能を損なうことなく, 二酸化炭素排出量の削減とクラウド運用コストの最小化において, 当社の戦略は現状よりも優れていた。 この研究は、さまざまな地理的場所にわたるAI推論ワークロードを処理するデータセンタにおいて、持続可能性とコスト効率を達成する上で、大きな意味を持つ。

Data centers are increasingly using more energy due to the rise in Artificial Intelligence (AI) workloads, which negatively impacts the environment and raises operational costs. Reducing operating expenses and carbon emissions while maintaining performance in data centers is a challenging problem. This work introduces a unique approach combining Game Theory (GT) and Deep Reinforcement Learning (DRL) for optimizing the distribution of AI inference workloads in geo-distributed data centers to reduce carbon emissions and cloud operating (energy + data transfer) costs. The proposed technique integrates the principles of non-cooperative Game Theory into a DRL framework, enabling data centers to make intelligent decisions regarding workload allocation while considering the heterogeneity of hardware resources, the dynamic nature of electricity prices, inter-data center data transfer costs, and carbon footprints. We conducted extensive experiments comparing our game-theoretic DRL (GT-DRL) approach with current DRL-based and other optimization techniques. The results demonstrate that our strategy outperforms the state-of-the-art in reducing carbon emissions and minimizing cloud operating costs without compromising computational performance. This work has significant implications for achieving sustainability and cost-efficiency in data centers handling AI inference workloads across diverse geographic locations.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# 真のリンダは立ち上がるか...大規模言語モデルへ? : LLMにおける代表性ヒューリスティックの検討

Will the Real Linda Please Stand up...to Large Language Models? Examining the Representativeness Heuristic in LLMs ( http://arxiv.org/abs/2404.01461v1 )

ライセンス: Link先を確認
Pengda Wang, Zilin Xiao, Hanjie Chen, Frederick L. Oswald, (参考訳) 大規模言語モデル(LLM)は、テキストの理解と人間的なテキスト生成に顕著な熟練性を示したが、訓練データから得られたバイアスを示す可能性がある。 特に、LSMは、代表性ヒューリスティックと呼ばれる人間の意思決定において共通の認知的罠に陥る可能性がある。 これは心理学における概念であり、より広い事実や統計的証拠を考えるよりも、よく知られたプロトタイプや典型的な例にどの程度近いかに基づいて事象の可能性を判断するものである。 本研究は, LLM推論における代表性ヒューリスティックの影響について検討する。 代表性ヒューリスティックAIテスト(Representativeness Heuristic AI Testing)は、6種類の代表性ヒューリスティックにまたがる一連の問題を含むデータセットである。 実験の結果、REHEATに適用された4つのLLMはいずれも代表性ヒューリスティックバイアスを示していた。 さらに、モデルの推論ステップが問題の記述よりもステレオタイプに基づいている場合が多いことを確認します。 興味深いことに、その知識を使用するモデルを思い出させるプロンプトにヒントを追加すると、パフォーマンスが向上する。 これは、従来の偏見と比較して代表性ヒューリスティックの独特さを示唆している。 LLMが認知的トラップで失敗しながら正しい知識を持っている場合でも起こりうる。 このことは、モデル推論と意思決定における代表性ヒューリスティックとそれに対応するソリューションの開発に焦点を当てた将来の研究の重要性を強調している。

Although large language models (LLMs) have demonstrated remarkable proficiency in understanding text and generating human-like text, they may exhibit biases acquired from training data in doing so. Specifically, LLMs may be susceptible to a common cognitive trap in human decision-making called the representativeness heuristic. This is a concept in psychology that refers to judging the likelihood of an event based on how closely it resembles a well-known prototype or typical example versus considering broader facts or statistical evidence. This work investigates the impact of the representativeness heuristic on LLM reasoning. We created REHEAT (Representativeness Heuristic AI Testing), a dataset containing a series of problems spanning six common types of representativeness heuristics. Experiments reveal that four LLMs applied to REHEAT all exhibited representativeness heuristic biases. We further identify that the model's reasoning steps are often incorrectly based on a stereotype rather than the problem's description. Interestingly, the performance improves when adding a hint in the prompt to remind the model of using its knowledge. This suggests the uniqueness of the representativeness heuristic compared to traditional biases. It can occur even when LLMs possess the correct knowledge while failing in a cognitive trap. This highlights the importance of future research focusing on the representativeness heuristic in model reasoning and decision-making and on developing solutions to address it.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# OpenChemIE: 化学文献のための情報抽出ツールキット

OpenChemIE: An Information Extraction Toolkit For Chemistry Literature ( http://arxiv.org/abs/2404.01462v1 )

ライセンス: Link先を確認
Vincent Fan, Yujie Qian, Alex Wang, Amber Wang, Connor W. Coley, Regina Barzilay, (参考訳) 化学文献からの情報抽出は、データ駆動化学のための最新の反応データベースの構築に不可欠である。 完全抽出には、テキスト、表、図形にまたがる情報の組み合わせが必要であるが、先行研究は主に単一モーダルからの反応の抽出について研究している。 本稿では、この複雑な課題に対処し、文書レベルでの反応データの抽出を可能にするためにOpenChemIEを提案する。 OpenChemIEは、個々のモダリティから関連する情報を抽出し、結果を統合して最終的な反応リストを得る、2つのステップでこの問題にアプローチする。 最初のステップでは、それぞれが化学情報抽出の特定のタスク、例えば分子の解析やテキストや図からの反応に対処する専門的なニューラルモデルを採用しています。 次に、これらのモジュールからの情報を化学インフォームドアルゴリズムを用いて統合し、反応条件から微細な反応データを抽出し、基板範囲の調査を行う。 我々の機械学習モデルは、個別に評価された場合、最先端のパフォーマンスを得ることができ、かつ、Rグループによる反応スキームの挑戦的なデータセットを慎重にアノテートして、パイプライン全体を評価し、F1スコア69.5%を達成する。 さらに、Shaoursの反応抽出結果は、Reaxysの化学データベースと直接比較した場合の精度スコアが64.3%に達する。 OpenChemIEをオープンソースパッケージとして、Webインターフェースを通じて、自由に公開しています。

Information extraction from chemistry literature is vital for constructing up-to-date reaction databases for data-driven chemistry. Complete extraction requires combining information across text, tables, and figures, whereas prior work has mainly investigated extracting reactions from single modalities. In this paper, we present OpenChemIE to address this complex challenge and enable the extraction of reaction data at the document level. OpenChemIE approaches the problem in two steps: extracting relevant information from individual modalities and then integrating the results to obtain a final list of reactions. For the first step, we employ specialized neural models that each address a specific task for chemistry information extraction, such as parsing molecules or reactions from text or figures. We then integrate the information from these modules using chemistry-informed algorithms, allowing for the extraction of fine-grained reaction data from reaction condition and substrate scope investigations. Our machine learning models attain state-of-the-art performance when evaluated individually, and we meticulously annotate a challenging dataset of reaction schemes with R-groups to evaluate our pipeline as a whole, achieving an F1 score of 69.5%. Additionally, the reaction extraction results of \ours attain an accuracy score of 64.3% when directly compared against the Reaxys chemical database. We provide OpenChemIE freely to the public as an open-source package, as well as through a web interface.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# 4次元医用画像の中間フレームのないデータ効率の良い教師なし補間

Data-Efficient Unsupervised Interpolation Without Any Intermediate Frame for 4D Medical Images ( http://arxiv.org/abs/2404.01464v1 )

ライセンス: Link先を確認
JungEun Kim, Hangyul Yoon, Geondo Park, Kyungsu Kim, Eunho Yang, (参考訳) 時間的情報を持つ3次元画像を表す4次元医用画像は、ダイナミックな変化を捉え、長期の疾患の進行を監視するための臨床実践において重要である。 しかし, 4次元医用画像の取得は, 高時間分解能の達成と副作用の最小化のバランスを取る必要があるため, 放射線曝露や撮像時間などの要因により課題が生じる。 このような状況下では、データ取得が困難なだけでなく、データセット毎のフレームレートの増加も困難である。 この課題に対処するために,UVI-Netという,シンプルで効果的なボリューム補間フレームワークを提案する。 このフレームワークは、いかなる中間フレームも必要とせず、時間的補間を促進する。 ベンチマークデータセットの実験では、教師なしベースラインや教師なしベースラインと比較して、さまざまな評価指標が大幅に改善されている。 注目すべきは、当社のアプローチがデータセットを1つも小さくトレーニングしても、この優れたパフォーマンスを実現していることだ。 これにより、UVI-Netは、4D医療画像の魅力的な代替品として位置づけられる。 ソースコードはhttps://github.com/jungeun122333/UVI-Netで入手できる。

4D medical images, which represent 3D images with temporal information, are crucial in clinical practice for capturing dynamic changes and monitoring long-term disease progression. However, acquiring 4D medical images poses challenges due to factors such as radiation exposure and imaging duration, necessitating a balance between achieving high temporal resolution and minimizing adverse effects. Given these circumstances, not only is data acquisition challenging, but increasing the frame rate for each dataset also proves difficult. To address this challenge, this paper proposes a simple yet effective Unsupervised Volumetric Interpolation framework, UVI-Net. This framework facilitates temporal interpolation without the need for any intermediate frames, distinguishing it from the majority of other existing unsupervised methods. Experiments on benchmark datasets demonstrate significant improvements across diverse evaluation metrics compared to unsupervised and supervised baselines. Remarkably, our approach achieves this superior performance even when trained with a dataset as small as one, highlighting its exceptional robustness and efficiency in scenarios with sparse supervision. This positions UVI-Net as a compelling alternative for 4D medical imaging, particularly in settings where data availability is limited. The source code is available at https://github.com/jungeun122333/UVI-Net.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# TS-CausalNN:非線形非定常時系列データによる時間的因果関係の学習

TS-CausalNN: Learning Temporal Causal Relations from Non-linear Non-stationary Time Series Data ( http://arxiv.org/abs/2404.01466v1 )

ライセンス: Link先を確認
Omar Faruque, Sahara Ali, Xue Zheng, Jianwu Wang, (参考訳) 環境科学、疫学、経済学など様々な分野における時系列データの可用性と重要性の増大により、非定常的、非線形でしばしばノイズの多い現実世界のデータにおける複雑な関係を識別できる時系列因果発見法の必要性が高まっている。 しかし、現在の時系列因果探索法の大部分は、データの定常性と線形関係を前提としており、そのタスクでは不可能である。 さらに,近年の深層学習手法は従来の因果構造学習手法に依存しており,計算コストが高い。 本稿では,時系列因果ニューラルネットワーク(TS-Causal Neural Network,TS-CausalNN)を提案する。 提案するアーキテクチャは 一 平行するカスタム因果層からなる畳み込みブロック (二)非循環性制約、及び 3) 拡張ラグランジアンアプローチを用いた最適化手法 単純な並列設計に加えて、提案モデルの利点は、データの非定常性と非線形性を自然に扱うことである。 複数の合成および実世界のデータセットの実験を通して、提案手法の実証的習熟度を、いくつかの最先端手法と比較して示す。 実世界のデータセットの推論グラフは、ドメイン理解とよく一致している。

The growing availability and importance of time series data across various domains, including environmental science, epidemiology, and economics, has led to an increasing need for time-series causal discovery methods that can identify the intricate relationships in the non-stationary, non-linear, and often noisy real world data. However, the majority of current time series causal discovery methods assume stationarity and linear relations in data, making them infeasible for the task. Further, the recent deep learning-based methods rely on the traditional causal structure learning approaches making them computationally expensive. In this paper, we propose a Time-Series Causal Neural Network (TS-CausalNN) - a deep learning technique to discover contemporaneous and lagged causal relations simultaneously. Our proposed architecture comprises (i) convolutional blocks comprising parallel custom causal layers, (ii) acyclicity constraint, and (iii) optimization techniques using the augmented Lagrangian approach. In addition to the simple parallel design, an advantage of the proposed model is that it naturally handles the non-stationarity and non-linearity of the data. Through experiments on multiple synthetic and real world datasets, we demonstrate the empirical proficiency of our proposed approach as compared to several state-of-the-art methods. The inferred graphs for the real world dataset are in good agreement with the domain understanding.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# 安定なランク付け確率による再現可能な人的評価の探索

Finding Replicable Human Evaluations via Stable Ranking Probability ( http://arxiv.org/abs/2404.01474v1 )

ライセンス: Link先を確認
Parker Riley, Daniel Deutsch, George Foster, Viresh Ratnakar, Ali Dabirmoghaddam, Markus Freitag, (参考訳) 信頼性の高い人的評価は、成功した自然言語生成モデルの開発に不可欠であるが、それを達成することは、非常に難しい。 システムを品質でランク付けする上で、安定性は重要な要件である。 それなしでは、ヒルクライミングや製品ローンチ決定のための信頼性の高い基盤はありません。 本稿では,機械翻訳とその最先端の人間評価フレームワークMQMを用いて,安定した結論を得るための信頼性の高い人間評価の設定方法を理解する。 本稿では,レーダに対するアイテム割り当ての最適設定,項目ごとのレーティング数,正規化スコアについて検討する。 2つの言語対に関する研究は、再現性のある人間の評価研究を設計するための具体的な勧告を提供する。 また、2つの言語ペア間で約14000のセグメントアノテーションで構成された、複数のプロフェッショナルトランスレータによって評価された、公開可能な多節翻訳のデータセットを収集、リリースしています。

Reliable human evaluation is critical to the development of successful natural language generation models, but achieving it is notoriously difficult. Stability is a crucial requirement when ranking systems by quality: consistent ranking of systems across repeated evaluations is not just desirable, but essential. Without it, there is no reliable foundation for hill-climbing or product launch decisions. In this paper, we use machine translation and its state-of-the-art human evaluation framework, MQM, as a case study to understand how to set up reliable human evaluations that yield stable conclusions. We investigate the optimal configurations for item allocation to raters, number of ratings per item, and score normalization. Our study on two language pairs provides concrete recommendations for designing replicable human evaluation studies. We also collect and release the largest publicly available dataset of multi-segment translations rated by multiple professional translators, consisting of nearly 140,000 segment annotations across two language pairs.
翻訳日:2024-04-03 20:37:09 公開日:2024-04-01
# 大型言語モデルは超人化学者か?

Are large language models superhuman chemists? ( http://arxiv.org/abs/2404.01475v1 )

ライセンス: Link先を確認
Adrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka, (参考訳) 大規模言語モデル(LLM)は、人間の言語を処理し、明示的に訓練されていないタスクを実行する能力によって、広く関心を集めている。 これは、テキスト形式で頻繁に行われる、小さく多様なデータセットの問題に直面している化学科学に関係している。 LLMはこれらの問題に対処する公約を示しており、化学特性の予測や反応の最適化、さらには自律的な設計と実験の実施にますます活用されている。 しかし, LLMの化学的推論能力については, モデルの改善と潜在的な害の軽減に必要となる, 非常に限定的な体系的理解しか得られていない。 ここでは,人間の化学者の専門知識に対して,最先端のLSMの化学知識と推論能力を厳格に評価する自動化フレームワークであるChemBenchを紹介する。 我々は、化学科学の幅広いサブフィールドに対して7000以上の質問応答ペアをキュレートし、オープンおよびクローズドソースのLCMを評価し、最良のモデルが平均的な研究で最高の人間化学者より優れていたことを発見した。 しかし、これらのモデルは、人間の専門家にとって容易な化学推論タスクと、化学物質の安全性プロファイルなど、過度に自信深く誤解を招く予測を提供するのに苦労している。 これらの結果は、LSMは化学タスクにおいて顕著な熟練性を示すが、化学科学における安全性と有用性を高めるためにさらなる研究が重要であるという二重現実を裏付けている。 また, 化学カリキュラムへの適応の必要性が示唆され, 安全性と有用性を高めるための評価フレームワークの開発を継続することの重要性が強調された。

Large language models (LLMs) have gained widespread interest due to their ability to process human language and perform tasks on which they have not been explicitly trained. This is relevant for the chemical sciences, which face the problem of small and diverse datasets that are frequently in the form of text. LLMs have shown promise in addressing these issues and are increasingly being harnessed to predict chemical properties, optimize reactions, and even design and conduct experiments autonomously. However, we still have only a very limited systematic understanding of the chemical reasoning capabilities of LLMs, which would be required to improve models and mitigate potential harms. Here, we introduce "ChemBench," an automated framework designed to rigorously evaluate the chemical knowledge and reasoning abilities of state-of-the-art LLMs against the expertise of human chemists. We curated more than 7,000 question-answer pairs for a wide array of subfields of the chemical sciences, evaluated leading open and closed-source LLMs, and found that the best models outperformed the best human chemists in our study on average. The models, however, struggle with some chemical reasoning tasks that are easy for human experts and provide overconfident, misleading predictions, such as about chemicals' safety profiles. These findings underscore the dual reality that, although LLMs demonstrate remarkable proficiency in chemical tasks, further research is critical to enhancing their safety and utility in chemical sciences. Our findings also indicate a need for adaptations to chemistry curricula and highlight the importance of continuing to develop evaluation frameworks to improve safe and useful LLMs.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# TraveLER: ビデオ質問応答のためのマルチLMMエージェントフレームワーク

TraveLER: A Multi-LMM Agent Framework for Video Question-Answering ( http://arxiv.org/abs/2404.01476v1 )

ライセンス: Link先を確認
Chuyi Shang, Amos You, Sanjay Subramanian, Trevor Darrell, Roei Herzig, (参考訳) 近年,LMM(Large Multimodal Models)は,大規模な画像ベース事前学習をゼロショット方式で活用することで,フレームワイドアプローチによるビデオ質問応答において大きな進歩を遂げている。 ビデオのための画像ベースの手法は印象的なパフォーマンスを示しているが、現在の制限は、キータイムスタンプの選択方法を見落とし、間違ったタイムスタンプが特定された場合の調整ができないことだ。 さらに、彼らはその問題に関する詳細を抽出できず、代わりにフレームの一般的な記述を提供する。 これを解決するために,我々は,対話型質問応答を通じてキーフレームから関連情報を反復的に収集するマルチLMMエージェント・フレームワークを設計し,質問に答えるだけの十分な情報が得られるまで設計する。 具体的には、ビデオを通して「トラバース」計画を作成し、個々のフレームについて質問を行い、「ローカライズ」し、キー情報を格納し、質問に答える十分な情報があるかどうかを「評価する」モデルであるTraveLERを提案する。 最後に,十分な情報がない場合,収集した知識に基づいて「再計画」を行うことができる。 NExT-QA, STAR, パーセプションテストなど, 特定のデータセットを微調整することなく, ビデオ質問応答ベンチマークの性能を向上する。

Recently, Large Multimodal Models (LMMs) have made significant progress in video question-answering using a frame-wise approach by leveraging large-scale, image-based pretraining in a zero-shot manner. While image-based methods for videos have shown impressive performance, a current limitation is that they often overlook how key timestamps are selected and cannot adjust when incorrect timestamps are identified. Moreover, they are unable to extract details relevant to the question, instead providing general descriptions of the frame. To overcome this, we design a multi-LMM agent framework that travels along the video, iteratively collecting relevant information from keyframes through interactive question-asking until there is sufficient information to answer the question. Specifically, we propose TraveLER, a model that can create a plan to "Traverse" through the video, ask questions about individual frames to "Locate" and store key information, and then "Evaluate" if there is enough information to answer the question. Finally, if there is not enough information, our method is able to "Replan" based on its collected knowledge. Through extensive experiments, we find that the proposed TraveLER approach improves performance on several video question-answering benchmarks, such as NExT-QA, STAR, and Perception Test, without the need to fine-tune on specific datasets.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# 遠隔ゲートを用いた核融合型量子コンピュータの構築

Building a fusion-based quantum computer using teleported gates ( http://arxiv.org/abs/2404.01477v1 )

ライセンス: Link先を確認
Ashot Avanesov, Alexander Shurinov, Ivan Dyakonov, Stanislav Straupe, (参考訳) 我々は、回路ベースの量子計算プリミティブを融合ネットワークに変換するための量子ゲートテレポーテーション法を採用する。 CNOTゲートの提示方式を用いて, 葉面符号の回路をフォールトトレラント核融合ネットワークに変換する。 最後に,2つの新しい核融合型量子計算モデルを構築し,その耐故障性について検討する。

We adopt a method of the quantum gate teleportation for converting circuit-based quantum computation primitives into fusion networks. By using the presented scheme for the CNOT gate we construct translation of the circuit for the foliated surface code into a fault tolerant fusion network. Finally, we construct two new fusion based quantum computation models and study their fault tolerance properties.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# 多言語ニュースフレーム解析のスケールアップに関する研究

A Study on Scaling Up Multilingual News Framing Analysis ( http://arxiv.org/abs/2404.01481v1 )

ライセンス: Link先を確認
Syeda Sabrina Akter, Antonios Anastasopoulos, (参考訳) メディア・フレーミング(英語: Media framing)は、政治的問題の特定の側面を戦略的に選択し、提示し、世論を形成する研究である。 世界中のほぼすべての社会に関係しているにもかかわらず、利用可能なデータセットやその他のリソースが不足しているため、研究は限られている。 本研究では,クラウドソーシングによるデータセット作成の可能性を検討する。 我々はまず、英語ニュース以外のフレーミング分析を、自動翻訳によって多言語文脈(12の類型的多様言語)に拡張する。 また、ベンガルとポルトガルの移民と同性結婚に関する新しい基準も提示する。 さらに、クラウドソーシングデータセットに基づいてトレーニングされたシステムが、既存のデータセットと組み合わせることで、ベースラインから5.32ポイント増加し、クラウドソーシングが実行可能な選択肢であることを示す。 最後に,この課題に対する大規模言語モデル (LLM) の性能について検討し,タスク固有の微調整が,より大規模な非特殊化モデルを採用するよりも優れたアプローチであることを見出した。

Media framing is the study of strategically selecting and presenting specific aspects of political issues to shape public opinion. Despite its relevance to almost all societies around the world, research has been limited due to the lack of available datasets and other resources. This study explores the possibility of dataset creation through crowdsourcing, utilizing non-expert annotators to develop training corpora. We first extend framing analysis beyond English news to a multilingual context (12 typologically diverse languages) through automatic translation. We also present a novel benchmark in Bengali and Portuguese on the immigration and same-sex marriage domains. Additionally, we show that a system trained on our crowd-sourced dataset, combined with other existing ones, leads to a 5.32 percentage point increase from the baseline, showing that crowdsourcing is a viable option. Last, we study the performance of large language models (LLMs) for this task, finding that task-specific fine-tuning is a better approach than employing bigger non-specialized models.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# QuAD: 自律運転のためのクエリベースの解釈可能なニューラルモーションプランニング

QuAD: Query-based Interpretable Neural Motion Planning for Autonomous Driving ( http://arxiv.org/abs/2404.01486v1 )

ライセンス: Link先を確認
Sourav Biswas, Sergio Casas, Quinlan Sykora, Ben Agro, Abbas Sadat, Raquel Urtasun, (参考訳) 自動運転車は環境を理解して適切な行動を決定する必要がある。 従来の自律システムは、現場のエージェントを見つけるためにオブジェクト検出に依存している。 しかし、オブジェクト検出は個々のオブジェクトの集合を仮定し、不確実性に関する情報を失うため、これらのエージェントの将来の振る舞いを予測する際には、エラーは複雑になる。 あるいは、密接な占有グリッドマップは自由空間を理解するために利用されてきた。 しかし、特定の時空間だけが到達可能であり、自動運転車に関係しているため、シーン全体のグリッドを予測するのは無駄である。 私たちは、最初に認識し、予測し、最終的に計画するカスケードモジュールから離れ、統一され、解釈可能で、効率的な自律フレームワークを提示します。 代わりに、我々はパラダイムを、関連する時空間点におけるプランナークエリの占有にシフトさせ、計算を関心のある領域に制限する。 本研究は,衝突回避,快適性,安全性と解釈可能性の進歩など,重要な要因に関する候補軌道の評価を行う。 提案手法は,高忠実度閉ループシミュレーションにおいて,最先端の高速運転品質を実現する。

A self-driving vehicle must understand its environment to determine the appropriate action. Traditional autonomy systems rely on object detection to find the agents in the scene. However, object detection assumes a discrete set of objects and loses information about uncertainty, so any errors compound when predicting the future behavior of those agents. Alternatively, dense occupancy grid maps have been utilized to understand free-space. However, predicting a grid for the entire scene is wasteful since only certain spatio-temporal regions are reachable and relevant to the self-driving vehicle. We present a unified, interpretable, and efficient autonomy framework that moves away from cascading modules that first perceive, then predict, and finally plan. Instead, we shift the paradigm to have the planner query occupancy at relevant spatio-temporal points, restricting the computation to those regions of interest. Exploiting this representation, we evaluate candidate trajectories around key factors such as collision avoidance, comfort, and progress for safety and interpretability. Our approach achieves better highway driving quality than the state-of-the-art in high-fidelity closed-loop simulations.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# ワイルドファイア予測のための説明可能なAI統合機能エンジニアリング

Explainable AI Integrated Feature Engineering for Wildfire Prediction ( http://arxiv.org/abs/2404.01487v1 )

ライセンス: Link先を確認
Di Fan, Ayan Biswas, James Paul Ahrens, (参考訳) ワイルドファイアは予測のための複雑な課題を示し、効果的なモデリングに洗練された機械学習技術を使う必要がある。 本研究では,山火事の予測に関係した分類・回帰タスクについて,各種機械学習アルゴリズムの徹底的な評価を行った。 XGBoostモデルでは,山火事の異なるタイプやステージの分類において,精度と堅牢性において,他のモデルよりも優れていた。 一方、ランダムフォレスト回帰モデルでは、山火事の影響地域の範囲を予測し、予測誤差と説明分散に優れていた。 さらに,数値データと画像情報を統合し,同時分類と回帰を行うハイブリッドニューラルネットワークモデルを開発した。 そこで我々は,これらのモデルの意思決定プロセスについてより深い知見を得て,eXplainable Artificial Intelligence (XAI) 技術を用いて,TreeSHAP, LIME, partial Dependence Plots (PDP), Gradient-weighted Class Activation Mapping (Grad-CAM) を用いた。 これらの解釈可能性ツールは、様々な特徴の重要性と相互作用に光を当て、山火事の予測に影響を及ぼす複雑な要因を浮き彫りにした。 本研究は、山火事に関連するタスクにおける特定の機械学習モデルの有効性を実証するだけでなく、環境科学応用におけるモデルの透明性と解釈可能性の重要性を浮き彫りにしている。

Wildfires present intricate challenges for prediction, necessitating the use of sophisticated machine learning techniques for effective modeling\cite{jain2020review}. In our research, we conducted a thorough assessment of various machine learning algorithms for both classification and regression tasks relevant to predicting wildfires. We found that for classifying different types or stages of wildfires, the XGBoost model outperformed others in terms of accuracy and robustness. Meanwhile, the Random Forest regression model showed superior results in predicting the extent of wildfire-affected areas, excelling in both prediction error and explained variance. Additionally, we developed a hybrid neural network model that integrates numerical data and image information for simultaneous classification and regression. To gain deeper insights into the decision-making processes of these models and identify key contributing features, we utilized eXplainable Artificial Intelligence (XAI) techniques, including TreeSHAP, LIME, Partial Dependence Plots (PDP), and Gradient-weighted Class Activation Mapping (Grad-CAM). These interpretability tools shed light on the significance and interplay of various features, highlighting the complex factors influencing wildfire predictions. Our study not only demonstrates the effectiveness of specific machine learning models in wildfire-related tasks but also underscores the critical role of model transparency and interpretability in environmental science applications.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# 友人に対する恐怖 : 予防接種決定に対する他者の知覚的影響について

Fear over Friends: Examining the Perceived Influence of Others on Vaccination Decisions ( http://arxiv.org/abs/2404.01489v1 )

ライセンス: Link先を確認
Denise Yewell, R. Alexander Bentley, Benjamin D. Horne, (参考訳) 本研究では,米国における予防接種決定における,強い社会関係と弱い社会関係の両面での他者の影響について検討した。 特に、新型コロナウイルスワクチンのケーススタディに焦点を当てる。 他者との合意の認識や、他者に対する新型コロナウイルスの危険性の認識など、関連する概念を測ることで、社会的影響に文脈を加える。 予防接種を受けた人口は、予防接種を受けていない人口よりも社会的サークルの影響を受けやすいことが判明した。 この発見は、家族、親しい友人、同僚、隣人など、様々な社会集団に当てはまる。 間接的な社会的影響力の尺度もこの傾向に従った。 ワクチン接種を受けた参加者は、ワクチン接種を受けていない参加者よりも、ワクチン接種を受けない参加者よりも、ワクチン接種を決断することに同意していると認識し、ワクチン接種を受けていない参加者は、ワクチン接種を受けないという決定に同意していると認識した。 グループ間で認識される社会的影響の明確な相違にもかかわらず、予防接種と非ワクチン接種の両方の参加者が、社会的影響よりも、その決定の動機として恐怖をしばしば引用するオープンエンドの回答によって、予防接種参加者は新型コロナウイルスを恐れ、非ワクチン接種参加者はワクチン自体を恐れた。

In this study, we examine the perceived influence of others, across both strong and weak social ties, on vaccination decisions in the United States. In particular, we focus on the case study of COVID-19 vaccinations. We add context to social influence by measuring related concepts, such as perceived agreement of others and perceived danger of COVID-19 to others. We find that vaccinated populations perceived more influence from their social circles than unvaccinated populations. This finding holds true across various social groups, including family, close friends, co-workers, and neighbors. Indirect measures of social influence also followed this trend. Vaccinated participants perceived COVID-19 as more dangerous to their social circles than unvaccinated participants and perceived that others agreed with their decision to get vaccinated more than unvaccinated participants perceived others to agree with their decision to not get vaccinated. Despite the clear differences in perceived social influence across the groups, we find through open-ended responses that both vaccinated and unvaccinated participants frequently cited fear as a motivating factor in their decision, rather than social influence: vaccinated participants feared COVID-19, while unvaccinated participants feared the vaccine itself.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# AAdaM at SemEval-2024 Task 1: Augmentation and Adaptation for Multilingual Semantic Textual Relatedness

AAdaM at SemEval-2024 Task 1: Augmentation and Adaptation for Multilingual Semantic Textual Relatedness ( http://arxiv.org/abs/2404.01490v1 )

ライセンス: Link先を確認
Miaoran Zhang, Mingyang Wang, Jesujoba O. Alabi, Dietrich Klakow, (参考訳) 本稿では,SemEval-2024 Task 1: Semantic Textual Relatedness for African and Asian Languagesについて述べる。 共有タスクは文のペア間の意味的テキスト関連性を測定することを目的としており、表現不足の言語に焦点をあてている。 本研究では,限られた学習データに対する低リソースな課題に対処するために,機械翻訳によるデータ拡張を提案する。 さらに、未ラベルタスクデータにタスク適応型事前学習を適用し、事前学習とタスク適応のギャップを埋める。 モデルトレーニングでは、フル微調整とアダプタベースのチューニングの両方について検討し、効果的なゼロショット言語間転送のためのアダプタフレームワークを採用する。 当社のシステムは,サブタスクA(教師付き学習)とサブタスクC(言語間の移動)の両方において,すべてのチームの中で最善を尽くしています。

This paper presents our system developed for the SemEval-2024 Task 1: Semantic Textual Relatedness for African and Asian Languages. The shared task aims at measuring the semantic textual relatedness between pairs of sentences, with a focus on a range of under-represented languages. In this work, we propose using machine translation for data augmentation to address the low-resource challenge of limited training data. Moreover, we apply task-adaptive pre-training on unlabeled task data to bridge the gap between pre-training and task adaptation. For model training, we investigate both full fine-tuning and adapter-based tuning, and adopt the adapter framework for effective zero-shot cross-lingual transfer. We achieve competitive results in the shared task: our system performs the best among all ranked teams in both subtask A (supervised learning) and subtask C (cross-lingual transfer).
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# SUGAR:ロボットのための3D視覚表現の事前学習

SUGAR: Pre-training 3D Visual Representations for Robotics ( http://arxiv.org/abs/2404.01491v1 )

ライセンス: Link先を確認
Shizhe Chen, Ricardo Garcia, Ivan Laptev, Cordelia Schmid, (参考訳) インターネットデータから一般化可能な視覚表現を学習することは、ロボット工学に有望な結果をもたらした。 しかし、一般的なアプローチは2D表現の事前学習に重点を置いており、オクルージョンに対処し、複雑な3Dシーンでオブジェクトを正確にローカライズするのに最適である。 一方、3次元表現学習は単目的理解に限られている。 これらの制約に対処するために,SUGARと呼ばれるロボットのための新しい3D事前学習フレームワークを導入する。 我々は,3次元表現学習における乱雑なシーンの重要性を強調し,シミュレーションにおけるコストフリーの監視による多目的データセットを自動構築する。 SUGARは、多目的トランスフォーマーベースモデルを用いて、意味学習のためのクロスモーダル知識蒸留、幾何学構造を理解するためのマスク付きポイントモデリング、オブジェクトの余裕のためのポーズ合成の把握、3Dインスタンスのセグメンテーション、散らばったシーンの分析のための参照表現グラウンドという5つの事前学習課題に共同で対処する。 我々は,3つのロボット関連課題,すなわちゼロショット3Dオブジェクト認識,表現接地参照,言語駆動型ロボット操作について,学習した表現を評価した。 実験の結果,SUGARの3D表現は最先端の2Dおよび3D表現よりも優れていた。

Learning generalizable visual representations from Internet data has yielded promising results for robotics. Yet, prevailing approaches focus on pre-training 2D representations, being sub-optimal to deal with occlusions and accurately localize objects in complex 3D scenes. Meanwhile, 3D representation learning has been limited to single-object understanding. To address these limitations, we introduce a novel 3D pre-training framework for robotics named SUGAR that captures semantic, geometric and affordance properties of objects through 3D point clouds. We underscore the importance of cluttered scenes in 3D representation learning, and automatically construct a multi-object dataset benefiting from cost-free supervision in simulation. SUGAR employs a versatile transformer-based model to jointly address five pre-training tasks, namely cross-modal knowledge distillation for semantic learning, masked point modeling to understand geometry structures, grasping pose synthesis for object affordance, 3D instance segmentation and referring expression grounding to analyze cluttered scenes. We evaluate our learned representation on three robotic-related tasks, namely, zero-shot 3D object recognition, referring expression grounding, and language-driven robotic manipulation. Experimental results show that SUGAR's 3D representation outperforms state-of-the-art 2D and 3D representations.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# 事前知識を使わずにオブジェクト検出適応のためのモダリティ変換

Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge ( http://arxiv.org/abs/2404.01492v1 )

ライセンス: Link先を確認
Heitor Rapela Medeiros, Masih Aminbeidokhti, Fidel Guerrero Pena, David Latortue, Eric Granger, Marco Pedersoli, (参考訳) ディープラーニングの一般的なプラクティスは、大規模なデータセット上で大規模なニューラルネットワークをトレーニングして、さまざまなドメインやタスクを正確に実行することです。 この手法は多くのアプリケーション領域でうまく機能するかもしれないが、異なるセンサーを用いてキャプチャしたデータの分布シフトが大きいため、モダリティを越えてのみ適用できる。 本稿では,大規模物体検出モデルを効率よく1つまたは複数のモードに適応させる問題に焦点をあてる。 そこで本研究では,大規模モデルを微調整する一般的なアプローチの代替としてModTrを提案する。 ModTrは、入力を小さな変換ネットワークに適応して、検出損失を直接最小化する。 従って、元のモデルは、さらなる変更やパラメータの微調整をすることなく、翻訳された入力を扱うことができる。 2つのよく知られたデータセット上のIRからRGB画像への変換実験の結果、この単純なModTrアプローチは、元の知識を忘れることなく標準の微調整よりも可視またはより優れた動作が可能な検出器を提供することが示された。 これにより、よりフレキシブルで効率的なサービスベースの検出パイプラインへの扉が開かれ、各モダリティに対して異なる検出器を使用する代わりに、一意で変更されていないサーバが常時実行され、対応する翻訳と複数のモダリティがクエリできる。 コード:https://github.com/heitorrapela/ModTr。

A common practice in deep learning consists of training large neural networks on massive datasets to perform accurately for different domains and tasks. While this methodology may work well in numerous application areas, it only applies across modalities due to a larger distribution shift in data captured using different sensors. This paper focuses on the problem of adapting a large object detection model to one or multiple modalities while being efficient. To do so, we propose ModTr as an alternative to the common approach of fine-tuning large models. ModTr consists of adapting the input with a small transformation network trained to minimize the detection loss directly. The original model can therefore work on the translated inputs without any further change or fine-tuning to its parameters. Experimental results on translating from IR to RGB images on two well-known datasets show that this simple ModTr approach provides detectors that can perform comparably or better than the standard fine-tuning without forgetting the original knowledge. This opens the doors to a more flexible and efficient service-based detection pipeline in which, instead of using a different detector for each modality, a unique and unaltered server is constantly running, where multiple modalities with the corresponding translations can query it. Code: https://github.com/heitorrapela/ModTr.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# MosquitoFusion: 深層学習を用いたリアルタイム検出のためのマルチクラスデータセット

MosquitoFusion: A Multiclass Dataset for Real-Time Detection of Mosquitoes, Swarms, and Breeding Sites Using Deep Learning ( http://arxiv.org/abs/2404.01501v1 )

ライセンス: Link先を確認
Md. Faiyaz Abdullah Sayeedi, Fahim Hafiz, Md Ashiqur Rahman, (参考訳) 本稿では,1204の多様な画像を含むマルチクラスデータセット(MosquitoFusion)を用いたリアルタイム蚊検出への統合的アプローチを提案する。 トレーニング済みのYOLOv8モデルは、このデータセットに基づいてトレーニングされ、平均平均精度(mAP@50)が57.1%、精度73.4%、リコール50.5%に達した。 地理情報システム(GIS)の統合は、我々の分析の深みをさらに深め、空間パターンに関する貴重な洞察を提供する。 データセットとコードはhttps://github.com/faiyazabdullah/MosquitoFusion.comで公開されている。

In this paper, we present an integrated approach to real-time mosquito detection using our multiclass dataset (MosquitoFusion) containing 1204 diverse images and leverage cutting-edge technologies, specifically computer vision, to automate the identification of Mosquitoes, Swarms, and Breeding Sites. The pre-trained YOLOv8 model, trained on this dataset, achieved a mean Average Precision (mAP@50) of 57.1%, with precision at 73.4% and recall at 50.5%. The integration of Geographic Information Systems (GIS) further enriches the depth of our analysis, providing valuable insights into spatial patterns. The dataset and code are available at https://github.com/faiyazabdullah/MosquitoFusion.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# いくつかの順序が重要:トップクオリティプランニングにおける順序を部分的に保存する

Some Orders Are Important: Partially Preserving Orders in Top-Quality Planning ( http://arxiv.org/abs/2404.01503v1 )

ライセンス: Link先を確認
Michael Katz, Junkyu Lee, Jungkoo Kang, Shirin Sohrabi, (参考訳) 複数のプランを生成する能力は、実際のアプリケーションで計画を使用することの中心である。 最高品質プランナーは、このようなトップコストプランのセットを生成し、同等のプランを決定する柔軟性を実現する。 計画における行動間の順序に関して、文献は2つの極端のみを考慮し、全ての命令が重要であるか、各計画がユニークであるか、または全ての命令が重要でないかのいずれかであり、行動の順序でのみ異なる2つの計画を扱う。 重要な順序を選択する際の柔軟性を確保するために,重要な順序のサブセットを指定することを提案し,上位品質と下位品質の計画課題を補間する。 我々は,この新たな計算問題に対処するために,部分順序減級探索プルーニング手法を適用する方法について検討し,その利点を実証する実験的な評価を行った。

The ability to generate multiple plans is central to using planning in real-life applications. Top-quality planners generate sets of such top-cost plans, allowing flexibility in determining equivalent ones. In terms of the order between actions in a plan, the literature only considers two extremes -- either all orders are important, making each plan unique, or all orders are unimportant, treating two plans differing only in the order of actions as equivalent. To allow flexibility in selecting important orders, we propose specifying a subset of actions the orders between which are important, interpolating between the top-quality and unordered top-quality planning problems. We explore the ways of adapting partial order reduction search pruning techniques to address this new computational problem and present experimental evaluations demonstrating the benefits of exploiting such techniques in this setting.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# イメージネットモデルにおけるバイアスは一般化を説明できるか?

Can Biases in ImageNet Models Explain Generalization? ( http://arxiv.org/abs/2404.01509v1 )

ライセンス: Link先を確認
Paul Gavrikov, Janis Keuper, (参考訳) トレーニング分布の長い尾から抽出されたまれな非分布(ID)サンプルと、トレーニング外分布(OOD)サンプルへのモデルの堅牢な一般化は、現在のディープラーニング手法における大きな課題の1つである。 画像分類において、これは敵対的攻撃の存在、歪んだ画像のパフォーマンス低下、スケッチのような概念への一般化の欠如に現れている。 ニューラルネットワークの一般化に関する現在の理解は非常に限られているが、人間のビジョンとモデルを区別するバイアスが特定されており、これらの制限を生じさせている可能性がある。 その結果、トレーニング中にこれらのバイアスを減らし、一般化を改善するために、様々な成功を収める試みがなされた。 私たちは一歩後退して、これらの試みを健全にチェックします。 アーキテクチャをよく確立されたResNet-50に固定し、異なるトレーニング手法を用いて得られた48のImageNetモデルに対して大規模な研究を行い、これらのバイアス(形状バイアス、スペクトルバイアス、クリティカルバンドなど)が一般化とどのように相互作用するかを理解した。 以上の結果から,これらのバイアスはモデル全体の一般化を正確に予測するには不十分であることが示唆された。 https://github.com/paulgavrikov/biases_vs_ Generalizationですべてのチェックポイントと評価コードへのアクセスを提供します。

The robust generalization of models to rare, in-distribution (ID) samples drawn from the long tail of the training distribution and to out-of-training-distribution (OOD) samples is one of the major challenges of current deep learning methods. For image classification, this manifests in the existence of adversarial attacks, the performance drops on distorted images, and a lack of generalization to concepts such as sketches. The current understanding of generalization in neural networks is very limited, but some biases that differentiate models from human vision have been identified and might be causing these limitations. Consequently, several attempts with varying success have been made to reduce these biases during training to improve generalization. We take a step back and sanity-check these attempts. Fixing the architecture to the well-established ResNet-50, we perform a large-scale study on 48 ImageNet models obtained via different training methods to understand how and if these biases - including shape bias, spectral biases, and critical bands - interact with generalization. Our extensive study results reveal that contrary to previous findings, these biases are insufficient to accurately predict the generalization of a model holistically. We provide access to all checkpoints and evaluation code at https://github.com/paulgavrikov/biases_vs_generalization
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# 時間量子消光器:区別可能な光子を持つ核融合ゲート

Temporal quantum eraser: Fusion gates with distinguishable photons ( http://arxiv.org/abs/2404.01516v1 )

ライセンス: Link先を確認
Ziv Aqua, Barak Dayan, (参考訳) フォトニック量子情報処理の可能なツールである線形光学ゲートは、非線形動作を達成するために量子干渉を利用するため、区別不可能な光子に依存する。 しかし、要求される不明瞭さは多光子波動関数の対称性と関係しており、必ずしも同一の光子を含まない。 ここでは、2光子ゲートの場合、入力フォトニック状態の交換対称性を保証することができれば、理想的なゲート演算が取り出すことができることを示す。 具体的には、時間的量子消去器を用いて、パラメトリック光子対生成と単一量子エミッタによる単一光子抽出という、変調不純光子源との融合ゲートを許容する。 同一光子の要求を解除する能力は、線形光学量子情報処理においてかなりの可能性を秘めている。

Linear-optics gates, the enabling tool of photonic quantum information processing, depend on indistinguishable photons, as they harness quantum interference to achieve nonlinear operations. Yet the required indistinguishability is related to the symmetry of the multiphoton wavefunction, and does not necessarily imply identical photons. Here we show for the case of two-photon gates that the ideal gate operation can be retrieved if one can guarantee the exchange symmetry of the input photonic state. Specifically, we employ a temporal quantum eraser to allow fusion gates with sources of modally-impure photons: parametric photon pair generation and single-photon extraction by a single quantum emitter. The ability to lift the requirement for identical photons bears considerable potential in linear-optics quantum information processing.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# パーソナライズ層を用いたフェデレーション負荷予測における不均一性への対処

Addressing Heterogeneity in Federated Load Forecasting with Personalization Layers ( http://arxiv.org/abs/2404.01517v1 )

ライセンス: Link先を確認
Shourya Bose, Yu Zhang, Kibaek Kim, (参考訳) スマートメーターの出現により、短期負荷予測モデルをトレーニングするためのエネルギー消費データの広範囲な収集が可能になった。 プライバシの懸念に応えて、トレーニングのためのプライバシ保護アプローチとしてフェデレートラーニング(FL)が提案されているが、クライアントデータが不均一になるにつれて、トレーニングされたモデルの質が低下する。 本稿ではPL-FLと呼ばれる汎用フレームワークにおいて,負荷予測のためのパーソナライズレイヤを提案する。 PL-FLはFLよりも通信帯域幅が小さいため、FLと純粋に局所訓練に優れることを示す。 これはNREL ComStockリポジトリから3つの異なるデータセットの広範なシミュレーションを通じて行われる。

The advent of smart meters has enabled pervasive collection of energy consumption data for training short-term load forecasting models. In response to privacy concerns, federated learning (FL) has been proposed as a privacy-preserving approach for training, but the quality of trained models degrades as client data becomes heterogeneous. In this paper we propose the use of personalization layers for load forecasting in a general framework called PL-FL. We show that PL-FL outperforms FL and purely local training, while requiring lower communication bandwidth than FL. This is done through extensive simulations on three different datasets from the NREL ComStock repository.
翻訳日:2024-04-03 20:27:20 公開日:2024-04-01
# 非教師的行動セグメンテーションのための時間的一貫した不均衡最適輸送

Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation ( http://arxiv.org/abs/2404.01518v1 )

ライセンス: Link先を確認
Ming Xu, Stephen Gould, (参考訳) 本稿では,最適な移動問題の解法を基礎として,長編未編集ビデオのためのアクションセグメンテーションタスクを提案する。 時間的一貫性をGromov-Wasserstein問題に符号化することにより、ビデオフレームとアクションクラス間のノイズ親和性/マッチングコスト行列から時間的整合セグメンテーションをデコードすることができる。 従来の手法とは異なり,ビデオが時間的整合性を達成するためには,動作順序を知る必要はない。 さらに、得られた(融合した)グロモフ=ワッサーシュタイン問題は、プロジェクションミラー降下を数回繰り返してGPU上で効率的に解ける。 自己学習のための擬似ラベルを生成するための教師なし学習環境において,本手法の有効性を実証する。 我々は、Breakfast、50-Salads、YouTube Instructions、Desktop Assemblyデータセットのセグメンテーションアプローチと教師なし学習パイプラインを評価し、教師なしビデオアクションセグメンテーションタスクの最先端結果を得た。

We propose a novel approach to the action segmentation task for long, untrimmed videos, based on solving an optimal transport problem. By encoding a temporal consistency prior into a Gromov-Wasserstein problem, we are able to decode a temporally consistent segmentation from a noisy affinity/matching cost matrix between video frames and action classes. Unlike previous approaches, our method does not require knowing the action order for a video to attain temporal consistency. Furthermore, our resulting (fused) Gromov-Wasserstein problem can be efficiently solved on GPUs using a few iterations of projected mirror descent. We demonstrate the effectiveness of our method in an unsupervised learning setting, where our method is used to generate pseudo-labels for self-training. We evaluate our segmentation approach and unsupervised learning pipeline on the Breakfast, 50-Salads, YouTube Instructions and Desktop Assembly datasets, yielding state-of-the-art results for the unsupervised video action segmentation task.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-01
# マルチパラメータ推定のための量子クラメールラオ境界の到達性における拡張ヒルベルト空間の役割

Role of the extended Hilbert space in the attainability of the Quantum Cramér-Rao bound for multiparameter estimation ( http://arxiv.org/abs/2404.01520v1 )

ライセンス: Link先を確認
Lorcan O. Conlon, Jun Suzuki, Ping Koy Lam, Syed M. Assad, (参考訳) 対称対数微分 Cram\'er-Rao bound (SLDCRB) は、未知のパラメータの集合をバイアスのない方法で推定できる最小分散に基本的な制限を与える。 SLDCRBは、各パラメータが相互に通勤する際の最適な測定値として飽和可能であることが知られている。 しかし、そうでない場合、SLDCRBは一般に達成できない。 量子状態が個別に測定される実験的な環境では、SLDCRBが飽和するために必要な必要かつ十分な条件が分かっていない。 この設定では、SLDCRB は拡張ヒルベルト空間上で通勤するために SLD 演算子を選択することができる。 しかし、このような方法でSLD演算子をいつ選択できるかは、あまり分かっていない。 本稿では,この条件の新たな側面を示す明示的な例を示す。 我々の例は、SLD作用素が以下の3つの空間のいずれか上で通勤することを証明している: サポート空間、サポートカーネル空間、およびカーネル空間は、拡張空間上の可換性にとって必要かつ十分条件ではない。 ここでは,長岡-早石クラム'er-Rao 境界が常に到達可能であるとは限らないことを示す単純な解析例を示す。 最後に、カーネル空間が1次元である場合、SLDCRBの到達可能性について必要かつ十分な条件を提供する。 これらの結果は,SLDCRBの達成に必要かつ十分な条件に関する新たな情報を提供する。

The symmetric logarithmic derivative Cram\'er-Rao bound (SLDCRB) provides a fundamental limit to the minimum variance with which a set of unknown parameters can be estimated in an unbiased manner. It is known that the SLDCRB can be saturated provided the optimal measurements for the individual parameters commute with one another. However, when this is not the case the SLDCRB cannot be attained in general. In the experimentally relevant setting, where quantum states are measured individually, necessary and sufficient conditions for when the SLDCRB can be saturated are not known. In this setting the SLDCRB is attainable provided the SLD operators can be chosen to commute on an extended Hilbert space. However, beyond this relatively little is known about when the SLD operators can be chosen in this manner. In this paper we present explicit examples which demonstrate novel aspects of this condition. Our examples demonstrate that the SLD operators commuting on any two of the following three spaces: support space, support-kernel space and kernel space, is neither a necessary nor sufficient condition for commutativity on the extended space. We present a simple analytic example showing that the Nagaoka-Hayashi Cram\'er-Rao bound is not always attainable. Finally, we provide necessary and sufficient conditions for the attainability of the SLDCRB in the case when the kernel space is one-dimensional. These results provide new information on the necessary and sufficient conditions for the attainability of the SLDCRB.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-01
# フェアMP-BOOST:フェアで解釈可能なミニパッチブースティング

Fair MP-BOOST: Fair and Interpretable Minipatch Boosting ( http://arxiv.org/abs/2404.01521v1 )

ライセンス: Link先を確認
Camille Olivia Little, Genevera I. Allen, (参考訳) アンサンブル法、特に強化法は、表データの機械学習技術として非常に効果的で広く採用されている。 本稿では,従来のブースティング手法の強靭な予測力を活用しつつ,公平性と解釈可能性を高めることを目的とする。 そこで我々は,学習中の特徴や観察を適応的に学習することで,公正さと精度のバランスをとる確率的ブースティング手法であるFair MP-Boostを開発した。 具体的には、Fair MP-Boostは、適応的に学習された特徴と観察サンプリング確率に従って、ミニパッチ(MP)と呼ばれる、観測と特徴の小さなサブセットを順次サンプリングする。 損失関数を組み合わせたり、特徴重要度スコアを組み合わせて精度と公平性に対処することで、これらの確率を考案する。 したがって、Fair MP-Boostは、重要かつ公正な機能と挑戦的なインスタンスを優先し、学習に最も適したミニパッチを選択する。 学習された確率分布はまた、Fair MP-Boostにおける特徴の重要性と重要な観察の本質的な解釈をもたらす。 シミュレーションおよびベンチマークデータセットの実証評価を通じて,Fair MP-Boostの解釈可能性,精度,公正性を実証した。

Ensemble methods, particularly boosting, have established themselves as highly effective and widely embraced machine learning techniques for tabular data. In this paper, we aim to leverage the robust predictive power of traditional boosting methods while enhancing fairness and interpretability. To achieve this, we develop Fair MP-Boost, a stochastic boosting scheme that balances fairness and accuracy by adaptively learning features and observations during training. Specifically, Fair MP-Boost sequentially samples small subsets of observations and features, termed minipatches (MP), according to adaptively learned feature and observation sampling probabilities. We devise these probabilities by combining loss functions, or by combining feature importance scores to address accuracy and fairness simultaneously. Hence, Fair MP-Boost prioritizes important and fair features along with challenging instances, to select the most relevant minipatches for learning. The learned probability distributions also yield intrinsic interpretations of feature importance and important observations in Fair MP-Boost. Through empirical evaluation of simulated and benchmark datasets, we showcase the interpretability, accuracy, and fairness of Fair MP-Boost.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-01
# 画像検索のための列車試験クラスオーバーラップと検出について

On Train-Test Class Overlap and Detection for Image Retrieval ( http://arxiv.org/abs/2404.01524v1 )

ライセンス: Link先を確認
Chull Hwan Song, Jooyoung Yoon, Taebaek Hwang, Shunghyun Choi, Yeong Hyeon Gu, Yannis Avrithis, (参考訳) 画像検索におけるクラスオーバーラップを行わないトレーニングと評価セットはどの程度重要か? 私たちは、最も人気のあるトレーニングセットであるGoogle Landmarks v2 cleanを再検討し、最も人気のある評価セットであるRevisited OxfordとParis[34]でクラスオーバーラップを特定し削除します。 RGLDv2-cleanとRGLDv2-cleanを比較した。 パフォーマンスが劇的に低下するだけでなく、メソッド間で一貫性がなく、ランクを変更します。オブジェクトや関心に集中し、インデックス付け時にバックグラウンドの混乱を無視するには、何が必要でしょうか? オブジェクト検出器と表現を別々にトレーニングする必要がありますか? 位置監視は必要か? 興味のある対象を検出し、グローバルな画像表現を抽出するエンドツーエンドの単一ステージパイプラインであるSingle-stage Detect-to-Retrieve (CiDeR)を紹介した。 既存のトレーニングセットと新しいRGLDv2クリーンの両方において、これまでの最先端よりも優れています。 私たちのデータセットはhttps://github.com/dealicious-inc/RGLDv2-cleanで公開されています。

How important is it for training and evaluation sets to not have class overlap in image retrieval? We revisit Google Landmarks v2 clean, the most popular training set, by identifying and removing class overlap with Revisited Oxford and Paris [34], the most popular evaluation set. By comparing the original and the new RGLDv2-clean on a benchmark of reproduced state-of-the-art methods, our findings are striking. Not only is there a dramatic drop in performance, but it is inconsistent across methods, changing the ranking.What does it take to focus on objects or interest and ignore background clutter when indexing? Do we need to train an object detector and the representation separately? Do we need location supervision? We introduce Single-stage Detect-to-Retrieve (CiDeR), an end-to-end, single-stage pipeline to detect objects of interest and extract a global image representation. We outperform previous state-of-the-art on both existing training sets and the new RGLDv2-clean. Our dataset is available at https://github.com/dealicious-inc/RGLDv2-clean.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-01
# カテゴリー的セミオティックス:知識統合の基礎

Categorical semiotics: Foundations for Knowledge Integration ( http://arxiv.org/abs/2404.01526v1 )

ライセンス: Link先を確認
Carlos Leandro, (参考訳) さまざまなモデルから抽出された知識の統合は、ドメインの専門家によって記述されたり、機械学習アルゴリズムによって生成されたりするが、歴史的に、構造、学習プロセス、データ変換、データモデルやルールを指定および統合するための適切なフレームワークが欠如しているため、課題となっている。 本研究では,このようなフレームワーク内でのこれらの課題に対処するために,代数的仕様法を拡張した。 本研究では,ディープラーニングアーキテクチャの定義と分析を行う包括的なフレームワークを開発する上での課題に取り組む。 我々は、モデルが従わなければならない制約と実際の実装との間に明確な関係を確立することに失敗し、これまでの努力が不足したと信じています。 我々の方法論は、ファジィ集合の宇宙の中で解釈されるエルレスマンのスケッチに類似したグラフィカル構造を用いる。 このアプローチは、決定論的および非決定論的ニューラルネットワーク設計の両方をエレガントに包含する統一理論を提供する。 さらに,この理論がコンピュータ科学やオートマトン理論の基本的な概念を自然に取り入れている点を強調した。 Ehresmann氏のスケッチに似たグラフィカルな構造を基盤とした拡張代数的仕様フレームワークは、異なるモデルとドメインにまたがる知識を統合するための有望なソリューションを提供します。 ドメイン固有の専門知識と機械生成の洞察のギャップを埋めることで、私たちは、知識統合とモデリングに対するより包括的で協調的で効果的なアプローチの道を開いたのです。

The integration of knowledge extracted from diverse models, whether described by domain experts or generated by machine learning algorithms, has historically been challenged by the absence of a suitable framework for specifying and integrating structures, learning processes, data transformations, and data models or rules. In this work, we extend algebraic specification methods to address these challenges within such a framework. In our work, we tackle the challenging task of developing a comprehensive framework for defining and analyzing deep learning architectures. We believe that previous efforts have fallen short by failing to establish a clear connection between the constraints a model must adhere to and its actual implementation. Our methodology employs graphical structures that resemble Ehresmann's sketches, interpreted within a universe of fuzzy sets. This approach offers a unified theory that elegantly encompasses both deterministic and non-deterministic neural network designs. Furthermore, we highlight how this theory naturally incorporates fundamental concepts from computer science and automata theory. Our extended algebraic specification framework, grounded in graphical structures akin to Ehresmann's sketches, offers a promising solution for integrating knowledge across disparate models and domains. By bridging the gap between domain-specific expertise and machine-generated insights, we pave the way for more comprehensive, collaborative, and effective approaches to knowledge integration and modeling.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-01
# 5GおよびB5GネットワークにおけるML KPI予測

ML KPI Prediction in 5G and B5G Networks ( http://arxiv.org/abs/2404.01530v1 )

ライセンス: Link先を確認
Nguyen Phuc Tran, Oscar Delgado, Brigitte Jaumard, Fadi Bishay, (参考訳) ネットワークオペレータは、顧客のニーズを満たす際に、新たな課題に直面しています。 課題は、HDビデオストリーミング、IoT、自動運転など、新たなサービスの台頭と、ネットワークトラフィックの指数的な増加によるものだ。 この状況下では、5GとB5Gネットワークは幅広いアプリケーションやユースケースに対応するように進化してきた。 さらに、この進化は、ネットワークスライシングを使用して複数のエンドツーエンドの分離された仮想ネットワークを作成する機能など、新しい機能をもたらす。 それでも、サービスの品質を保証するために、オペレータは、キーパフォーマンス指標(KPI)とスライスサービスレベル合意(SLA)に従って、ネットワークをメンテナンスし、最適化する必要があります。 本稿では,エンド・ツー・エンド(E2E)ネットワークスライスを用いた5GおよびB5Gネットワークのスループットを推定する機械学習(ML)モデルを提案する。 そして、予測スループットと現在のネットワーク状態を組み合わせることで、サービス保証をさらに改善するために使用できる他のネットワークKPIの推定を導出する。 本手法の有効性を評価するため,性能指標を提案した。 KPI予測モデルは,同じあるいはほぼ同じ計算時間で,他の手法よりも優れていることを示す。

Network operators are facing new challenges when meeting the needs of their customers. The challenges arise due to the rise of new services, such as HD video streaming, IoT, autonomous driving, etc., and the exponential growth of network traffic. In this context, 5G and B5G networks have been evolving to accommodate a wide range of applications and use cases. Additionally, this evolution brings new features, like the ability to create multiple end-to-end isolated virtual networks using network slicing. Nevertheless, to ensure the quality of service, operators must maintain and optimize their networks in accordance with the key performance indicators (KPIs) and the slice service-level agreements (SLAs). In this paper, we introduce a machine learning (ML) model used to estimate throughput in 5G and B5G networks with end-to-end (E2E) network slices. Then, we combine the predicted throughput with the current network state to derive an estimate of other network KPIs, which can be used to further improve service assurance. To assess the efficiency of our solution, a performance metric was proposed. Numerical evaluations demonstrate that our KPI prediction model outperforms those derived from other methods with the same or nearly the same computational time.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-01
# 自動回帰イベントテンポラルグラフ生成のためのセットアライティングフレームワーク

Set-Aligning Framework for Auto-Regressive Event Temporal Graph Generation ( http://arxiv.org/abs/2404.01532v1 )

ライセンス: Link先を確認
Xingwei Tan, Yuxiang Zhou, Gabriele Pergola, Yulan He, (参考訳) イベント時間グラフは、テキスト内のイベント間の複雑な時間関係の便利かつ効果的な表現として示されている。 近年, 事前学習した言語モデルを用いて, 事象時間グラフ構築のための線形化グラフを自動回帰生成する研究が, 有望な結果を示している。 しかし、これらの手法は、線形化されたグラフが代わりに言語モデルによって順次扱われるセット特性を示すため、しばしば準最適グラフ生成に繋がる。 この相違は、従来のテキスト生成の目的に起因し、ターゲット配列の要素の不正な調整による正しい予測の誤ったペナル化につながる。 これらの課題に対処するため、我々は、大規模言語モデル(LLM)を効果的に活用するために、Set-aligning Frameworkを提案する条件セット生成問題としてタスクを再構成した。 このフレームワークは、線形化されたグラフエッジシーケンスに関連するテキスト生成損失のペナルティを軽減するために設計されたデータ拡張とセットプロパティ正規化を組み込んでおり、より多くの関係エッジの生成を促進する。 実験の結果,我々のフレームワークは事象時相グラフ生成のための既存のベースラインを超えていることがわかった。 さらに、ゼロショット設定下では、フレームワークを通じて導入された構造的知識は、特に利用可能なトレーニング例が限られている場合に、モデル一般化を著しく改善する。

Event temporal graphs have been shown as convenient and effective representations of complex temporal relations between events in text. Recent studies, which employ pre-trained language models to auto-regressively generate linearised graphs for constructing event temporal graphs, have shown promising results. However, these methods have often led to suboptimal graph generation as the linearised graphs exhibit set characteristics which are instead treated sequentially by language models. This discrepancy stems from the conventional text generation objectives, leading to erroneous penalisation of correct predictions caused by the misalignment of elements in target sequences. To address these challenges, we reframe the task as a conditional set generation problem, proposing a Set-aligning Framework tailored for the effective utilisation of Large Language Models (LLMs). The framework incorporates data augmentations and set-property regularisations designed to alleviate text generation loss penalties associated with the linearised graph edge sequences, thus encouraging the generation of more relation edges. Experimental results show that our framework surpasses existing baselines for event temporal graph generation. Furthermore, under zero-shot settings, the structural knowledge introduced through our framework notably improves model generalisation, particularly when the training examples available are limited.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-01
# LLMに基づくコード生成のための構文ロバスト性

Syntactic Robustness for LLM-based Code Generation ( http://arxiv.org/abs/2404.01535v1 )

ライセンス: Link先を確認
Laboni Sarker, Mara Downing, Achintya Desai, Tevfik Bultan, (参考訳) LLM(Large Language Models)の分野での急速な進歩により、LLMベースのコード生成が調査の重要な領域となっている。 LLMベースのコードジェネレータは、プロンプトを入力として取り、プロンプトで指定された要件を実装するコードを生成する。 多くのソフトウェア要件には、生成されるコードの期待される振る舞いを指定する数学的公式が含まれる。 数式を含むコード生成プロンプトが与えられた場合、論理式が意味論を変えることなく構文的に修正された場合、修正されたプロンプトの生成されたコードは意味論的に等価であるべきであるという合理的な期待がある。 我々は,この概念を構文的堅牢性として定式化し,コードジェネレータとして GPT-3.5-Turbo と GPT-4 の構文的堅牢性について検討する。 統語的ロバスト性をテストするために,数式をプロンプトでのみ変更するミューテータのセットを用いて,構文的に異なるが意味的に等価なプロンプトのバージョンを生成する。 本稿では,方程式の係数を入力として与えられた場合,方程式の変数に対する解を生成するコードを求めるプロンプトに着目した。 実験により, GPT-3.5-Turbo と GPT-4 はこの種のプロンプトに対して構文的に堅牢でないことが示された。 構文的ロバスト性を改善するために, 計算式を簡易な形式に変換し, それらを前処理ステップとして利用する一連の還元法を定義する。 実験結果から,LLMに基づくコード生成の構文的ロバスト性は,本手法により向上できることが示された。

Rapid advances in the field of Large Language Models (LLMs) have made LLM-based code generation an important area for investigation. An LLM-based code generator takes a prompt as input and produces code that implements the requirements specified in the prompt. Many software requirements include mathematical formulas that specify the expected behavior of the code to be generated. Given a code generation prompt that includes a mathematical formula, a reasonable expectation is that, if the formula is syntactically modified without changing its semantics, the generated code for the modified prompt should be semantically equivalent. We formalize this concept as syntactic robustness and investigate the syntactic robustness of GPT-3.5-Turbo and GPT-4 as code generators. To test syntactic robustness, we generate syntactically different but semantically equivalent versions of prompts using a set of mutators that only modify mathematical formulas in prompts. In this paper, we focus on prompts that ask for code that generates solutions to variables in an equation, when given coefficients of the equation as input. Our experimental evaluation demonstrates that GPT-3.5-Turbo and GPT-4 are not syntactically robust for this type of prompts. To improve syntactic robustness, we define a set of reductions that transform the formulas to a simplified form and use these reductions as a pre-processing step. Our experimental results indicate that the syntactic robustness of LLM-based code generation can be improved using our approach.
翻訳日:2024-04-03 18:27:47 公開日:2024-04-01
# BERTによる在宅プラジャリズム検出システムのための検索ツール

BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System ( http://arxiv.org/abs/2404.01582v1 )

ライセンス: Link先を確認
Jiarong Xian, Jibao Yuan, Peiwei Zheng, Dexian Chen, (参考訳) テキストプラジャリズム検出タスクは、あるテキストにプラジャリズムが含まれているか、あるいは他のテキストからコピーされているかを検出することを目的とした、一般的な自然言語処理タスクである。 既存の研究では、高品質なデータセットが欠如しているため、ハイレベルなプラジャリズムの検出は依然として課題である。 本稿では,GPT-3.5をベースとして,多種多様なプラジャリズム手法をカバーする32,927組のテキストプラジャリズム検出データセットを生成し,そのギャップを埋める手法を提案する。 一方,BERT を用いた Faiss に基づく盗作識別手法を提案する。 このモデルの性能は, 精度, 精度, リコール, F1スコアにおいて, 98.86\%, 98.90%, 98.86%, および0.9888よりも優れていた。 最後に、ユーザフレンドリなデモプラットフォームを提供し、ユーザーはテキストライブラリをアップロードし、直感的に盗作分析に参加できる。

Text plagiarism detection task is a common natural language processing task that aims to detect whether a given text contains plagiarism or copying from other texts. In existing research, detection of high level plagiarism is still a challenge due to the lack of high quality datasets. In this paper, we propose a plagiarized text data generation method based on GPT-3.5, which produces 32,927 pairs of text plagiarism detection datasets covering a wide range of plagiarism methods, bridging the gap in this part of research. Meanwhile, we propose a plagiarism identification method based on Faiss with BERT with high efficiency and high accuracy. Our experiments show that the performance of this model outperforms other models in several metrics, including 98.86\%, 98.90%, 98.86%, and 0.9888 for Accuracy, Precision, Recall, and F1 Score, respectively. At the end, we also provide a user-friendly demo platform that allows users to upload a text library and intuitively participate in the plagiarism analysis.
翻訳日:2024-04-03 18:18:02 公開日:2024-04-01
# ビデオインスタンスセグメンテーションにおけるポイントスーパービジョンの価値

What is Point Supervision Worth in Video Instance Segmentation? ( http://arxiv.org/abs/2404.01990v1 )

ライセンス: Link先を確認
Shuaiyi Huang, De-An Huang, Zhiding Yu, Shiyi Lan, Subhashree Radhakrishnan, Jose M. Alvarez, Abhinav Shrivastava, Anima Anandkumar, (参考訳) ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。 従来のVIS法は、高価な密接な注釈付けされたオブジェクトマスクに依存している。 トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。 提案手法は, クラスに依存しない提案生成モジュールから成り, リッチな負のサンプルを提供するとともに, オブジェクトクエリと提供されたポイントアノテーションとを一致させる時空間整合器を備える。 3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。

Video instance segmentation (VIS) is a challenging vision task that aims to detect, segment, and track objects in videos. Conventional VIS methods rely on densely-annotated object masks which are expensive. We reduce the human annotations to only one point for each object in a video frame during training, and obtain high-quality mask predictions close to fully supervised models. Our proposed training method consists of a class-agnostic proposal generation module to provide rich negative samples and a spatio-temporal point-based matcher to match the object queries with the provided point annotations. Comprehensive experiments on three VIS benchmarks demonstrate competitive performance of the proposed framework, nearly matching fully supervised methods.
翻訳日:2024-04-03 16:09:04 公開日:2024-04-01
# 大規模言語モデルにおける長期的事実性

Long-form factuality in large language models ( http://arxiv.org/abs/2403.18802v2 )

ライセンス: Link先を確認
Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Jie Huang, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le, (参考訳) 大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。 まずGPT-4を用いて、38のトピックにまたがる何千もの質問からなるプロンプトセットであるLongFactを生成する。 そこで我々は,LLMエージェントを,探索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。 SAFEは、LLMを使用して、長文の応答を個々の事実の集合に分解し、検索クエリをGoogle検索に送信し、検索結果で事実がサポートされているかどうかを判定する多段階推論プロセスを用いて、各事実の精度を評価する。 さらに,F1スコアを長期的事実性のための集計指標として拡張することを提案する。 そこで我々は,応答(精度)におけるサポート対象事実の割合と,ユーザの好む応答長(リコール)を表すハイパーパラメータに対する提供対象事実の割合のバランスをとる。 実証的に、LLMエージェントがクラウドソースされた人間のアノテーションより優れていることを実証する。約16kの個々の事実に基づいて、SAFEはクラウドソースされた人間のアノテーションと72%の時間で一致し、100の不一致事例のランダムなサブセットでは、SAFEが76%の時間で勝利する。 同時に、SAFEはヒトのアノテーターの20倍以上の安価である。 また、LongFactの13の言語モデル(Gemini, GPT, Claude, PaLM-2)をベンチマークし、より大きな言語モデルが一般的により優れた長文の事実性を実現することを発見した。 LongFact、SAFE、およびすべての実験コードはhttps://github.com/google-deepmind/long-form-factualityで入手できる。

Large language models (LLMs) often generate content that contains factual errors when responding to fact-seeking prompts on open-ended topics. To benchmark a model's long-form factuality in open domains, we first use GPT-4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results. Furthermore, we propose extending F1 score as an aggregated metric for long-form factuality. To do so, we balance the percentage of supported facts in a response (precision) with the percentage of provided facts relative to a hyperparameter representing a user's preferred response length (recall). Empirically, we demonstrate that LLM agents can outperform crowdsourced human annotators - on a set of ~16k individual facts, SAFE agrees with crowdsourced human annotators 72% of the time, and on a random subset of 100 disagreement cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times cheaper than human annotators. We also benchmark thirteen language models on LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding that larger language models generally achieve better long-form factuality. LongFact, SAFE, and all experimental code are available at https://github.com/google-deepmind/long-form-factuality.
翻訳日:2024-04-03 11:22:19 公開日:2024-04-01
# ECoDepth:単眼深度推定のための拡散モデルの効率的な条件付け

ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth Estimation ( http://arxiv.org/abs/2403.18807v3 )

ライセンス: Link先を確認
Suraj Patni, Aradhye Agarwal, Chetan Arora, (参考訳) パララックス・キューが存在しない場合、学習に基づく単一画像深度推定(SIDE)モデルは、画像のシェーディングと文脈的キューに大きく依存する。 この単純さは魅力的だが、大きなデータセットやさまざまなデータセットでそのようなモデルをトレーニングする必要がある。 CLIPのような事前訓練された基礎モデルからの埋め込みを使用することで、いくつかのアプリケーションにおけるゼロショット転送が改善されることが示されている。 このことから着想を得て、本稿では、事前学習したViTモデルから生成されたグローバル画像の事前利用について検討し、より詳細な文脈情報を提供する。 大規模なデータセット上で事前学習されたViTモデルからの埋め込みベクトルは、疑似画像キャプションを生成する通常の経路よりもSIDEの関連情報をキャプチャし、次にCLIPベースのテキスト埋め込みを行う。 そこで本研究では,ViT埋め込みを前提とした拡散バックボーンを用いた新しいSIDEモデルを提案する。 提案手法は,現在のSOTA(VPD)の0.069に対して,Abs Rel誤差0.059(14%の改善)を達成し,NYUv2データセット上でSIDEのための新しい最先端SOTA(State-of-the-art)を確立する。 そして、KITTIデータセットでは、現在のSOTA(GEDepth)の0.142に比べてSq Rel誤差が0.139(2%改善)である。 また,NYUv2でトレーニングしたモデルを用いたゼロショット転送では,ZoeDepthによる16%,18%,45%,9%に比べてNeWCRFよりも20%,23%,81%,25%の相対的な改善(Sun-RGBD,iBims1,DIODE,HyperSim)が見られた。 プロジェクトのページはhttps://ecodepth-iitd.github.ioで公開されている。

In the absence of parallax cues, a learning-based single image depth estimation (SIDE) model relies heavily on shading and contextual cues in the image. While this simplicity is attractive, it is necessary to train such models on large and varied datasets, which are difficult to capture. It has been shown that using embeddings from pre-trained foundational models, such as CLIP, improves zero shot transfer in several applications. Taking inspiration from this, in our paper we explore the use of global image priors generated from a pre-trained ViT model to provide more detailed contextual information. We argue that the embedding vector from a ViT model, pre-trained on a large dataset, captures greater relevant information for SIDE than the usual route of generating pseudo image captions, followed by CLIP based text embeddings. Based on this idea, we propose a new SIDE model using a diffusion backbone which is conditioned on ViT embeddings. Our proposed design establishes a new state-of-the-art (SOTA) for SIDE on NYUv2 dataset, achieving Abs Rel error of 0.059(14% improvement) compared to 0.069 by the current SOTA (VPD). And on KITTI dataset, achieving Sq Rel error of 0.139 (2% improvement) compared to 0.142 by the current SOTA (GEDepth). For zero-shot transfer with a model trained on NYUv2, we report mean relative improvement of (20%, 23%, 81%, 25%) over NeWCRFs on (Sun-RGBD, iBims1, DIODE, HyperSim) datasets, compared to (16%, 18%, 45%, 9%) by ZoeDepth. The project page is available at https://ecodepth-iitd.github.io
翻訳日:2024-04-03 11:22:19 公開日:2024-04-01
# WALT3D: Occlusion 下での動的物体再構成のための時系列画像からのリアルなトレーニングデータの生成

WALT3D: Generating Realistic Training Data from Time-Lapse Imagery for Reconstructing Dynamic Objects under Occlusion ( http://arxiv.org/abs/2403.19022v2 )

ライセンス: Link先を確認
Khiem Vuong, N. Dinesh Reddy, Robert Tamburo, Srinivasa G. Narasimhan, (参考訳) 都市環境における2次元・3次元物体理解手法の課題は,大規模にラベル付けされた接頭辞アノテーションが欠如していることによる。 本研究では,動的オブジェクトの大規模で現実的なデータセットを自動的に生成する新しいフレームワークを提案する。 既設の2D(バウンディングボックス、セグメンテーション、キーポイント)と3D(目的、形状)の予測を擬似グラウンドトゥルスとして活用することにより、非閉塞な3Dオブジェクトをクリップアート形式で自動的に識別して背景に合成し、現実的な外観と物理的に正確なオクルージョン構成を確保する。 擬似基底構造を持つクリップアート画像は、閉塞に対して頑健なオブジェクト再構成手法の効率的な訓練を可能にする。 提案手法は,2次元と3次元の両方の再現において,特に車両や都市部で密集した物体のシナリオにおいて,顕著な改善を示すものである。

Current methods for 2D and 3D object understanding struggle with severe occlusions in busy urban environments, partly due to the lack of large-scale labeled ground-truth annotations for learning occlusion. In this work, we introduce a novel framework for automatically generating a large, realistic dataset of dynamic objects under occlusions using freely available time-lapse imagery. By leveraging off-the-shelf 2D (bounding box, segmentation, keypoint) and 3D (pose, shape) predictions as pseudo-groundtruth, unoccluded 3D objects are identified automatically and composited into the background in a clip-art style, ensuring realistic appearances and physically accurate occlusion configurations. The resulting clip-art image with pseudo-groundtruth enables efficient training of object reconstruction methods that are robust to occlusions. Our method demonstrates significant improvements in both 2D and 3D reconstruction, particularly in scenarios with heavily occluded objects like vehicles and people in urban scenes.
翻訳日:2024-04-03 11:22:19 公開日:2024-04-01
# ビジョンランゲージモデルによるニューラルネットワークの概念に基づく解析

Concept-based Analysis of Neural Networks via Vision-Language Models ( http://arxiv.org/abs/2403.19837v2 )

ライセンス: Link先を確認
Ravi Mangal, Nina Narodytska, Divya Gopinath, Boyue Caroline Hu, Anirban Roy, Susmit Jha, Corina Pasareanu, (参考訳) ビジョンベースディープニューラルネットワーク(DNN)の分析は非常に望ましいが、ビジョンタスクの正式な仕様や効率的な検証手順の欠如のため、非常に難しい。 本稿では,新たなマルチモーダル,視覚言語,基礎モデル(VLM)をレンズとして活用することを提案する。 VLMは、テキストによる記述を伴う大量の画像に基づいて訓練されており、画像を記述する高レベルで人間に理解可能な概念を暗黙的に認識している。 これらの概念の観点から仕様の記述を容易にするために設計された論理仕様言語 $\textt{Con}_{\textt{spec}}$ を記述します。 仕様を定義するために、与えられたビジョンモデルの内部表現とVLMの間のマップを構築し、視覚モデルに対する自然言語特性の効率的な検証を行う。 マルチモーダルモデルとしてCLIPを用いたRIVAL-10データセットでトレーニングしたResNetベースの分類器について,本手法を実証する。

The analysis of vision-based deep neural networks (DNNs) is highly desirable but it is very challenging due to the difficulty of expressing formal specifications for vision tasks and the lack of efficient verification procedures. In this paper, we propose to leverage emerging multimodal, vision-language, foundation models (VLMs) as a lens through which we can reason about vision models. VLMs have been trained on a large body of images accompanied by their textual description, and are thus implicitly aware of high-level, human-understandable concepts describing the images. We describe a logical specification language $\texttt{Con}_{\texttt{spec}}$ designed to facilitate writing specifications in terms of these concepts. To define and formally check $\texttt{Con}_{\texttt{spec}}$ specifications, we build a map between the internal representations of a given vision model and a VLM, leading to an efficient verification procedure of natural-language properties for vision models. We demonstrate our techniques on a ResNet-based classifier trained on the RIVAL-10 dataset using CLIP as the multimodal model.
翻訳日:2024-04-03 11:22:19 公開日:2024-04-01
# LLMエージェントのネットワークによるオピニオンダイナミクスのシミュレーション

Simulating Opinion Dynamics with Networks of LLM-based Agents ( http://arxiv.org/abs/2311.09618v4 )

ライセンス: Link先を確認
Yun-Shiuan Chuang, Agam Goyal, Nikunj Harlalka, Siddharth Suresh, Robert Hawkins, Sijia Yang, Dhavan Shah, Junjie Hu, Timothy T. Rogers, (参考訳) 人間の意見力学を正確にシミュレートすることは、偏光や誤報の拡散など、様々な社会現象を理解するために重要である。 しかしながら、エージェントベースモデル(ABM)は、しばしば人間の振る舞いを過度に単純化する。 本稿では,Large Language Models (LLMs) の集団に基づく意見力学のシミュレーション手法を提案する。 以上の結果から, LLMエージェントの正確な情報生成に対するバイアスが強く, シミュレーションエージェントが科学的現実に一致していることが明らかとなった。 このバイアスは、気候変動のような問題に関する意見の一致に対する抵抗を理解するための有用性を制限している。 しかし、素早い工学を通して確認バイアスを誘導した後、既存のエージェント・ベース・モデリングや意見ダイナミクス研究と並んで意見の断片化を観察した。 これらの洞察は、この領域におけるLLMエージェントの約束と限界を強調し、次の道を提案する。

Accurately simulating human opinion dynamics is crucial for understanding a variety of societal phenomena, including polarization and the spread of misinformation. However, the agent-based models (ABMs) commonly used for such simulations often over-simplify human behavior. We propose a new approach to simulating opinion dynamics based on populations of Large Language Models (LLMs). Our findings reveal a strong inherent bias in LLM agents towards producing accurate information, leading simulated agents to consensus in line with scientific reality. This bias limits their utility for understanding resistance to consensus views on issues like climate change. After inducing confirmation bias through prompt engineering, however, we observed opinion fragmentation in line with existing agent-based modeling and opinion dynamics research. These insights highlight the promise and limitations of LLM agents in this domain and suggest a path forward: refining LLMs with real-world discourse to better simulate the evolution of human beliefs.
翻訳日:2024-04-02 19:58:13 公開日:2024-04-01
# 擬似逆流を用いた強化学習のための定常誤差補償

Steady-State Error Compensation for Reinforcement Learning with Quadratic Rewards ( http://arxiv.org/abs/2402.09075v2 )

ライセンス: Link先を確認
Liyao Wang, Zishun Zheng, Yuan Lin, (参考訳) 強化学習(RL)における報酬関数の選択は,システム性能への影響から注目されている。 重要な定常状態誤差の問題は、二次報酬関数が用いられるときにしばしば現れる。 絶対値型報酬関数はこの問題を緩和するが、特定の系状態においてかなりの変動を引き起こす傾向があり、突然の変化をもたらす。 この課題に応えて、本研究では、積分項を導入するアプローチを提案する。 この積分項を二次型報酬関数に統合することにより、RLアルゴリズムは順応的に調整され、システムによる報酬履歴の考慮が増大し、定常状態誤差に関する懸念が軽減される。 適応クルーズ制御(ACC)およびレーン変更モデルの実験および性能評価を通じて,提案手法が定常誤差を効果的に低減し,一部のシステム状態において大きなスパイクを生じさせないことを検証する。

The selection of a reward function in Reinforcement Learning (RL) has garnered significant attention because of its impact on system performance. Issues of significant steady-state errors often manifest when quadratic reward functions are employed. Although absolute-value-type reward functions alleviate this problem, they tend to induce substantial fluctuations in specific system states, leading to abrupt changes. In response to this challenge, this study proposes an approach that introduces an integral term. By integrating this integral term into quadratic-type reward functions, the RL algorithm is adeptly tuned, augmenting the system's consideration of reward history, and consequently alleviates concerns related to steady-state errors. Through experiments and performance evaluations on the Adaptive Cruise Control (ACC) and lane change models, we validate that the proposed method effectively diminishes steady-state errors and does not cause significant spikes in some system states.
翻訳日:2024-04-02 19:58:13 公開日:2024-04-01
# 変形可能なマルチモーダル医用画像登録のためのモダリティ非依存構造画像表現学習

Modality-Agnostic Structural Image Representation Learning for Deformable Multi-Modality Medical Image Registration ( http://arxiv.org/abs/2402.18933v2 )

ライセンス: Link先を確認
Tony C. W. Mok, Zi Li, Yunhao Bai, Jianpeng Zhang, Wei Liu, Yan-Jie Zhou, Ke Yan, Dakai Jin, Yu Shi, Xiaoli Yin, Le Lu, Ling Zhang, (参考訳) 異なる画像モダリティにまたがる密度の解剖学的対応を確立することは、多くの医学的画像分析研究と画像誘導放射線治療の基礎的かつ困難な手順である。 既存のマルチモード画像登録アルゴリズムは、統計に基づく類似度測定や局所構造画像表現に依存している。 しかし、前者は局所的に変化するノイズに敏感であり、後者はマルチモーダルスキャンにおける複雑な解剖学的構造に対処するのに十分な識別性はない。 本稿では, 近親相似性(DNS)と解剖学的相似性(anatomy-aware contrastive learning)を活用して, 解剖的記述や事前整列した訓練画像を必要としない, 識別的・コントラスト的深部構造画像表現(DSIR)を学習するモダリティ非依存型構造表現学習法を提案する。 我々は多相CT,腹部MRI-CT,脳MRT1w-T2wの登録について検討した。 総合的な結果から,本手法は従来の局所的構造表現や統計的類似度尺度よりも識別性と精度の点で優れていることが示された。

Establishing dense anatomical correspondence across distinct imaging modalities is a foundational yet challenging procedure for numerous medical image analysis studies and image-guided radiotherapy. Existing multi-modality image registration algorithms rely on statistical-based similarity measures or local structural image representations. However, the former is sensitive to locally varying noise, while the latter is not discriminative enough to cope with complex anatomical structures in multimodal scans, causing ambiguity in determining the anatomical correspondence across scans with different modalities. In this paper, we propose a modality-agnostic structural representation learning method, which leverages Deep Neighbourhood Self-similarity (DNS) and anatomy-aware contrastive learning to learn discriminative and contrast-invariance deep structural image representations (DSIR) without the need for anatomical delineations or pre-aligned training images. We evaluate our method on multiphase CT, abdomen MR-CT, and brain MR T1w-T2w registration. Comprehensive results demonstrate that our method is superior to the conventional local structural representation and statistical-based similarity measures in terms of discriminability and accuracy.
翻訳日:2024-04-02 19:58:13 公開日:2024-04-01
# グレースケール再定義に基づく高分解能画像翻訳モデル

High-Resolution Image Translation Model Based on Grayscale Redefinition ( http://arxiv.org/abs/2403.17639v2 )

ライセンス: Link先を確認
Xixian Wu, Dian Chao, Yang Yang, (参考訳) 画像から画像への変換は、重要なコンテンツ表現を維持しながら、あるドメインから別のドメインへ画像を転送することに焦点を当てる技法である。 近年,コンピュータビジョンや画像処理タスクにおける多種多様な応用により,画像から画像への翻訳が注目され,目覚しい進歩を遂げている。 本研究では,異なる領域間の画像変換のための革新的な手法を提案する。 高解像度画像翻訳タスクでは、グレースケール調整法を用いてピクセルレベルの変換を行う。 他のタスクでは、Pix2PixHDモデルを使い、粗大な生成装置、マルチスケールの判別器、画像翻訳性能を向上させるために損失の改善を行う。 一方、スパーストレーニングデータの問題に対処するために、我々は現在のタスクの性能を最適化するために、他のタスクからモデルウェイト初期化を採用する。

Image-to-image translation is a technique that focuses on transferring images from one domain to another while maintaining the essential content representations. In recent years, image-to-image translation has gained significant attention and achieved remarkable advancements due to its diverse applications in computer vision and image processing tasks. In this work, we propose an innovative method for image translation between different domains. For high-resolution image translation tasks, we use a grayscale adjustment method to achieve pixel-level translation. For other tasks, we utilize the Pix2PixHD model with a coarse-to-fine generator, multi-scale discriminator, and improved loss to enhance the image translation performance. On the other hand, to tackle the issue of sparse training data, we adopt model weight initialization from other task to optimize the performance of the current task.
翻訳日:2024-04-02 19:58:13 公開日:2024-04-01
# ミニトレーニングデータセットによる交通予測のためのエネルギー誘導型データサンプリング

Energy-Guided Data Sampling for Traffic Prediction with Mini Training Datasets ( http://arxiv.org/abs/2403.18710v2 )

ライセンス: Link先を確認
Zhaohui Yang, Kshitij Jerath, (参考訳) 近年の深層学習による将来の交通状況予測への取り組みは,様々な課題に遭遇し,多様な結果をもたらす。 ディープラーニングモデルの実質的なデータ要求から顕著な障害が発生し、リソースはトラフィックフローシステムに不足することが多い。 トラフィックフローのダイナミクスに関するドメイン知識が豊富にあるにもかかわらず、ディープラーニングの方法論が十分に活用できないことが多い。 これらの課題に対処するために,畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)アーキテクチャを融合して,トラフィックフローのダイナミクスを予測する革新的なソリューションを提案する。 本研究の重要な成果は,小規模な交通システムを対象としたシミュレーションから,大規模交通システムのトレーニングデータをサンプリングできることである。 この知見は、顕微鏡データのサンプリングを知らせるために、マクロレベルの分布を参照する可能性を示している。 このようなサンプリングは、統計力学モデルの正規化エネルギー分布における観測スケール不変性により促進され、大規模交通システムにおけるデータ生成プロセスの合理化が図られる。 本シミュレーションは,提案手法の有効性を実証し,予測された交通流と実際の交通流のダイナミックスとの間に有望な一致を示すものである。

Recent endeavors aimed at forecasting future traffic flow states through deep learning encounter various challenges and yield diverse outcomes. A notable obstacle arises from the substantial data requirements of deep learning models, a resource often scarce in traffic flow systems. Despite the abundance of domain knowledge concerning traffic flow dynamics, prevailing deep learning methodologies frequently fail to fully exploit it. To address these issues, we propose an innovative solution that merges Convolutional Neural Networks (CNNs) with Long Short-Term Memory (LSTM) architecture to enhance the prediction of traffic flow dynamics. A key revelation of our research is the feasibility of sampling training data for large traffic systems from simulations conducted on smaller traffic systems. This insight suggests the potential for referencing a macroscopic-level distribution to inform the sampling of microscopic data. Such sampling is facilitated by the observed scale invariance in the normalized energy distribution of the statistical mechanics model, thereby streamlining the data generation process for large-scale traffic systems. Our simulations demonstrate promising agreement between predicted and actual traffic flow dynamics, underscoring the efficacy of our proposed approach.
翻訳日:2024-04-02 19:58:13 公開日:2024-04-01
# 薬物毒性予測に応用した量子-古典的ニューラルネットワーク変換学習

Quantum to Classical Neural Network Transfer Learning Applied to Drug Toxicity Prediction ( http://arxiv.org/abs/2403.18997v2 )

ライセンス: Link先を確認
Anthony M. Smaldone, Victor S. Batista, (参考訳) 毒性 (Toxicity) は、不規則な数の薬物が命を救うために使用されるのを防ぐブロックである。 深層学習は理想的な薬物候補を見つけるための有望な解決策を提供するが、基礎となる$\mathcal{O}(n^3)$行列乗算と化学空間の広さは、これらの取り組みが急速に計算的に要求されることを意味する。 これを解決するために,従来のニューラルネットワーク設計を模倣した量子回路設計を用いて,複雑度$\mathcal{O}(n^2)$の行列積を明示的に計算し,薬物毒性を予測するハイブリッド量子古典ニューラルネットワークを提案する。 従来のスワップ試験よりも効率的に内部積推定を行うためにアダマール試験を利用することで、量子位相推定の必要性を減らし、量子ビット数を半減する。 量子行列製品を直接計算することで、学習可能な重量を量子から古典的なデバイスに転送し、さらなるトレーニングを行うことができる。 我々は、Tox21データセットにフレームワークを適用し、モデルの全古典的な$\mathcal{O}(n^3)$アナログに対して、コンメジュレートな予測精度を達成することを示す。 さらに、モデルがディスラプションなしで学習し続け、一度完全に古典的なアーキテクチャに移行したことを実証する。 複雑性の低減による量子的優位性とノイズフリー計算の古典的優位性を組み合わせることで、よりスケーラブルな機械学習モデルへの道が開けると考えています。

Toxicity is a roadblock that prevents an inordinate number of drugs from being used in potentially life-saving applications. Deep learning provides a promising solution to finding ideal drug candidates; however, the vastness of chemical space coupled with the underlying $\mathcal{O}(n^3)$ matrix multiplication means these efforts quickly become computationally demanding. To remedy this, we present a hybrid quantum-classical neural network for predicting drug toxicity, utilizing a quantum circuit design that mimics classical neural behavior by explicitly calculating matrix products with complexity $\mathcal{O}(n^2)$. Leveraging the Hadamard test for efficient inner product estimation rather than the conventionally used swap test, we reduce the number qubits by half and remove the need for quantum phase estimation. Directly computing matrix products quantum mechanically allows for learnable weights to be transferred from a quantum to a classical device for further training. We apply our framework to the Tox21 dataset and show that it achieves commensurate predictive accuracy to the model's fully classical $\mathcal{O}(n^3)$ analog. Additionally, we demonstrate the model continues to learn, without disruption, once transferred to a fully classical architecture. We believe combining the quantum advantage of reduced complexity and the classical advantage of noise-free calculation will pave the way to more scalable machine learning models.
翻訳日:2024-04-02 19:58:13 公開日:2024-04-01
# 大規模マルチモーダルモデルのためのコンポジションチェーン・オブ・サート・プロンプティング

Compositional Chain-of-Thought Prompting for Large Multimodal Models ( http://arxiv.org/abs/2311.17076v3 )

ライセンス: Link先を確認
Chancharik Mitra, Brandon Huang, Trevor Darrell, Roei Herzig, (参考訳) 強力な視覚バックボーンとLLM(Large Language Model)推論の組み合わせにより、LMM(Large Multimodal Models)が、幅広いビジョンと言語(VL)タスクの現在の標準となった。 しかし、近年の研究では、最も先進的なLMMでさえ、属性やオブジェクト間の関係といった、構成的視覚的推論の側面を捉えるのに苦戦していることが示されている。 1つの解決策はシーングラフ(SG)を利用することだ。オブジェクトとその関係と属性は視覚領域とテキスト領域の間のブリッジとして広く利用されている。 しかし、シーングラフデータにはシーングラフアノテーションが必要です。 さらに、SGデータに基づくLMMの微調整は、事前学習対象を壊滅的に忘れてしまう可能性がある。 これを解決するために,LMMから合成知識を抽出するために,SG表現を利用した新しいゼロショット・チェーン・オブ・ソート・プロンプト法であるコンポジション・チェーン・オブ・ソート(CCoT)を提案する。 具体的には、まずLMMを用いてSGを生成し、次にそのSGをプロンプトに使用して応答を生成する。 広範にわたる実験により、提案手法は、複数の視覚および言語VL合成ベンチマークにおけるLMM性能を向上するだけでなく、一般的なマルチモーダルベンチマークにおけるいくつかのLMMの性能も改善する。 コード:https://github.com/chancharikmitra/CCoT

The combination of strong visual backbones and Large Language Model (LLM) reasoning has led to Large Multimodal Models (LMMs) becoming the current standard for a wide range of vision and language (VL) tasks. However, recent research has shown that even the most advanced LMMs still struggle to capture aspects of compositional visual reasoning, such as attributes and relationships between objects. One solution is to utilize scene graphs (SGs)--a formalization of objects and their relations and attributes that has been extensively used as a bridge between the visual and textual domains. Yet, scene graph data requires scene graph annotations, which are expensive to collect and thus not easily scalable. Moreover, finetuning an LMM based on SG data can lead to catastrophic forgetting of the pretraining objective. To overcome this, inspired by chain-of-thought methods, we propose Compositional Chain-of-Thought (CCoT), a novel zero-shot Chain-of-Thought prompting method that utilizes SG representations in order to extract compositional knowledge from an LMM. Specifically, we first generate an SG using the LMM, and then use that SG in the prompt to produce a response. Through extensive experiments, we find that the proposed CCoT approach not only improves LMM performance on several vision and language VL compositional benchmarks but also improves the performance of several popular LMMs on general multimodal benchmarks, without the need for fine-tuning or annotated ground-truth SGs. Code: https://github.com/chancharikmitra/CCoT
翻訳日:2024-04-02 15:05:24 公開日:2024-04-01
# PACE: クラッタ環境における Pose アノテーション付き大規模データセット

PACE: A Large-Scale Dataset with Pose Annotations in Cluttered Environments ( http://arxiv.org/abs/2312.15130v2 )

ライセンス: Link先を確認
Yang You, Kai Xiong, Zhening Yang, Zhengxiang Huang, Junwei Zhou, Ruoxi Shi, Zhou Fang, Adam W. Harley, Leonidas Guibas, Cewu Lu, (参考訳) ポーズ推定はコンピュータビジョンとロボティクスにおいて重要なタスクであり、画像やビデオ内の物体の追跡と操作を可能にする。 ポーズ推定のためのデータセットはいくつか存在するが、オクルージョンのある散らかったシーンに特に焦点を絞った大規模なデータセットは存在しない。 PACE(Pose Annotations in Cluttered Environments)は,乱雑なシナリオにおけるポーズ推定手法の開発と評価を促進するために設計された大規模ベンチマークである。 PACEは54,945フレームで構成され、300の動画に257,673のアノテーションがあり、44のカテゴリから576のオブジェクトをカバーしている。 実世界のデータを効率的にアノテートするために,キャリブレーションされた3カメラ装置を用いたイノベーティブなアノテーションシステムを開発した。 PACEでは、ポーズ推定とオブジェクトポーズ追跡という2つのトラックに沿って最先端のアルゴリズムをテストし、ベンチマークの課題と研究の機会を明らかにする。 私たちのコードとデータはhttps://github.com/qq456cvb/PACEで公開されています。

Pose estimation is a crucial task in computer vision and robotics, enabling the tracking and manipulation of objects in images or videos. While several datasets exist for pose estimation, there is a lack of large-scale datasets specifically focusing on cluttered scenes with occlusions. We introduce PACE (Pose Annotations in Cluttered Environments), a large-scale benchmark designed to advance the development and evaluation of pose estimation methods in cluttered scenarios. PACE consists of 54,945 frames with 257,673 annotations across 300 videos, covering 576 objects from 44 categories and featuring a mix of rigid and articulated items in cluttered scenes. To annotate the real-world data efficiently, we developed an innovative annotation system utilizing a calibrated 3-camera setup. We test state-of-the-art algorithms in PACE along two tracks: pose estimation, and object pose tracking, revealing the benchmark's challenges and research opportunities. Our code and data is available on https://github.com/qq456cvb/PACE.
翻訳日:2024-04-02 14:35:39 公開日:2024-04-01
# オープンな異種協調知覚のための拡張可能なフレームワーク

An Extensible Framework for Open Heterogeneous Collaborative Perception ( http://arxiv.org/abs/2401.13964v3 )

ライセンス: Link先を確認
Yifan Lu, Yue Hu, Yiqi Zhong, Dequan Wang, Yanfeng Wang, Siheng Chen, (参考訳) コラボレーティブな知覚は、複数のエージェント間でのデータ交換を容易にすることによって、オクルージョンのような単一エージェントの知覚の限界を軽減することを目的としている。 しかしながら、現在のほとんどの研究は、全てのエージェントがアイデンティティセンサーと知覚モデルを使用する同質なシナリオを考察している。 実際には、異種エージェントタイプは、既存のエージェントとの共同作業において、絶えず出現し、必然的にドメインギャップに直面します。 本稿では,新たなオープンな異種問題として,新しい異種エージェントを協調認識に適応させると同時に,高い認識性能と低統合コストを確保する方法を提案する。 この問題に対処するために,新たに拡張可能な協調認識フレームワークであるHEAL(Heterogeneous ALliance)を提案する。 HEALはまず、新しいマルチスケールのフォアグラウンド対応ピラミッドフュージョンネットワークを通じて、初期エージェントと統合された特徴空間を確立する。 不均一な新しいエージェントが以前にも見られないモダリティやモデルで現れると、確立された統一空間に、革新的な後方アライメントで整列する。 このステップは、新しいエージェントタイプでの個別のトレーニングのみを含み、非常に低いトレーニングコストと高い拡張性を示す。 エージェントのデータ不均一性を豊かにするために、より多様なセンサータイプを持つ新しい大規模データセットであるOPV2V-Hを導入する。 OPV2V-HとDAIR-V2Xデータセットの大規模な実験は、HEALがSOTAメソッドを上回り、トレーニングパラメータを3つの新しいエージェントタイプを統合すると91.5%削減することを示している。 https://github.com/yifanlu0227/HEAL

Collaborative perception aims to mitigate the limitations of single-agent perception, such as occlusions, by facilitating data exchange among multiple agents. However, most current works consider a homogeneous scenario where all agents use identity sensors and perception models. In reality, heterogeneous agent types may continually emerge and inevitably face a domain gap when collaborating with existing agents. In this paper, we introduce a new open heterogeneous problem: how to accommodate continually emerging new heterogeneous agent types into collaborative perception, while ensuring high perception performance and low integration cost? To address this problem, we propose HEterogeneous ALliance (HEAL), a novel extensible collaborative perception framework. HEAL first establishes a unified feature space with initial agents via a novel multi-scale foreground-aware Pyramid Fusion network. When heterogeneous new agents emerge with previously unseen modalities or models, we align them to the established unified space with an innovative backward alignment. This step only involves individual training on the new agent type, thus presenting extremely low training costs and high extensibility. To enrich agents' data heterogeneity, we bring OPV2V-H, a new large-scale dataset with more diverse sensor types. Extensive experiments on OPV2V-H and DAIR-V2X datasets show that HEAL surpasses SOTA methods in performance while reducing the training parameters by 91.5% when integrating 3 new agent types. We further implement a comprehensive codebase at: https://github.com/yifanlu0227/HEAL
翻訳日:2024-04-02 14:25:45 公開日:2024-04-01
# TinyLLM: 複数の大規模言語モデルから小さな学生を学ぶ

TinyLLM: Learning a Small Student from Multiple Large Language Models ( http://arxiv.org/abs/2402.04616v2 )

ライセンス: Link先を確認
Yijun Tian, Yikun Han, Xiusi Chen, Wei Wang, Nitesh V. Chawla, (参考訳) より強力な大規模言語モデル(LLM)からより小さな言語モデルへの推論能力の移行は、より小さなLSMの方が低コストでデプロイしやすいため、非常に魅力的である。 既存の解法の中で、知識蒸留はその優れた効率と一般化のために際立っている。 しかし,既存の手法には,知識の多様性の制限やコンテキスト情報の豊富な欠如など,いくつかの欠点がある。 課題を解決し,コンパクトな言語モデルの学習を容易にするため,複数の大規模学習者から小学生のLLMを学ぶための知識蒸留パラダイムであるTinyLLMを提案する。 特に,学生のLCMは正しい回答を生成するだけでなく,これらの答えの背景にある理性を理解することを奨励する。 異なるLLMが多様な推論スキルを持っていることを考慮し、様々なLLM教師の知識を同化するために学生モデルを指導する。 さらに、文脈的に適切なシナリオにおいて、論理が正確で基礎づけられていることを保証するために、文脈内サンプルジェネレータと教師を強制するChain-of-Thought戦略を導入する。 2つの推論タスクにまたがる6つのデータセットの大規模な実験は、我々の手法の優位性を実証している。 その結果,TinyLLMはモデルサイズがかなり小さいにもかかわらず,大きなLLMよりも優れていた。

Transferring the reasoning capability from stronger large language models (LLMs) to smaller ones has been quite appealing, as smaller LLMs are more flexible to deploy with less expense. Among the existing solutions, knowledge distillation stands out due to its outstanding efficiency and generalization. However, existing methods suffer from several drawbacks, including limited knowledge diversity and the lack of rich contextual information. To solve the problems and facilitate the learning of compact language models, we propose TinyLLM, a new knowledge distillation paradigm to learn a small student LLM from multiple large teacher LLMs. In particular, we encourage the student LLM to not only generate the correct answers but also understand the rationales behind these answers. Given that different LLMs possess diverse reasoning skills, we guide the student model to assimilate knowledge from various teacher LLMs. We further introduce an in-context example generator and a teacher-forcing Chain-of-Thought strategy to ensure that the rationales are accurate and grounded in contextually appropriate scenarios. Extensive experiments on six datasets across two reasoning tasks demonstrate the superiority of our method. Results show that TinyLLM can outperform large teacher LLMs significantly, despite a considerably smaller model size.
翻訳日:2024-04-02 14:15:46 公開日:2024-04-01
# セマンティックセグメンテーションのための周波数適応型拡張畳み込み

Frequency-Adaptive Dilated Convolution for Semantic Segmentation ( http://arxiv.org/abs/2403.05369v5 )

ライセンス: Link先を確認
Linwei Chen, Lin Gu, Ying Fu, (参考訳) 連続する要素間のギャップを挿入することによって受容場を広げる拡張畳み込みは、コンピュータビジョンにおいて広く用いられている。 本研究では,スペクトル分析の観点から,拡張畳み込みの個々の位相を改善するための3つの戦略を提案する。 グローバルディレーションレートをハイパーパラメータとして固定する従来の慣行とは別に,局所周波数成分に基づいて動的にディレーションレートを調整する周波数適応型ディレイト・コンボリューション(FADC)を導入する。 その後、有効帯域幅と受信フィールドサイズを直接拡張する2つのプラグインモジュールを設計する。 Adaptive Kernel (AdaKern) モジュールは、畳み込み重みを低周波成分と高周波成分に分解し、チャネル単位でこれらの成分間の比を動的に調整する。 畳み込み重みの高周波部分を増やすことで、AdaKernはより多くの高周波成分を捕捉し、有効帯域幅を改善する。 周波数選択(FreqSelect)モジュールは、空間的に不変な再重み付けによって特徴表現における高周波数成分と低周波数成分を最適にバランスさせる。 背景の高周波数を抑え、FADCにより大きな拡張学習を奨励し、拡張されたスコープに対する受容野を増大させる。 セグメンテーションと物体検出に関する広範囲な実験は、我々のアプローチの有効性を一貫して検証している。 コードはhttps://github.com/Linwei-Chen/FADCで公開されている。

Dilated convolution, which expands the receptive field by inserting gaps between its consecutive elements, is widely employed in computer vision. In this study, we propose three strategies to improve individual phases of dilated convolution from the view of spectrum analysis. Departing from the conventional practice of fixing a global dilation rate as a hyperparameter, we introduce Frequency-Adaptive Dilated Convolution (FADC), which dynamically adjusts dilation rates spatially based on local frequency components. Subsequently, we design two plug-in modules to directly enhance effective bandwidth and receptive field size. The Adaptive Kernel (AdaKern) module decomposes convolution weights into low-frequency and high-frequency components, dynamically adjusting the ratio between these components on a per-channel basis. By increasing the high-frequency part of convolution weights, AdaKern captures more high-frequency components, thereby improving effective bandwidth. The Frequency Selection (FreqSelect) module optimally balances high- and low-frequency components in feature representations through spatially variant reweighting. It suppresses high frequencies in the background to encourage FADC to learn a larger dilation, thereby increasing the receptive field for an expanded scope. Extensive experiments on segmentation and object detection consistently validate the efficacy of our approach. The code is publicly available at https://github.com/Linwei-Chen/FADC.
翻訳日:2024-04-02 13:54:43 公開日:2024-04-01
# WaterVG:テキスト誘導ビジョンとmmWaveレーダに基づく水路視覚接地

WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar ( http://arxiv.org/abs/2403.12686v2 )

ライセンス: Link先を確認
Runwei Guan, Liye Jia, Fengyufan Yang, Shanliang Yao, Erick Purwanto, Xiaohui Zhu, Eng Gee Lim, Jeremy Smith, Ka Lok Man, Xuming Hu, Yutao Yue, (参考訳) ヒトの意図に基づく水路の認識は、水環境における無人表面車両(USV)の自律航法と運用において重要である。 視覚的グラウンドティングにインスパイアされ、人間のプロンプトに基づいてUSVベースの水路知覚のために設計された最初の視覚的グラウンドニングデータセットであるWaterVGを紹介した。 WaterVGには、複数のターゲットを記述するプロンプトが含まれており、バウンディングボックスやマスクを含むインスタンスレベルのアノテーションがある。 特に、WaterVGは34,987個の目標を持つ11,568個のサンプルを含んでおり、そのプロンプトは視覚とレーダーの両方の特徴を統合している。 テキスト誘導された2つのセンサーのパターンは、テキストプロンプトの細かい粒度と参照対象の視覚的特徴とレーダー的特徴とを装備する。 さらに, 適応レーダ重み付け (ARW) やマルチヘッドスリムクロスアテンション (MHSCA) を含む, 位相不均一モード (PHMF) モードをよく設計したマルチタスクモデルであるpotamoiを提案する。 正確には、ARWの抽出はレーダーの特徴を瞬時アライメントのために視覚と融合させる必要があった。 MHSCAは、非常に小さなパラメータ数とFLOPを持つ効率的な融合モジュールであり、視覚的グラウンドタスクで表現可能な2つの特徴を持つ2つのセンサーによって捕捉されたシナリオコンテキストをエレガントに融合する。 WaterVGの総合的な実験と評価が行われており、Patamoiは最先端のパフォーマンスを比較検討している。

The perception of waterways based on human intent is significant for autonomous navigation and operations of Unmanned Surface Vehicles (USVs) in water environments. Inspired by visual grounding, we introduce WaterVG, the first visual grounding dataset designed for USV-based waterway perception based on human prompts. WaterVG encompasses prompts describing multiple targets, with annotations at the instance level including bounding boxes and masks. Notably, WaterVG includes 11,568 samples with 34,987 referred targets, whose prompts integrates both visual and radar characteristics. The pattern of text-guided two sensors equips a finer granularity of text prompts with visual and radar features of referred targets. Moreover, we propose a low-power visual grounding model, Potamoi, which is a multi-task model with a well-designed Phased Heterogeneous Modality Fusion (PHMF) mode, including Adaptive Radar Weighting (ARW) and Multi-Head Slim Cross Attention (MHSCA). Exactly, ARW extracts required radar features to fuse with vision for prompt alignment. MHSCA is an efficient fusion module with a remarkably small parameter count and FLOPs, elegantly fusing scenario context captured by two sensors with linguistic features, which performs expressively on visual grounding tasks. Comprehensive experiments and evaluations have been conducted on WaterVG, where our Potamoi archives state-of-the-art performances compared with counterparts.
翻訳日:2024-04-02 13:44:58 公開日:2024-04-01
# 地域方言によるベンガル文字のIPAへの翻訳

Transcribing Bengali Text with Regional Dialects to IPA using District Guided Tokens ( http://arxiv.org/abs/2403.17407v2 )

ライセンス: Link先を確認
S M Jishanul Islam, Sadia Ahmmed, Sahid Hossain Mustakim, (参考訳) 国際音声アルファベット (IPA) へのベンガル文字の正確な転写は、言語の複雑な音韻論と文脈に依存した音変化のために難しい課題である。 この課題は、これらの方言の標準化された綴り規則が適用できないこと、これらの地域で人気がある地域や外国語の存在、様々な地域における音韻学的多様性により、ベンガル方言にとってさらに大きな意味を持つ。 本稿では,バングラデシュの6つの地区にまたがる新しいデータセットにDGT手法を導入することにより,このシーケンス・ツー・シーケンス問題へのアプローチを提案する。 鍵となる考え方は、IPA転写を生成する前に、入力されたテキストの地域方言または「区切り」に関する明示的な情報をモデルに提供することである。 これは、地区トークンを入力シーケンスに前置し、各地区に関連付けられた独特の音韻パターンを理解するためのモデルを効果的に導くことによって達成される。 DGTテクニックは、この新しいデータセットに基づいて、いくつかのトランスフォーマーベースのモデルを微調整する。 ByT5モデルは,mT5,BanglaT5,UmT5などの単語ベースモデルよりも優れた性能を示した。 これは、ByT5がテストセット内の語彙外単語を高い割合で処理できる能力に起因している。 提案手法は,多様な音韻変化を持つ言語に対して,地域方言情報をユビキタスな自然言語処理システムに組み込むことの重要性を強調した。 Bhashamulは、ベンガル語の方言と、IPAの転写に関する問題を、https://www.kaggle.com/competitions/regipa/で解決することを目的としている。 トレーニングと推論のノートブックは、コンペティションリンクから入手できる。

Accurate transcription of Bengali text to the International Phonetic Alphabet (IPA) is a challenging task due to the complex phonology of the language and context-dependent sound changes. This challenge is even more for regional Bengali dialects due to unavailability of standardized spelling conventions for these dialects, presence of local and foreign words popular in those regions and phonological diversity across different regions. This paper presents an approach to this sequence-to-sequence problem by introducing the District Guided Tokens (DGT) technique on a new dataset spanning six districts of Bangladesh. The key idea is to provide the model with explicit information about the regional dialect or "district" of the input text before generating the IPA transcription. This is achieved by prepending a district token to the input sequence, effectively guiding the model to understand the unique phonetic patterns associated with each district. The DGT technique is applied to fine-tune several transformer-based models, on this new dataset. Experimental results demonstrate the effectiveness of DGT, with the ByT5 model achieving superior performance over word-based models like mT5, BanglaT5, and umT5. This is attributed to ByT5's ability to handle a high percentage of out-of-vocabulary words in the test set. The proposed approach highlights the importance of incorporating regional dialect information into ubiquitous natural language processing systems for languages with diverse phonological variations. The following work was a result of the "Bhashamul" challenge, which is dedicated to solving the problem of Bengali text with regional dialects to IPA transcription https://www.kaggle.com/competitions/regipa/. The training and inference notebooks are available through the competition link.
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# Rotate to Scan: 医用画像セグメンテーションのためのトリプルSSMモジュール付きUNetライクなマンバ

Rotate to Scan: UNet-like Mamba with Triplet SSM Module for Medical Image Segmentation ( http://arxiv.org/abs/2403.17701v2 )

ライセンス: Link先を確認
Hao Tang, Lianglun Cheng, Guoheng Huang, Zhengguang Tan, Junhao Lu, Kaihong Wu, (参考訳) 画像セグメンテーションは、医療領域内の診断と治療の領域において重要な位置を占める。 従来の畳み込みニューラルネットワーク(CNN)とトランスフォーマーモデルは、この領域で大きな進歩を遂げてきたが、受容野の制限や高いコンピューティングの複雑さのために、依然として課題に直面している。 近年、状態空間モデル(SSM)、特にマンバとその変種は、視覚の分野で顕著な性能を示している。 しかし,それらの特徴抽出法は十分な有効性を持たず,冗長な構造を保ち,パラメータ削減の余地を残している。 従来の空間的・チャネル的アテンション手法により,Triplet Mamba-UNetを提案する。 この手法は残留VSSブロックを利用して集中的な文脈特徴を抽出し、Triplet SSMは空間次元とチャネル次元をまたいだ特徴を融合する。 我々はISIC17, ISIC18, CVC-300, CVC-ClinicDB, Kvasir-SEG, CVC-ColonDB, Kvasir-Instrumentのデータセットについて実験を行い, 提案したTM-UNetのセグメンテーション性能について検証した。 さらに,従来のVM-UNetと比較して,パラメータの3分の1削減を実現している。

Image segmentation holds a vital position in the realms of diagnosis and treatment within the medical domain. Traditional convolutional neural networks (CNNs) and Transformer models have made significant advancements in this realm, but they still encounter challenges because of limited receptive field or high computing complexity. Recently, State Space Models (SSMs), particularly Mamba and its variants, have demonstrated notable performance in the field of vision. However, their feature extraction methods may not be sufficiently effective and retain some redundant structures, leaving room for parameter reduction. Motivated by previous spatial and channel attention methods, we propose Triplet Mamba-UNet. The method leverages residual VSS Blocks to extract intensive contextual features, while Triplet SSM is employed to fuse features across spatial and channel dimensions. We conducted experiments on ISIC17, ISIC18, CVC-300, CVC-ClinicDB, Kvasir-SEG, CVC-ColonDB, and Kvasir-Instrument datasets, demonstrating the superior segmentation performance of our proposed TM-UNet. Additionally, compared to the previous VM-UNet, our model achieves a one-third reduction in parameters.
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# SDSAT:セマンティック適応トークンを用いた投機的復号化によるLCM推論の高速化

SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens ( http://arxiv.org/abs/2403.18647v2 )

ライセンス: Link先を確認
Chengbo Liu, Yong Zhu, (参考訳) 本稿では,SDSAT(Semantic Adaptive Tokens)を用いたSpeculative Decodingを通じて,大規模言語モデル(LLM)の高速化手法を提案する。 この設計の主な目的は、LLMモデルの精度を損なうことなく、より正確にドラフトトークンを生成する能力を高めることである。 中心となる戦略は以下のとおりである。 1) 構造を変更せずにフレキシブルな復号能力を持つ意味適応トークンを組み込むことにより、モデルを微調整し、高品質なドラフトトークンを生成する。 2)標準トークンに影響を与えないトレーニング手法を用いることで,トレーニングオーバーヘッドを最小限に抑えながら,オリジナルのフレームワーク上で並列復号能力を得ることができる。 3) グリーディ探索と核サンプリングの両方を用いて, 「二段階ドリフト検証」 生成戦略を考案した。 CodeLlama-13B と 7B で実施された実験では、それぞれ3.5X と 3.0X 以上の速度向上が達成されている。 https://github.com/hasuoshenyun/SDSATを参照してください。

We propose an acceleration scheme for large language models (LLMs) through Speculative Decoding with Semantic Adaptive Tokens (SDSAT). The primary objective of this design is to enhance the LLM model's ability to generate draft tokens more accurately without compromising the model's accuracy. The core strategies involve: 1) Fine-tune the model by incorporating semantic adaptive tokens that possess flexible decoding capabilities without changing its structure, allowing them to generate high-quality draft tokens. 2) By employing a training method that does not affect the standard tokens, the model can acquire parallel decoding abilities atop its original framework with minimal training overhead. 3) We have designed the "two-step-draft-then-verify" generation strategies using both greedy search and nucleus sampling. Experiments conducted on the CodeLlama-13B and 7B models have yielded speed increases of over 3.5X and 3.0X, respectively. Please refer to https://github.com/hasuoshenyun/SDSAT.
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# SemEval Task 1: アフリカ・アジア言語における意味的テキスト関連性

SemEval Task 1: Semantic Textual Relatedness for African and Asian Languages ( http://arxiv.org/abs/2403.18933v2 )

ライセンス: Link先を確認
Nedjma Ousidhoum, Shamsuddeen Hassan Muhammad, Mohamed Abdalla, Idris Abdulmumin, Ibrahim Said Ahmad, Sanchit Ahuja, Alham Fikri Aji, Vladimir Araujo, Meriem Beloucif, Christine De Kock, Oumaima Hourrane, Manish Shrivastava, Thamar Solorio, Nirmal Surange, Krishnapriya Vishnubhotla, Seid Muhie Yimam, Saif M. Mohammad, (参考訳) セマンティックテキスト関連性(STR)に関する最初の共有タスクを提示する。 以前の共有タスクは、主に意味的類似性に焦点を当てていたが、代わりに、アフリカーンス、アルジェリア語、アラビア語、アムハラ語、英語、ハウサ語、ヒンディー語、インドネシア語、キンヤルワンダ語、マラティー語、モロッコ語、現代標準アラビア語、パンジャビ語、スペイン語、テルグ語など、14言語にわたる意味的関連性の広範な現象を調査した。 これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 データセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。 参加型システムでは, 文の親密性(意味的関係の程度)によって, 3つの主要なトラックにおいて, 14言語で文対をランク付けするよう求められた。 a) 監督; 監督; 監督 (b)監督なし、及び (c)クロスリンガル。 参加者数は163名。 51の異なるチームから合計70の応募(全タスク)と38のシステム記述書類を受け取りました。 我々は,3つの異なるトラックに対して,最高の性能システムと,最も一般的かつ最も効果的なアプローチについて報告する。

We present the first shared task on Semantic Textual Relatedness (STR). While earlier shared tasks primarily focused on semantic similarity, we instead investigate the broader phenomenon of semantic relatedness across 14 languages: Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Punjabi, Spanish, and Telugu. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia -- regions characterised by the relatively limited availability of NLP resources. Each instance in the datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. Participating systems were asked to rank sentence pairs by their closeness in meaning (i.e., their degree of semantic relatedness) in the 14 languages in three main tracks: (a) supervised, (b) unsupervised, and (c) crosslingual. The task attracted 163 participants. We received 70 submissions in total (across all tasks) from 51 different teams, and 38 system description papers. We report on the best-performing systems as well as the most common and the most effective approaches for the three different tracks.
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# 医療のための機械学習における公平な特徴選択の評価

Evaluating Fair Feature Selection in Machine Learning for Healthcare ( http://arxiv.org/abs/2403.19165v2 )

ライセンス: Link先を確認
Md Rahat Shahriar Zawad, Peter Washington, (参考訳) 医療における機械学習の普遍的な採用により、社会的偏見の自動化が健康格差をさらに悪化させる可能性は大きなリスクをもたらす。 特徴選択の観点からアルゴリズム的公正性を探究する。 従来の特徴選択手法は、リソース集約的、相関的、あるいは非関連的な特徴を除去することで、より良い意思決定のための特徴を特定するが、これらの要因がサブグループ間でどのように異なるかを見落としている。 これらの問題に対処するために、全ての人口集団に等しく重要と考えられる公平な特徴選択法を評価する。 我々は, 偏差と大域的分類誤差の最小化のバランスを確保するため, 特徴選択プロセスにおける公平度測定と誤差測定を共同で検討した。 当社のアプローチを、公開可能な3つの医療データセットでテストしました。 これら3つのデータセットにおいて,バランスの取れた精度の最小化とともに,公平度指標の改善が観察された。 本手法は、公正な機械学習コンテキストにおける分配性と手続き的公正性の両方に対処する。

With the universal adoption of machine learning in healthcare, the potential for the automation of societal biases to further exacerbate health disparities poses a significant risk. We explore algorithmic fairness from the perspective of feature selection. Traditional feature selection methods identify features for better decision making by removing resource-intensive, correlated, or non-relevant features but overlook how these factors may differ across subgroups. To counter these issues, we evaluate a fair feature selection method that considers equal importance to all demographic groups. We jointly considered a fairness metric and an error metric within the feature selection process to ensure a balance between minimizing both bias and global classification error. We tested our approach on three publicly available healthcare datasets. On all three datasets, we observed improvements in fairness metrics coupled with a minimal degradation of balanced accuracy. Our approach addresses both distributive and procedural fairness within the fair machine learning context.
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# TableLLM: 実際のオフィス利用シナリオにおけるLLMによる語彙データ操作の実現

TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios ( http://arxiv.org/abs/2403.19318v2 )

ライセンス: Link先を確認
Xiaokang Zhang, Jing Zhang, Zeyao Ma, Yang Li, Bohan Zhang, Guanlin Li, Zijun Yao, Kangli Xu, Jinchang Zhou, Daniel Zhang-Li, Jifan Yu, Shu Zhao, Juanzi Li, Jie Tang, (参考訳) 文書やスプレッドシートに埋め込まれていても、実際のオフィスシナリオに対応できるような、表形式のデータ操作タスクを巧みに処理するための、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)であるTableLLMを紹介します。 本稿では, 推論プロセス拡張戦略を取り入れた遠隔指導手法を提案し, 推論パターンのより効率的な理解を支援するとともに, 自動生成データの品質確保を図る。 TableLLMの性能を評価するため,文書フォーマットとスプレッドシートフォーマットの両方に対処するためのベンチマークを作成し,両方のシナリオを処理可能な十分に構成された評価パイプラインを構築した。 より詳細な評価は、既存の汎用および表型データ中心のLLMと比較して、TableLLMの利点を裏付けるものである。 我々のコードとデータはhttps://github.com/TableLLM/TableLLM.comで公開されています。

We introduce TableLLM, a robust large language model (LLM) with 13 billion parameters, purpose-built for proficiently handling tabular data manipulation tasks, whether they are embedded within documents or spreadsheets, catering to real-world office scenarios. We propose a distant supervision method for training, which comprises a reasoning process extension strategy, aiding in training LLMs to understand reasoning patterns more effectively as well as a cross-way validation strategy, ensuring the quality of the automatically generated data. To evaluate the performance of TableLLM, we have crafted a benchmark tailored to address both document and spreadsheet formats as well as constructed a well-organized evaluation pipeline capable of handling both scenarios. Thorough evaluations underscore the advantages of TableLLM when compared to various existing general-purpose and tabular data-focused LLMs. We have publicly released the model checkpoint, source code, benchmarks, and a web application for user interaction.Our codes and data are publicly available at https://github.com/TableLLM/TableLLM.
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# BAMM:双方向自己回帰運動モデル

BAMM: Bidirectional Autoregressive Motion Model ( http://arxiv.org/abs/2403.19435v3 )

ライセンス: Link先を確認
Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Pu Wang, Minwoo Lee, Srijan Das, Chen Chen, (参考訳) テキストから人間の動きを生成することは、拡散または生成マスキングのプロセスを通じて、動きモデルを認知させることによって支配されている。 しかし、これらのモデルは、運動長に関する事前の知識を必要とすることによって、ユーザビリティに大きな制限に直面している。 逆に、自己回帰運動モデルは、劣化した生成品質と編集能力を犠牲にして、動きの終端を適応的に予測することで、この制限に対処する。 これらの課題に対処するために,新たなテキスト・ツー・モーション生成フレームワークである双方向自動回帰運動モデル(BAMM)を提案する。 BAMMは,(1)3次元の人間の動きを潜在空間の離散トークンに変換するモーション・トークンライザ,(2)ハイブリット・アテンション・マスキング戦略によってランダムにマスクされたトークンを自動予測するマスキング・セルフアテンション・トランスフォーマーの2つの重要な構成要素から構成される。 生成マスクモデリングと自己回帰モデリングを統一することにより、BAMMはモーショントークン間のリッチで双方向な依存関係をキャプチャし、テキスト入力から動的に調整されたモーションシーケンス長のモーション出力への確率的マッピングを学習する。 この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。 HumanML3DとKIT-MLデータセットの大規模な実験により、BAMMは定性的および定量的な測定において現在の最先端の手法を超越していることが示された。 私たちのプロジェクトページはhttps://exitudio.github.io/BAMM-pageで公開されています。

Generating human motion from text has been dominated by denoising motion models either through diffusion or generative masking process. However, these models face great limitations in usability by requiring prior knowledge of the motion length. Conversely, autoregressive motion models address this limitation by adaptively predicting motion endpoints, at the cost of degraded generation quality and editing capabilities. To address these challenges, we propose Bidirectional Autoregressive Motion Model (BAMM), a novel text-to-motion generation framework. BAMM consists of two key components: (1) a motion tokenizer that transforms 3D human motion into discrete tokens in latent space, and (2) a masked self-attention transformer that autoregressively predicts randomly masked tokens via a hybrid attention masking strategy. By unifying generative masked modeling and autoregressive modeling, BAMM captures rich and bidirectional dependencies among motion tokens, while learning the probabilistic mapping from textual inputs to motion outputs with dynamically-adjusted motion sequence length. This feature enables BAMM to simultaneously achieving high-quality motion generation with enhanced usability and built-in motion editability. Extensive experiments on HumanML3D and KIT-ML datasets demonstrate that BAMM surpasses current state-of-the-art methods in both qualitative and quantitative measures. Our project page is available at https://exitudio.github.io/BAMM-page
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# Change-Agent: 対話型総合的リモートセンシング変化解釈と分析を目指して

Change-Agent: Towards Interactive Comprehensive Remote Sensing Change Interpretation and Analysis ( http://arxiv.org/abs/2403.19646v2 )

ライセンス: Link先を確認
Chenyang Liu, Keyan Chen, Haotian Zhang, Zipeng Qi, Zhengxia Zou, Zhenwei Shi, (参考訳) 地球表面における変化のモニタリングは、自然の過程や人間の影響を理解するために不可欠であり、精密で包括的な解釈手法を必要とする。 リモートセンシング衛星画像は、これらの変化を監視するためのユニークな視点を提供し、重要な研究焦点としてリモートセンシング画像変化解釈(RSICI)の出現につながった。 現在のRSICI技術は、変更検出と変更キャプションを包含しており、それぞれに包括的な解釈を提供する限界がある。 そこで本稿では,変更検出や変更キャプション,変更対象のカウント,変更原因分析などのユーザ命令に従って,包括的な変更解釈と洞察に富んだ分析を実現するための,ユーザ命令に従うインタラクティブなChange-Agentを提案する。 Change-Agentは、マルチレベル変化解釈(MCI)モデルを目として、大きな言語モデル(LLM)を脳として統合する。 MCIモデルには2つのピクセルレベルの変化検出とセマンティックレベルの変化キャプションが含まれており、複数のBI時間的反復的相互作用(BI3)層は局所知覚増強(LPE)とグローバル差分融合注意(GDFA)モジュールを使用してモデルの識別的特徴表現能力を向上する。 MCIモデルのトレーニングを支援するため、多数の変更マスクと変更のキャプションを備えたLEVIR-MCIデータセットを構築した。 大規模な実験は、提案したMCIモデルの有効性を実証し、表面変化の包括的かつインテリジェントな解釈を促進する上で、我々のChange-Agentの有望な可能性を強調する。 MCIモデルとChange-Agentのデータセットとコードベースをhttps://github.com/Chen-Yang-Liu/Change-Agentで公開します。

Monitoring changes in the Earth's surface is crucial for understanding natural processes and human impacts, necessitating precise and comprehensive interpretation methodologies. Remote sensing satellite imagery offers a unique perspective for monitoring these changes, leading to the emergence of remote sensing image change interpretation (RSICI) as a significant research focus. Current RSICI technology encompasses change detection and change captioning, each with its limitations in providing comprehensive interpretation. To address this, we propose an interactive Change-Agent, which can follow user instructions to achieve comprehensive change interpretation and insightful analysis according to user instructions, such as change detection and change captioning, change object counting, change cause analysis, etc. The Change-Agent integrates a multi-level change interpretation (MCI) model as the eyes and a large language model (LLM) as the brain. The MCI model contains two branches of pixel-level change detection and semantic-level change captioning, in which multiple BI-temporal Iterative Interaction (BI3) layers utilize Local Perception Enhancement (LPE) and the Global Difference Fusion Attention (GDFA) modules to enhance the model's discriminative feature representation capabilities. To support the training of the MCI model, we build the LEVIR-MCI dataset with a large number of change masks and captions of changes. Extensive experiments demonstrate the effectiveness of the proposed MCI model and highlight the promising potential of our Change-Agent in facilitating comprehensive and intelligent interpretation of surface changes. To facilitate future research, we will make our dataset and codebase of the MCI model and Change-Agent publicly available at https://github.com/Chen-Yang-Liu/Change-Agent
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# NJUST-KMG at TRAC-2024 Tasks 1 and 2: Offline Harm Potential Identification

NJUST-KMG at TRAC-2024 Tasks 1 and 2: Offline Harm Potential Identification ( http://arxiv.org/abs/2403.19713v2 )

ライセンス: Link先を確認
Jingyuan Wang, Shengdong Xu, Yang Yang, (参考訳) 本報告では2つのサブタスクを囲むTRAC-2024オフラインハーム電位密度化法について詳述する。 この調査は、いくつかのインドの言語でソーシャルメディアのコメントからなる豊富なデータセットを利用しており、専門家の審査員によって、オフラインの文脈に害をもたらす悪影響を正確に把握するために注釈付けされた。 参加者に割り当てられた目的は、与えられた状況における害の可能性を正確に評価し、最も可能性の高い標的を特定できるアルゴリズムを設計することであった。 F1値はそれぞれ0.73と0.96の2つの異なるトラックで2位にランクインした。 提案手法は, 主に, 微調整のための事前学習モデルの選択, コントラスト学習技術の導入, およびテストセットのアンサンブルアプローチの達成に関わる。

This report provide a detailed description of the method that we proposed in the TRAC-2024 Offline Harm Potential dentification which encloses two sub-tasks. The investigation utilized a rich dataset comprised of social media comments in several Indian languages, annotated with precision by expert judges to capture the nuanced implications for offline context harm. The objective assigned to the participants was to design algorithms capable of accurately assessing the likelihood of harm in given situations and identifying the most likely target(s) of offline harm. Our approach ranked second in two separate tracks, with F1 values of 0.73 and 0.96 respectively. Our method principally involved selecting pretrained models for finetuning, incorporating contrastive learning techniques, and culminating in an ensemble approach for the test set.
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# デカップリング空間時間アグリゲーションによるビデオベースヒューマンポーズ回帰

Video-Based Human Pose Regression via Decoupled Space-Time Aggregation ( http://arxiv.org/abs/2403.19926v2 )

ライセンス: Link先を確認
Jijie He, Wenwu Yang, (参考訳) ビデオシーケンスにおける時間的依存性を活用することで、マルチフレームの人間のポーズ推定アルゴリズムは、閉塞、動きのぼやけ、ビデオデフォーカスといった複雑な状況において顕著な結果を示した。 これらのアルゴリズムは主にヒートマップに基づいており、結果としてフレーム毎に高い計算とストレージ要求が発生し、ビデオシナリオ、特にエッジデバイスにおけるその柔軟性とリアルタイムなアプリケーションを制限する。 本稿では,ヒートマップなどの中間表現をバイパスし,入力を出力されたジョイント座標に直接マッピングする,効率的かつ効果的なヒューマンポーズ回帰手法を開発する。 ヒトのポーズの隣り合う関節の空間的相関にもかかわらず、各関節の時間的軌跡は相対的な独立性を示す。 そこで本研究では,各関節の空間的状況と時間的手がかりを分離的に把握し,時空間次元の融合を回避するために,新たにDSTA(Decoupled Space-Time Aggregation Network)を提案する。 具体的には、DSTAは各関節に専用の特徴トークンを学習し、時空間依存のモデリングを容易にする。 提案手法では, 近接する関節の空間的依存性と各関節の時間的依存性を効率よく, 柔軟に利用することができる。 大規模な実験により,本手法の優位性を実証した。 従来の回帰ベースの単一フレームのヒューマンポーズ推定手法と比較して、DSTAはパフォーマンスを大幅に向上し、PoseTrack2017の8.9mAP改善を実現している。 さらに,本手法は,最先端のヒートマップに基づくマルチフレームヒューマンポーズ推定手法に匹敵するか,あるいは同等である。 プロジェクトページ: https://github.com/zgspose/DSTA.com

By leveraging temporal dependency in video sequences, multi-frame human pose estimation algorithms have demonstrated remarkable results in complicated situations, such as occlusion, motion blur, and video defocus. These algorithms are predominantly based on heatmaps, resulting in high computation and storage requirements per frame, which limits their flexibility and real-time application in video scenarios, particularly on edge devices. In this paper, we develop an efficient and effective video-based human pose regression method, which bypasses intermediate representations such as heatmaps and instead directly maps the input to the output joint coordinates. Despite the inherent spatial correlation among adjacent joints of the human pose, the temporal trajectory of each individual joint exhibits relative independence. In light of this, we propose a novel Decoupled Space-Time Aggregation network (DSTA) to separately capture the spatial contexts between adjacent joints and the temporal cues of each individual joint, thereby avoiding the conflation of spatiotemporal dimensions. Concretely, DSTA learns a dedicated feature token for each joint to facilitate the modeling of their spatiotemporal dependencies. With the proposed joint-wise local-awareness attention mechanism, our method is capable of efficiently and flexibly utilizing the spatial dependency of adjacent joints and the temporal dependency of each joint itself. Extensive experiments demonstrate the superiority of our method. Compared to previous regression-based single-frame human pose estimation methods, DSTA significantly enhances performance, achieving an 8.9 mAP improvement on PoseTrack2017. Furthermore, our approach either surpasses or is on par with the state-of-the-art heatmap-based multi-frame human pose estimation methods. Project page: https://github.com/zgspose/DSTA.
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# DiJiang: コンパクトカーネル化による効率的な大規模言語モデル

DiJiang: Efficient Large Language Models through Compact Kernelization ( http://arxiv.org/abs/2403.19928v2 )

ライセンス: Link先を確認
Hanting Chen, Zhicheng Liu, Xutao Wang, Yuchuan Tian, Yunhe Wang, (参考訳) 変圧器の計算負荷を削減するため、線形注意の研究は大きな勢いを増した。 しかし、注意機構の改善戦略は、多くのパラメータを持つ大規模言語モデルでは実行不可能な大規模な再訓練を必要とするのが一般的である。 本稿では、事前学習したバニラトランスの線形複雑性モデルへの変換を可能にする新しい周波数領域カーネル化手法であるDiJiangを提案する。 重み付けされた準モンテカルロ法をサンプリングに利用することにより、理論的には近似効率が優れている。 トレーニング計算の複雑さをさらに軽減するために、我々のカーネル化は離散コサイン変換(DCT)演算に基づいている。 大規模な実験により,提案手法は元のTransformerに匹敵する性能を示したが,トレーニングコストは大幅に削減され,推論速度は大幅に向上した。 我々のDiJiang-7Bは、様々なベンチマークでLLaMA2-7Bと同等のパフォーマンスを達成していますが、トレーニングコストは1/50程度です。 コードはhttps://github.com/YuchuanTian/DiJiang.comで入手できる。

In an effort to reduce the computational load of Transformers, research on linear attention has gained significant momentum. However, the improvement strategies for attention mechanisms typically necessitate extensive retraining, which is impractical for large language models with a vast array of parameters. In this paper, we present DiJiang, a novel Frequency Domain Kernelization approach that enables the transformation of a pre-trained vanilla Transformer into a linear complexity model with little training costs. By employing a weighted Quasi-Monte Carlo method for sampling, the proposed approach theoretically offers superior approximation efficiency. To further reduce the training computational complexity, our kernelization is based on Discrete Cosine Transform (DCT) operations. Extensive experiments demonstrate that the proposed method achieves comparable performance to the original Transformer, but with significantly reduced training costs and much faster inference speeds. Our DiJiang-7B achieves comparable performance with LLaMA2-7B on various benchmark while requires only about 1/50 training cost. Code is available at https://github.com/YuchuanTian/DiJiang.
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# FABind+: 改良されたポケット予測とポース生成による分子ドッキングの強化

FABind+: Enhancing Molecular Docking through Improved Pocket Prediction and Pose Generation ( http://arxiv.org/abs/2403.20261v2 )

ライセンス: Link先を確認
Kaiyuan Gao, Qizhi Pei, Jinhua Zhu, Tao Qin, Kun He, Lijun Wu, (参考訳) 分子ドッキングは薬物発見の重要な過程である。 従来のテクニックは、物理的な原則によって管理される広範囲なサンプリングとシミュレーションに依存しているが、これらの手法は、しばしば遅くてコストがかかる。 ディープラーニングベースのアプローチの出現は、正確性と効率の両面において、大きな可能性を秘めている。 スピードと精度を重視したモデルであるFABindの基本的な作業に基づいて,FABind+を改良し,前機種の性能を大幅に向上させる。 分子ドッキングにおいて,ポケット予測が重要なボトルネックであると認識し,ポケット予測を大幅に洗練し,ドッキングプロセスの合理化を図る手法を提案する。 さらに,ドッキングモジュールを改良し,ポーズ生成能力を向上する。 従来のサンプリング/生成手法とギャップを埋めるために,FABindの回帰フレームワークを微調整するだけで,信頼性モデルと組み合わせて,単純かつ効果的なサンプリング手法を導入する。 実験結果と解析結果から,FABind+は元々のFABindを著しく上回り,最先端の競争性能を達成し,洞察に富んだモデリング戦略を提供することが明らかとなった。 このことは、FABind+が分子ドッキングと薬物発見において大きな進歩を示していることを示している。 私たちのコードはhttps://github.com/QizhiPei/FABind.orgにある。

Molecular docking is a pivotal process in drug discovery. While traditional techniques rely on extensive sampling and simulation governed by physical principles, these methods are often slow and costly. The advent of deep learning-based approaches has shown significant promise, offering increases in both accuracy and efficiency. Building upon the foundational work of FABind, a model designed with a focus on speed and accuracy, we present FABind+, an enhanced iteration that largely boosts the performance of its predecessor. We identify pocket prediction as a critical bottleneck in molecular docking and propose a novel methodology that significantly refines pocket prediction, thereby streamlining the docking process. Furthermore, we introduce modifications to the docking module to enhance its pose generation capabilities. In an effort to bridge the gap with conventional sampling/generative methods, we incorporate a simple yet effective sampling technique coupled with a confidence model, requiring only minor adjustments to the regression framework of FABind. Experimental results and analysis reveal that FABind+ remarkably outperforms the original FABind, achieves competitive state-of-the-art performance, and delivers insightful modeling strategies. This demonstrates FABind+ represents a substantial step forward in molecular docking and drug discovery. Our code is in https://github.com/QizhiPei/FABind.
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# 図面と理解: Visual Promptsを活用してMLLMで必要なものを理解する

Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want ( http://arxiv.org/abs/2403.20271v2 )

ライセンス: Link先を確認
Weifeng Lin, Xinyu Wei, Ruichuan An, Peng Gao, Bocheng Zou, Yulin Luo, Siyuan Huang, Shanghang Zhang, Hongsheng Li, (参考訳) 人間と人工知能(AI)の相互作用は、マルチモーダル大言語モデル(MLLM)の有効性を反映する重要な要素である。 しかし、現在のMLLMは主に画像レベルの理解とテキスト命令との相互作用の制限に重点を置いており、それによって使用量や応答深さの柔軟性を制限している。 本稿では、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、視覚的プロンプトのための挑戦的なベンチマークを紹介する。 具体的には、視覚的エンコーダ、視覚的プロンプトエンコーダ、および様々な視覚的プロンプト(ポイント、バウンディングボックス、フリーフォーム形状)と言語理解のためのLLMを接続する、新しいエンドツーエンド訓練型マルチモーダル言語モデル(MLLM)であるSPHINX-Vを提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。 MDVP-Dataは、自然画像、ドキュメントイメージ、OCRイメージ、モバイルスクリーンショット、Webスクリーンショット、マルチパネルイメージを含む1.6Mのユニークな画像-視覚的プロンプト-テキスト命令-フォローのサンプルを含むマルチドメインデータセットを備えている。 さらに、MDVP-Benchは、視覚的プロンプト命令を理解するためのモデルの能力を評価するために、包括的で挑戦的なベンチマークである。 我々は,SPHINX-Vの視覚的プロンプトによる印象的なマルチモーダルインタラクション能力を示し,詳細な画素レベルの記述と質問応答能力の大幅な向上を明らかにした。

The interaction between humans and artificial intelligence (AI) is a crucial factor that reflects the effectiveness of multimodal large language models (MLLMs). However, current MLLMs primarily focus on image-level comprehension and limit interaction to textual instructions, thereby constraining their flexibility in usage and depth of response. In this paper, we introduce the Draw-and-Understand project: a new model, a multi-domain dataset, and a challenging benchmark for visual prompting. Specifically, we propose SPHINX-V, a new end-to-end trained Multimodal Large Language Model (MLLM) that connects a vision encoder, a visual prompt encoder and an LLM for various visual prompts (points, bounding boxes, and free-form shape) and language understanding. To advance visual prompting research for MLLMs, we introduce MDVP-Data and MDVP-Bench. MDVP-Data features a multi-domain dataset containing 1.6M unique image-visual prompt-text instruction-following samples, including natural images, document images, OCR images, mobile screenshots, web screenshots, and multi-panel images. Furthermore, we present MDVP-Bench, a comprehensive and challenging benchmark to assess a model's capability in understanding visual prompting instructions. Our experiments demonstrate SPHINX-V's impressive multimodal interaction capabilities through visual prompting, revealing significant improvements in detailed pixel-level description and question-answering abilities.
翻訳日:2024-04-02 13:25:26 公開日:2024-04-01
# ニューラルネットワークを用いた効率的な3次元インスタンスマッピングと位置決め

Efficient 3D Instance Mapping and Localization with Neural Fields ( http://arxiv.org/abs/2403.19797v2 )

ライセンス: Link先を確認
George Tang, Krishna Murthy Jatavallabhula, Antonio Torralba, (参考訳) 本稿では,RGB画像の列から3次元インスタンスセグメンテーションの暗黙的なシーン表現を学習する問題に取り組む。 そこで本研究では,新しい視点からレンダリング可能なラベルフィールドを効率よく学習し,ビュー一貫性のあるインスタンスセグメンテーションマスクを生成する3DIMLを提案する。 3DIMLは、既存の暗黙のシーン表現ベースのメソッドのトレーニングと推論ランタイムを大幅に改善する。 3DIMLは、自己監督的な方法で神経野を最適化し、複雑な訓練手順と損失関数設計を必要とする先行技術に対して、2段階のプロセスを活用する。 第1フェーズであるInstanceMapは、フロントエンドインスタンスセグメンテーションモデルによって生成された画像シーケンスの2Dセグメンテーションマスクとして入力され、画像間で対応するマスクを3Dラベルに関連付ける。 これらのほぼビューに一貫性のある擬似ラベルマスクは、第2フェーズの InstanceLift で、 InstanceMap が見逃した領域を補間し、あいまいさを解決するニューラルラベルフィールドのトレーニングを監督するために使用される。 さらに、トレーニングされたラベルフィールドとオフザシェルフイメージセグメンテーションモデルに与えられたインスタンスマスクのほぼリアルタイムなローカライズを可能にするインスタンスLocを導入する。 Replica と ScanNet のデータセットから 3DIML を推定し,画像シーケンスの軽度な仮定の下で 3DIML の有効性を実証した。 我々は,既存の暗黙のシーン表現手法を同等の品質で大幅に高速化し,より高速で効果的な3Dシーン理解を実現する可能性を示した。

We tackle the problem of learning an implicit scene representation for 3D instance segmentation from a sequence of posed RGB images. Towards this, we introduce 3DIML, a novel framework that efficiently learns a label field that may be rendered from novel viewpoints to produce view-consistent instance segmentation masks. 3DIML significantly improves upon training and inference runtimes of existing implicit scene representation based methods. Opposed to prior art that optimizes a neural field in a self-supervised manner, requiring complicated training procedures and loss function design, 3DIML leverages a two-phase process. The first phase, InstanceMap, takes as input 2D segmentation masks of the image sequence generated by a frontend instance segmentation model, and associates corresponding masks across images to 3D labels. These almost view-consistent pseudolabel masks are then used in the second phase, InstanceLift, to supervise the training of a neural label field, which interpolates regions missed by InstanceMap and resolves ambiguities. Additionally, we introduce InstanceLoc, which enables near realtime localization of instance masks given a trained label field and an off-the-shelf image segmentation model by fusing outputs from both. We evaluate 3DIML on sequences from the Replica and ScanNet datasets and demonstrate 3DIML's effectiveness under mild assumptions for the image sequences. We achieve a large practical speedup over existing implicit scene representation methods with comparable quality, showcasing its potential to facilitate faster and more effective 3D scene understanding.
翻訳日:2024-04-02 13:15:05 公開日:2024-04-01
# 構造的問題:画像塗布用拡散モデルにおける意味的相違に対処する

Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting ( http://arxiv.org/abs/2403.19898v2 )

ライセンス: Link先を確認
Haipeng Liu, Yang Wang, Biao Qian, Meng Wang, Yong Rui, (参考訳) 画像塗布用拡散確率モデルの作成は,前処理中に画像のテクスチャにノイズを付加することを目的としており,逆デノナイジング法によりテクスチャのマスキング領域を復元することを目的としている。意味的な意味論の生成にもかかわらず,既存の芸術は,意味的に密集したマスキング領域とマスキング領域のセマンティックな相違に悩まされ,意味的に密集したマスキングされたテクスチャは,拡散過程の純粋なノイズに変換され,それらの大きな相違が生じる。 本稿では,意味論の無意味化がテクスチャの認知過程をどのように導くか,意味的相違にどう対処するか,一貫性と意味的セマンティクスの生成を促進するか,といった課題に対処することを目的とする。 そこで本研究では,StrDiffusion という構造誘導型拡散モデルを提案する。この構造誘導型拡散モデルでは,従来のテクスチャ・デノナイジング過程を再構築し,画像の塗り絵の簡易なデノナイジングの目的を導出する。1) セマンティック・スパース構造は早期のセマンティック・セマンティクスに対処するのに有用であり,2) 密なテクスチャは後期のセマンティック・セマンティクスを生成する。2) 密密なセマンティクスのセマンティクスは,テクスチャ・デノナイジング過程の時間依存的な構造ガイダンスを基本的に提供し,構造意味論的セマンティクス・セマンティクスの時間依存性に適合する。このデノナイジングプロセスでは,構造誘導型ニューラルネットワークは,マスクと非マティクス間の整合性の整合性を利用して,単純化されたデノナイジング目的を推定するために訓練されている。

Denoising diffusion probabilistic models for image inpainting aim to add the noise to the texture of image during the forward process and recover masked regions with unmasked ones of the texture via the reverse denoising process.Despite the meaningful semantics generation,the existing arts suffer from the semantic discrepancy between masked and unmasked regions, since the semantically dense unmasked texture fails to be completely degraded while the masked regions turn to the pure noise in diffusion process,leading to the large discrepancy between them. In this paper,we aim to answer how unmasked semantics guide texture denoising process;together with how to tackle the semantic discrepancy,to facilitate the consistent and meaningful semantics generation. To this end,we propose a novel structure-guided diffusion model named StrDiffusion,to reformulate the conventional texture denoising process under structure guidance to derive a simplified denoising objective for image inpainting,while revealing:1)the semantically sparse structure is beneficial to tackle semantic discrepancy in early stage, while dense texture generates reasonable semantics in late stage;2)the semantics from unmasked regions essentially offer the time-dependent structure guidance for the texture denoising process,benefiting from the time-dependent sparsity of the structure semantics.For the denoising process,a structure-guided neural network is trained to estimate the simplified denoising objective by exploiting the consistency of the denoised structure between masked and unmasked regions.Besides,we devise an adaptive resampling strategy as a formal criterion as whether structure is competent to guide the texture denoising process,while regulate their semantic correlations.Extensive experiments validate the merits of StrDiffusion over the state-of-the-arts.Our code is available at https://github.com/htyjers/StrDiffusion.
翻訳日:2024-04-02 13:15:05 公開日:2024-04-01